Tuna-2는 비전 인코더를 버리고 픽셀 임베딩으로 통합 멀티모달을 다시 설계한...
Tuna-2는 사전학습 비전 인코더와 VAE를 제거하고 raw pixel patch embedding만으로 이해와 생성을 함께 처리해, native unified multimodal model의 복잡도를 낮추면서...
Blog
Tuna-2는 사전학습 비전 인코더와 VAE를 제거하고 raw pixel patch embedding만으로 이해와 생성을 함께 처리해, native unified multimodal model의 복잡도를 낮추면서...
Kronos는 OHLCVA 캔들 데이터를 계층적 토큰으로 양자화하고 12B개 K-line 기록 위에서 디코더 전용 Transformer를 사전학습해 예측·변동성·합성 데이터·투자 시뮬레이션을 하나의 금융 시계열...
OpenSearch-VL은 데이터 합성, 시각·검색 도구 환경, fatal-aware GRPO를 하나의 공개 레시피로 묶어 프론티어급 멀티모달 딥서치 에이전트를 재현하려는 시도다.
AI Engineer의 Matt Pocock 워크숍은 AI 코딩의 핵심을 더 긴 프롬프트가 아니라 작은 작업, 공유된 설계 개념, PRD, Kanban, TDD, deep module, 병렬 에이전트 운영으로 재...
AI Engineer Europe의 Stripe 발표는 AI 제품 수익화가 단순 SaaS 구독료에서 벗어나 가치 지표, 사용량 기반 비용, 하이브리드 가격 모델, 사용량 가드레일, 빠른 가격 실험을 함께 설계하는...
AI Engineer 워크숍 영상의 Demand-Driven Context는 엔터프라이즈 에이전트가 실패한 지점을 관찰해 필요한 도메인 지식만 구조화하고, 지식 모놀리스를 agent-ready context bl...
CopilotKit/CopilotKit은 단순 채팅 위젯보다 넓은 문제를 겨냥한다. 사용자-facing UI, Runtime, AG-UI, 에이전트, 도구, MCP 서버를 하나의 상호작용 루프로 묶어 실제 애플리...
bytonylee/future-slide-skill은 참조 슬라이드에서 DESIGN.md를 추출하고, 덱 계획과 페이지별 프롬프트, 순차 이미지 생성을 분리해 GPT 계열 모델의 흔한 슬라이드 생성 실패를 줄이려...
huggingface/ml-intern은 논문 읽기나 코드 생성에 머무는 챗봇이 아니라, Hugging Face Hub·GitHub·로컬 추론 서버·세션 트레이스·승인 흐름을 하나의 작업 루프로 묶으려는 ML 엔...
Microsoft Research의 DELEGATE-52는 52개 전문 도메인, 310개 작업 환경, 19개 LLM 실험을 통해 장기 위임형 워크플로우에서 최신 모델조차 문서를 점진적으로 훼손한다는 사실을 ben...
Nick Nisi와 Zack Proser의 'Skills at Scale'은 코딩 에이전트 활용의 핵심을 더 긴 프롬프트가 아니라, 설명·제약·스크립트·평가 루프를 갖춘 portable skill로 업무 지식을...
Angelos Perivolaropoulos의 'Training an LLM from Scratch, Locally'는 로컬에서 LLM을 훈련한다는 과장된 서사를 걷어내고, 작은 GPT를 tokenizer·arc...