최근 LLM 아키텍처는 파라미터보다 KV 캐시와 잔차 경로를 다시 설계한다
Sebastian Raschka의 최근 LLM 아키텍처 정리는 Gemma 4의 cross-layer KV sharing, Laguna XS.2의 layer-wise attention budget, ZAYA1-8B...
Blog
Sebastian Raschka의 최근 LLM 아키텍처 정리는 Gemma 4의 cross-layer KV sharing, Laguna XS.2의 layer-wise attention budget, ZAYA1-8B...
arXiv 2605.14212는 자동 멀티 에이전트 시스템의 병목을 frozen executor ceiling으로 보고, Designer가 태스크별 MAS 스크립트를 만들고 Executor가 이를 실행하는 과정을...
Tejas Kumar의 AI Engineer 발표는 낡은 GPT-3.5 Turbo 브라우저 에이전트가 Hacker News upvote task에서 실패하고 거짓 성공을 보고하는 장면을 출발점으로, tool re...
Adrien Grondin의 AI Engineer 발표는 Gemma 4를 iPhone에서 약 40 tok/s로 실행하는 데모를 통해, MLX Swift LM, Hugging Face MLX Community, 4...
Dex Horthy의 AI Engineer 발표는 복잡한 brownfield 코드베이스에서 AI 코딩 에이전트가 실패하는 이유를 모델 지능 부족보다 context window 관리, compaction, spec...
Barry Zhang과 Mahesh Murag의 AI Engineer 발표는 Claude Code와 MCP 이후의 에이전트 병목이 연결성이 아니라 도메인 전문성이라고 보고, SKILL.md·스크립트·참조 파일을...
Barry Zhang의 AI Engineer 발표는 Anthropic의 Building Effective Agents 글을 바탕으로, 에이전트를 모든 문제에 붙이는 대신 복잡도·가치·검증 가능성·오류 비용을 따지...
SenseNova-U1은 NEO-unify 기반으로 비전 인코더와 VAE를 제거하고, 픽셀 공간 생성과 MoT 구조를 결합해 이해·생성·편집·인터리브 생성을 한 모델 계열에 묶은 공개 멀티모달 릴리스다.
Qwen-Image-2.0은 Qwen3-VL 조건 인코더, MMDiT, 16× VAE, 다단계 데이터 플라이휠을 결합해 1K 토큰 텍스트 지시, 2K 포토리얼리즘, 이미지 편집을 하나의 생성 모델 표면으로 통합하...
SANA-WM은 Hybrid GDN-Softmax attention, 6-DoF camera control, long-video refiner, pose annotation pipeline을 묶어 720p 60초...
SlimQwen은 Qwen3-Next-80A3B를 23A2B로 줄이는 과정에서 구조적 pruning, partial-preservation expert merging, KD+LM objective, MTP dis...
AI Engineer의 MCP UI 발표는 MCP Apps가 tool result를 단순 텍스트가 아니라 sandboxed iframe, ui:// resource, bidirectional communicati...