SWIM은 비디오 객체 이해를 시각 프롬프트에서 자연어 지시로 옮긴다
SWIM은 NL-Refer와 cross-attention mask supervision으로 Qwen2.5-VL 계열 모델이 추론 시 point·box·mask 없이 자연어로 지칭한 비디오 객체에 주의를 맞추도록...
Blog
SWIM은 NL-Refer와 cross-attention mask supervision으로 Qwen2.5-VL 계열 모델이 추론 시 point·box·mask 없이 자연어로 지칭한 비디오 객체에 주의를 맞추도록...
rasbt/LLMs-from-scratch의 ch04/09_dsa는 DeepSeek-V3.2의 DeepSeek Sparse Attention을 작은 GPT 코드로 재구성해, long-context attentio...
δ-mem은 frozen Transformer에 8×8 온라인 연상기억 상태를 붙이고, 그 readout으로 attention을 저랭크 보정해 장기 상호작용 메모리를 컨텍스트 확장 없이 다루려는 경량 메모리 메커...
NVIDIA Nemotron-Labs-Diffusion은 동일한 백본에서 오토리그레시브, 블록 단위 디퓨전, self-speculation 디코딩을 전환해 품질과 저동시성 추론 효율을 함께 노리는 tri-mode...
NVIDIA의 AI-Q agent skill은 Claude Code, Codex, OpenCode 같은 범용 에이전트 하네스가 리서치 파이프라인을 직접 재구현하지 않고, 로컬 또는 사내 AI-Q 서버에 장기 리서...
karpathy/nn-zero-to-hero는 micrograd에서 makemore, GPT tokenizer까지 이어지는 코드 중심 강의 아카이브로, LLM 시대에 역전파·언어모델링·토크나이저를 손으로 복원하는...
Stephen Chin의 AI Engineer Europe 발표는 context graph를 단순 검색 보강이 아니라 단기·장기·추론 메모리와 의사결정 trace를 연결하는 에이전트 운영 계층으로 제시한다.
arXiv 2605.12466은 backbone이 출력 임베딩 초안을 만들고 attractor head가 고정점을 풀어 정제하는 구조로, looped LM의 메모리·깊이 병목을 줄이면서 770M 언어 모델과 27...
Hy-MT2는 1.8B·7B·30B-A3B 번역 모델, IFMTBench, FP8/GGUF 양자화 변형을 함께 공개하며 번역 전용 post-training과 1.25-bit 압축을 결합한 텐센트 Hunyuan의...
이 논문은 Pólya식 문제 해결 휴리스틱으로 같은 문제의 여러 정답 풀이를 self-generated mid-training 데이터로 만들고, 그 다양성이 이후 GRPO 기반 RL에서 더 넓은 추론 경로와 조합...
SmallCode는 7B~20B 로컬 모델을 전제로 context budget, forgiving tool parser, patch-first editing, 검증 루프를 묶은 코딩 에이전트다. v0.7.1 릴리...
Google I/O 2026의 Sundar Pichai 키노트는 Gemini 3.5, Antigravity, Spark, Search agents, TPU 8을 하나의 agentic Gemini stack으로 묶...