긴 작업을 못 버티는 이유는 모델 크기가 아니라 horizon일 수 있다
이 논문은 장기 상호작용 에이전트 학습의 병목을 추상적인 탐색 난이도가 아니라 horizon length 자체에서 찾고, macro action과 subgoal decomposition 같은 horizon reduction이 RL 안정성과 일반화까지 개선한다는 점을 실험적으로 보인다.
Category
파인튜닝, 증류, RL, PEFT처럼 모델을 학습하고 압축하는 방법을 다룹니다.
이 논문은 장기 상호작용 에이전트 학습의 병목을 추상적인 탐색 난이도가 아니라 horizon length 자체에서 찾고, macro action과 subgoal decomposition 같은 horizon reduction이 RL 안정성과 일반화까지 개선한다는 점을 실험적으로 보인다.
OneVL은 자율주행 VLA의 Chain-of-Thought를 언어 latent만이 아니라 미래 프레임 예측을 포함한 world-model supervision으로 압축해, explicit CoT를 넘는 정확도와 answer-only 수준 지연을 동시에 노린다.
Tuna-2는 사전학습 비전 인코더와 VAE를 제거하고 raw pixel patch embedding만으로 이해와 생성을 함께 처리해, native unified multimodal model의 복잡도를 낮추면서도 세밀한 시각 이해 성능을 끌어올리려는 시도다.
Dynin-Omni는 텍스트·이미지·음성 이해와 생성, 그리고 비디오 이해를 하나의 8B 마스크드 디퓨전 백본으로 통합해, 옴니모달 모델링을 외부 생성기 조립이 아니라 shared discrete token space 위의 iterative denoising 문제로 다시 정의한다.
PRISM은 멀티모달 모델의 표준 SFT→RLVR 파이프라인 사이에 black-box on-policy distillation 기반의 pre-alignment 단계를 삽입해, 시각 인식과 추론이 서로 다른 방식으로 무너지는 distributional drift를 먼저 복구하자고 제안한다.
Jiunsong의 SuperGemma4-26B-Uncensored-Fast v2는 Google Gemma 4 26B IT를 MLX 4bit 형식으로 재가공해, Apple Silicon 로컬 환경에서 속도와 실사용 에이전트 성능을 함께 끌어올리려는 비공식 커뮤니티 릴리스다.
DeepSeek-V4-Pro는 1.6T total / 49B activated MoE와 CSA·HCA 하이브리드 attention, mHC, Muon optimizer를 결합해 1M 토큰 문맥에서 추론 비용과 KV-cache를 크게 줄이면서도 코딩·추론·에이전트 성능을 함께 끌어올리려는 공개 모델이다.
Xiaomi의 MiMo-V2.5는 310B Sparse MoE에 비전·오디오 인코더와 에이전트 후학습을 결합해, 1M 컨텍스트와 네이티브 옴니모달 이해를 하나의 공개 모델로 밀어 넣은 릴리스다.
Jin’s Doodle의 Large-scale Model 핵심 기술 리포트는 decoder-only 아키텍처, RMSNorm·SwiGLU·Pre-Norm, RoPE·mRoPE, FlashAttention·GQA를 하나의 설계 지도처럼 엮어 최신 LLM과 VLM의 기본 선택지를 빠르게 복기하게 만든다.
Oxen.ai의 실험은 Qwen3-VL-8B를 자동차 손상 분류에 맞춰 319장 이미지로 LoRA 파인튜닝하면, 약 1달러 학습비로 Gemini 3 Flash보다 더 높은 정확도와 더 짧은 추론 시간을 동시에 얻을 수 있음을 보여준다.
Doc-to-LoRA는 긴 문맥을 매번 다시 읽지 않고도 답할 수 있도록, 문서에서 LoRA 어댑터를 한 번의 forward pass로 생성하는 hypernetwork를 메타학습해 context distillation의 지연과 메모리 비용을 크게 줄이려는 접근이다.
Learning to Reason in 13 Parameters는 RL 기반 post-training이 SFT보다 훨씬 정보 밀도가 높은 업데이트를 만든다는 가설 아래, TinyLoRA로 Qwen2.5-7B의 추론 성능을 단 13개 파라미터와 26바이트만으로 크게 끌어올릴 수 있음을 보여준다.
Prompt-Level Distillation은 교사 모델의 추론 규칙을 학생 모델의 시스템 프롬프트로 옮겨, 파인튜닝 없이도 작은 모델이 복잡한 분류 추론을 더 빠르고 투명하게 수행하도록 만든다.
dFactory는 확산 언어 모델의 미세 조정을 위해 block diffusion, MoE 가중치 병합, 분산 학습, 병렬 디코딩 경로를 하나의 실행 가능한 프레임워크로 묶는다.