MobileLLM-R1은 서브-B reasoning model의 학습 레시피를...
arXiv 2509.24945의 MobileLLM-R1은 140M·360M·950M reasoning model을 공개하면서, 초대형 말뭉치보다 능력별 데이터 선별·재혼합·지식 압축이 작은 모델의 reasonin...
Category
파인튜닝, 증류, RL, PEFT, 학습 루프처럼 모델을 만들고 적응시키는 방법을 다룹니다.
arXiv 2509.24945의 MobileLLM-R1은 140M·360M·950M reasoning model을 공개하면서, 초대형 말뭉치보다 능력별 데이터 선별·재혼합·지식 압축이 작은 모델의 reasonin...
Geoffrey Hinton의 Forward-Forward 알고리즘은 각 layer가 positive data와 negative data를 구분하는 local goodness objective로 학습하면, 역전파...
arXiv 2604.27077은 nGPT가 weight decay와 warmup 없이 빠르게 학습된다는 장점에도 불구하고 폭·깊이·토큰 horizon을 키울 때 학습률 transfer가 깨지는 문제를 보이고, a...
NeurIPS 2025에 채택된 arXiv 2505.13898은 Llama 3.1, Qwen 3, OLMo 2의 residual stream을 분석해, 깊은 Transformer의 후반부 layer가 새로운 다단...
Prefix-tuning, soft prompt tuning, suffix prompt tuning, passage-specific prompt tuning을 하나의 계보로 보면, LLM을 다시 학습시키는 대신...
arXiv 2605.08301은 Qwen·Llama·Mistral 계열 사전학습 Transformer에서 일부 attention layer를 SSM layer로 바꾸고, 짧은 alignment와 post-trai...
SWIM은 NL-Refer와 cross-attention mask supervision으로 Qwen2.5-VL 계열 모델이 추론 시 point·box·mask 없이 자연어로 지칭한 비디오 객체에 주의를 맞추도록...
δ-mem은 frozen Transformer에 8×8 온라인 연상기억 상태를 붙이고, 그 readout으로 attention을 저랭크 보정해 장기 상호작용 메모리를 컨텍스트 확장 없이 다루려는 경량 메모리 메커...
karpathy/nn-zero-to-hero는 micrograd에서 makemore, GPT tokenizer까지 이어지는 코드 중심 강의 아카이브로, LLM 시대에 역전파·언어모델링·토크나이저를 손으로 복원하는...
arXiv 2605.12466은 backbone이 출력 임베딩 초안을 만들고 attractor head가 고정점을 풀어 정제하는 구조로, looped LM의 메모리·깊이 병목을 줄이면서 770M 언어 모델과 27...
이 논문은 Pólya식 문제 해결 휴리스틱으로 같은 문제의 여러 정답 풀이를 self-generated mid-training 데이터로 만들고, 그 다양성이 이후 GRPO 기반 RL에서 더 넓은 추론 경로와 조합...
Mind Lab의 MinT 기술 보고서는 LoRA adapter를 단순 메모리 절약용 파라미터가 아니라 rollout, update, export, evaluation, serving, rollback을 통과하는...
Nested Learning은 모델 구조와 학습 규칙을 별개의 설계물이 아니라 서로 다른 시간척도의 중첩 최적화·연상기억 문제로 해석하고, Hope와 CMS를 통해 continual learning과 long-c...
SU-01은 30B-A3B reasoning backbone에 reverse-perplexity SFT, two-stage RL, test-time verification/refinement를 얹어 IMO·USA...
SlimQwen은 Qwen3-Next-80A3B를 23A2B로 줄이는 과정에서 구조적 pruning, partial-preservation expert merging, KD+LM objective, MTP dis...
SOD는 tool-integrated reasoning에서 학생 모델의 잘못된 tool call이 만든 상태 드리프트를 step-level divergence로 감지하고, 온폴리시 증류 신호를 단계별로 재가중해...
PriorVLA는 pretrained VLA를 단순 초기값으로 쓰지 않고, frozen Prior Expert와 Expert Queries로 장면·모터 priors를 보존해 OOD와 few-shot 로봇 조작 적...
MIT의 ELF는 언어 생성을 연속 임베딩 공간의 Flow Matching 문제로 두고 마지막 단계에서만 토큰으로 이산화해, diffusion/flow 계열의 CFG와 self-conditioning을 언어 모델...
MMProLong은 Qwen2.5-VL-7B를 32K에서 128K로 확장하며, long-document VQA 합성·pool-native 길이 분포·8:2 추출/추론 혼합이 긴 멀티모달 컨텍스트 일반화에 더 중요...
Ai2와 UC Berkeley의 EMO는 문서 경계를 약한 supervision으로 삼아 같은 문서의 토큰이 공유 expert pool 안에서 routing되도록 MoE를 사전학습한다. 1B active / 14...
Latent Agents의 IMAD는 3개 에이전트의 토론 trace를 SFT로 학습한 뒤 GRPO의 동적 보상과 길이 클리핑으로 내재화해, 명시적 debate와 비슷하거나 더 나은 성능을 훨씬 적은 토큰으로 재...
Sampling-based Visual Projection(SVP)은 소량의 이미지, self-captioning, GroundingDINO류 grounding feedback만으로 VLM의 시각-언어 정렬을 보...
Unsloth의 NVIDIA 협업 글은 packed sequence metadata 캐싱, double-buffered checkpoint reload, MoE routing 최적화처럼 커널 주변의 동기화와 데이...
Angelos Perivolaropoulos의 'Training an LLM from Scratch, Locally'는 로컬에서 LLM을 훈련한다는 과장된 서사를 걷어내고, 작은 GPT를 tokenizer·arc...
UniPool은 MoE에서 레이어마다 따로 들고 있던 expert 집합을 전역 공유 풀로 바꾸고, pool-level balancing과 NormRouter를 더해 깊이에 비례하던 expert 파라미터 증가를 느...
LoPE는 hard question에서 실패한 롤아웃에 Lorem Ipsum 기반 프롬프트 교란을 추가해 GRPO의 zero-advantage 병목을 깨고, prompt-space exploration이 단순 추...
이 논문은 장기 상호작용 에이전트 학습의 병목을 추상적인 탐색 난이도가 아니라 horizon length 자체에서 찾고, macro action과 subgoal decomposition 같은 horizon red...
PRISM은 멀티모달 모델의 표준 SFT→RLVR 파이프라인 사이에 black-box on-policy distillation 기반의 pre-alignment 단계를 삽입해, 시각 인식과 추론이 서로 다른 방식으...
Jin’s Doodle의 Large-scale Model 핵심 기술 리포트는 decoder-only 아키텍처, RMSNorm·SwiGLU·Pre-Norm, RoPE·mRoPE, FlashAttention·GQA를...
Oxen.ai의 실험은 Qwen3-VL-8B를 자동차 손상 분류에 맞춰 319장 이미지로 LoRA 파인튜닝하면, 약 1달러 학습비로 Gemini 3 Flash보다 더 높은 정확도와 더 짧은 추론 시간을 동시에 얻...
Doc-to-LoRA는 긴 문맥을 매번 다시 읽지 않고도 답할 수 있도록, 문서에서 LoRA 어댑터를 한 번의 forward pass로 생성하는 hypernetwork를 메타학습해 context distillat...
Learning to Reason in 13 Parameters는 RL 기반 post-training이 SFT보다 훨씬 정보 밀도가 높은 업데이트를 만든다는 가설 아래, TinyLoRA로 Qwen2.5-7B의 추...
Prompt-Level Distillation은 교사 모델의 추론 규칙을 학생 모델의 시스템 프롬프트로 옮겨, 파인튜닝 없이도 작은 모델이 복잡한 분류 추론을 더 빠르고 투명하게 수행하도록 만든다.
dFactory는 확산 언어 모델의 미세 조정을 위해 block diffusion, MoE 가중치 병합, 분산 학습, 병렬 디코딩 경로를 하나의 실행 가능한 프레임워크로 묶는다.