Model Training

파인튜닝, 증류, RL, PEFT, 학습 루프처럼 모델을 만들고 적응시키는 방법을 다룹니다.

MobileLLM-R1은 서브-B reasoning model의 학습 레시피를...

arXiv 2509.24945의 MobileLLM-R1은 140M·360M·950M reasoning model을 공개하면서, 초대형 말뭉치보다 능력별 데이터 선별·재혼합·지식 압축이 작은 모델의 reasonin...

Sangmin Lee2026.05.25

Model Training

Forward-Forward는 역전파를 두 번의 순전파로 바꿀 수 있을까

Geoffrey Hinton의 Forward-Forward 알고리즘은 각 layer가 positive data와 negative data를 구분하는 local goodness objective로 학습하면, 역전파...

Sangmin Lee2026.05.25

Model Training

νGPT는 Normalized Transformer의 학습률을 작은 모델에서 큰...

arXiv 2604.27077은 nGPT가 weight decay와 warmup 없이 빠르게 학습된다는 장점에도 불구하고 폭·깊이·토큰 horizon을 키울 때 학습률 transfer가 깨지는 문제를 보이고, a...

Sangmin Lee2026.05.25

Model Training

LLM은 깊이를 효율적으로 쓰지 못하고 있을 수 있다

NeurIPS 2025에 채택된 arXiv 2505.13898은 Llama 3.1, Qwen 3, OLMo 2의 residual stream을 분석해, 깊은 Transformer의 후반부 layer가 새로운 다단...

Sangmin Lee2026.05.25

Model Training

Prompt tuning은 작은 벡터로 생성·임베딩·리랭킹을 잇는다

Prefix-tuning, soft prompt tuning, suffix prompt tuning, passage-specific prompt tuning을 하나의 계보로 보면, LLM을 다시 학습시키는 대신...

Sangmin Lee2026.05.25

Model Training

Priming은 사전학습 Transformer를 Hybrid SSM으로 바꾸는...

arXiv 2605.08301은 Qwen·Llama·Mistral 계열 사전학습 Transformer에서 일부 attention layer를 SSM layer로 바꾸고, 짧은 alignment와 post-trai...

Sangmin Lee2026.05.25

Model Training

SWIM은 비디오 객체 이해를 시각 프롬프트에서 자연어 지시로 옮긴다

SWIM은 NL-Refer와 cross-attention mask supervision으로 Qwen2.5-VL 계열 모델이 추론 시 point·box·mask 없이 자연어로 지칭한 비디오 객체에 주의를 맞추도록...

Sangmin Lee2026.05.25

Model Training

δ-mem은 긴 컨텍스트보다 작은 온라인 상태로 LLM 기억을 붙인다

δ-mem은 frozen Transformer에 8×8 온라인 연상기억 상태를 붙이고, 그 readout으로 attention을 저랭크 보정해 장기 상호작용 메모리를 컨텍스트 확장 없이 다루려는 경량 메모리 메커...

Sangmin Lee2026.05.24

Model Training

Karpathy의 nn-zero-to-hero는 신경망을 라이브러리가 아니라 계...

karpathy/nn-zero-to-hero는 micrograd에서 makemore, GPT tokenizer까지 이어지는 코드 중심 강의 아카이브로, LLM 시대에 역전파·언어모델링·토크나이저를 손으로 복원하는...

Sangmin Lee2026.05.23

Model Training

Attractor Models는 반복 추론을 고정점 학습 문제로 바꾼다

arXiv 2605.12466은 backbone이 출력 임베딩 초안을 만들고 attractor head가 고정점을 풀어 정제하는 구조로, looped LM의 메모리·깊이 병목을 줄이면서 770M 언어 모델과 27...

Sangmin Lee2026.05.22

Model Training

RL은 배운 풀이법을 조합할 때 더 강해진다

이 논문은 Pólya식 문제 해결 휴리스틱으로 같은 문제의 여러 정답 풀이를 self-generated mid-training 데이터로 만들고, 그 다양성이 이후 GRPO 기반 RL에서 더 넓은 추론 경로와 조합...

Sangmin Lee2026.05.21

Model Training

MinT는 LoRA를 학습 기법이 아니라 정책 운영 단위로 만든다

Mind Lab의 MinT 기술 보고서는 LoRA adapter를 단순 메모리 절약용 파라미터가 아니라 rollout, update, export, evaluation, serving, rollback을 통과하는...

Sangmin Lee2026.05.20

Model Training

Nested Learning은 아키텍처와 옵티마이저를 같은 기억 문제로 묶는다

Nested Learning은 모델 구조와 학습 규칙을 별개의 설계물이 아니라 서로 다른 시간척도의 중첩 최적화·연상기억 문제로 해석하고, Hope와 CMS를 통해 continual learning과 long-c...

Sangmin Lee2026.05.20

Model Training

SU-01은 올림피아드 추론을 SFT·RL·TTS 하나의 레시피로 밀어올린다

SU-01은 30B-A3B reasoning backbone에 reverse-perplexity SFT, two-stage RL, test-time verification/refinement를 얹어 IMO·USA...

Sangmin Lee2026.05.20

Model Training

SlimQwen은 거대 MoE를 그냥 자르지 않고, 사전학습 궤적까지 함께 압축...

SlimQwen은 Qwen3-Next-80A3B를 23A2B로 줄이는 과정에서 구조적 pruning, partial-preservation expert merging, KD+LM objective, MTP dis...

Sangmin Lee2026.05.18

Model Training

SOD는 도구 사용 에이전트 증류를 step 단위로 조절한다

SOD는 tool-integrated reasoning에서 학생 모델의 잘못된 tool call이 만든 상태 드리프트를 step-level divergence로 감지하고, 온폴리시 증류 신호를 단계별로 재가중해...

Sangmin Lee2026.05.16

Model Training

PriorVLA는 로봇 VLA 파인튜닝을 사전지식 보존 문제로 다시 정의한다

PriorVLA는 pretrained VLA를 단순 초기값으로 쓰지 않고, frozen Prior Expert와 Expert Queries로 장면·모터 priors를 보존해 OOD와 few-shot 로봇 조작 적...

Sangmin Lee2026.05.16

Model Training

ELF는 확산 언어 모델을 토큰이 아니라 임베딩 공간의 flow로 다시 만든다

MIT의 ELF는 언어 생성을 연속 임베딩 공간의 Flow Matching 문제로 두고 마지막 단계에서만 토큰으로 이산화해, diffusion/flow 계열의 CFG와 self-conditioning을 언어 모델...

Sangmin Lee2026.05.15

Model Training

MMProLong은 128K VLM 학습을 더 긴 샘플이 아니라 데이터 레시피...

MMProLong은 Qwen2.5-VL-7B를 32K에서 128K로 확장하며, long-document VQA 합성·pool-native 길이 분포·8:2 추출/추론 혼합이 긴 멀티모달 컨텍스트 일반화에 더 중요...

Sangmin Lee2026.05.14

Model Training

EMO는 MoE를 거대한 단일 모델이 아니라 조립 가능한 expert 모듈로 학...

Ai2와 UC Berkeley의 EMO는 문서 경계를 약한 supervision으로 삼아 같은 문서의 토큰이 공유 expert pool 안에서 routing되도록 MoE를 사전학습한다. 1B active / 14...

Sangmin Lee2026.05.13

Model Training

Latent Agents는 멀티에이전트 토론을 한 모델의 잠재공간으로 압축한다

Latent Agents의 IMAD는 3개 에이전트의 토론 trace를 SFT로 학습한 뒤 GRPO의 동적 보상과 길이 클리핑으로 내재화해, 명시적 debate와 비슷하거나 더 나은 성능을 훨씬 적은 토큰으로 재...

Sangmin Lee2026.05.13

Model Training

SVP는 VLM 정렬을 더 많은 라벨이 아니라 grounding feedback...

Sampling-based Visual Projection(SVP)은 소량의 이미지, self-captioning, GroundingDINO류 grounding feedback만으로 VLM의 시각-언어 정렬을 보...

Sangmin Lee2026.05.11

Model Training

Unsloth와 NVIDIA의 협업은 LLM 학습 병목을 커널 밖에서 줄인다

Unsloth의 NVIDIA 협업 글은 packed sequence metadata 캐싱, double-buffered checkpoint reload, MoE routing 최적화처럼 커널 주변의 동기화와 데이...

Sangmin Lee2026.05.11

Model Training

이 워크숍은 로컬 LLM 훈련을 신비화하지 않고 tokenizer·transfo...

Angelos Perivolaropoulos의 'Training an LLM from Scratch, Locally'는 로컬에서 LLM을 훈련한다는 과장된 서사를 걷어내고, 작은 GPT를 tokenizer·arc...

Sangmin Lee2026.05.10

Model Training

UniPool은 MoE expert를 레이어별 자산이 아니라 전역 풀로 바꾼다

UniPool은 MoE에서 레이어마다 따로 들고 있던 expert 집합을 전역 공유 풀로 바꾸고, pool-level balancing과 NormRouter를 더해 깊이에 비례하던 expert 파라미터 증가를 느...

Sangmin Lee2026.05.08

Model Training

LoPE는 왜 의미 없는 문장으로 GRPO의 막힌 탐색을 푸는가

LoPE는 hard question에서 실패한 롤아웃에 Lorem Ipsum 기반 프롬프트 교란을 추가해 GRPO의 zero-advantage 병목을 깨고, prompt-space exploration이 단순 추...

Sangmin Lee2026.05.08

Model Training

긴 작업을 못 버티는 이유는 모델 크기가 아니라 horizon일 수 있다

이 논문은 장기 상호작용 에이전트 학습의 병목을 추상적인 탐색 난이도가 아니라 horizon length 자체에서 찾고, macro action과 subgoal decomposition 같은 horizon red...

Sangmin Lee2026.05.06

Model Training

PRISM은 멀티모달 RL의 병목을 RL 자체보다 SFT 이후의 분포 붕괴에서...

PRISM은 멀티모달 모델의 표준 SFT→RLVR 파이프라인 사이에 black-box on-policy distillation 기반의 pre-alignment 단계를 삽입해, 시각 인식과 추론이 서로 다른 방식으...

Sangmin Lee2026.05.06

Model Training

이 리포트는 LLM 핵심 설계를 Architecture·RoPE·Attentio...

Jin’s Doodle의 Large-scale Model 핵심 기술 리포트는 decoder-only 아키텍처, RMSNorm·SwiGLU·Pre-Norm, RoPE·mRoPE, FlashAttention·GQA를...

Sangmin Lee2026.05.06

Model Training

Qwen3-VL은 319장·1달러 파인튜닝으로 Gemini 3 Flash를 앞질...

Oxen.ai의 실험은 Qwen3-VL-8B를 자동차 손상 분류에 맞춰 319장 이미지로 LoRA 파인튜닝하면, 약 1달러 학습비로 Gemini 3 Flash보다 더 높은 정확도와 더 짧은 추론 시간을 동시에 얻...

Sangmin Lee2026.05.06

Model Training

Doc-to-LoRA는 문서를 LoRA 어댑터로 즉시 내재화한다

Doc-to-LoRA는 긴 문맥을 매번 다시 읽지 않고도 답할 수 있도록, 문서에서 LoRA 어댑터를 한 번의 forward pass로 생성하는 hypernetwork를 메타학습해 context distillat...

Sangmin Lee2026.05.06

Model Training

TinyLoRA는 추론 파인튜닝을 13개 파라미터까지 압축한다

Learning to Reason in 13 Parameters는 RL 기반 post-training이 SFT보다 훨씬 정보 밀도가 높은 업데이트를 만든다는 가설 아래, TinyLoRA로 Qwen2.5-7B의 추...

Sangmin Lee2026.05.06

Model Training

Prompt-Level Distillation은 추론을 가중치가 아니라 프롬프트...

Prompt-Level Distillation은 교사 모델의 추론 규칙을 학생 모델의 시스템 프롬프트로 옮겨, 파인튜닝 없이도 작은 모델이 복잡한 분류 추론을 더 빠르고 투명하게 수행하도록 만든다.

Sangmin Lee2026.05.06

Model Training

dFactory는 Diffusion LLM 파인튜닝을 실험이 아니라 공정으로 만...

dFactory는 확산 언어 모델의 미세 조정을 위해 block diffusion, MoE 가중치 병합, 분산 학습, 병렬 디코딩 경로를 하나의 실행 가능한 프레임워크로 묶는다.

Sangmin Lee2026.05.06