KoHRM-Text는 HRM-Text를 한국어·터미널 사전학습 실험으로 다시 읽...
KoHRM-Text는 HRM-Text의 recurrent PrefixLM 학습 스택을 한국어, 터미널, 툴콜, 코드 데이터와 131K 토크나이저로 재구성한 1.4B급 scratch pretraining 작업 저장...
Category
파인튜닝, 증류, RL, PEFT, 학습 루프처럼 모델을 만들고 적응시키는 방법을 다룹니다.
KoHRM-Text는 HRM-Text의 recurrent PrefixLM 학습 스택을 한국어, 터미널, 툴콜, 코드 데이터와 131K 토크나이저로 재구성한 1.4B급 scratch pretraining 작업 저장...
arXiv 2606.12397은 MoE router row를 각 expert weight matrix의 principal singular direction에 맞추는 Manifold Power Iteration을...
NVIDIA의 JAX/MaxText NVFP4 글은 Blackwell GB200·GB300에서 MLP GEMM을 4비트 NVFP4로 낮추되 RHT, 2D weight scaling, stochastic round...
mmGRPO는 여러 LM 모듈과 도구로 구성된 언어 모델 프로그램을 그대로 두고, 모듈 호출 단위의 GRPO와 MIPROv2 프롬프트 최적화를 조합해 더 좋은 rollout 분포를 만드는 온라인 RL 레시피다.
NoisyAgent는 user/tool noise를 agentic RL rollout에 통제적으로 주입해, 깨끗한 벤치마크 성능과 실제 환경 robustness 사이의 간극을 줄이려는 에이전트 학습 프레임워크다.
DualOptim+는 forget·retain 목표의 공통 성분은 base state로 공유하고 충돌하는 잔차는 delta state로 분리해, LLM machine unlearning의 망각-유틸리티 균형을 개...
arXiv 2605.22598은 Fisher information을 자원 제약 아래 극대화하는 단순한 Gaussian population coding 모델만으로 soft mode, 긴 상관 길이, critical...
ProAct는 LLM 에이전트의 내부 미래 시뮬레이션이 실제 환경과 어긋나는 simulation drift를 GLAD distillation과 MC-Critic 기반 RL로 줄이려는 agent lookahead...
arXiv 2605.28814의 Bidirectional Evolutionary Search는 best-of-N과 tree search가 가진 희소 검증·자가회귀 확장 편향을 전방 evolutionary oper...
Rethinking VLM Representation for VLA Initialization은 로봇 VLA 성능을 단순한 백본 크기 문제가 아니라 embodied VQA 신호, LoRA 보존, 로봇 데이터 사전...
arXiv 2509.24945의 MobileLLM-R1은 140M·360M·950M reasoning model을 공개하면서, 초대형 말뭉치보다 능력별 데이터 선별·재혼합·지식 압축이 작은 모델의 reasonin...
Geoffrey Hinton의 Forward-Forward 알고리즘은 각 layer가 positive data와 negative data를 구분하는 local goodness objective로 학습하면, 역전파...
arXiv 2604.27077은 nGPT가 weight decay와 warmup 없이 빠르게 학습된다는 장점에도 불구하고 폭·깊이·토큰 horizon을 키울 때 학습률 transfer가 깨지는 문제를 보이고, a...
Prefix-tuning, soft prompt tuning, suffix prompt tuning, passage-specific prompt tuning을 하나의 계보로 보면, LLM을 다시 학습시키는 대신...
arXiv 2605.08301은 Qwen·Llama·Mistral 계열 사전학습 Transformer에서 일부 attention layer를 SSM layer로 바꾸고, 짧은 alignment와 post-trai...
SWIM은 NL-Refer와 cross-attention mask supervision으로 Qwen2.5-VL 계열 모델이 추론 시 point·box·mask 없이 자연어로 지칭한 비디오 객체에 주의를 맞추도록...
δ-mem은 frozen Transformer에 8×8 온라인 연상기억 상태를 붙이고, 그 readout으로 attention을 저랭크 보정해 장기 상호작용 메모리를 컨텍스트 확장 없이 다루려는 경량 메모리 메커...
karpathy/nn-zero-to-hero는 micrograd에서 makemore, GPT tokenizer까지 이어지는 코드 중심 강의 아카이브로, LLM 시대에 역전파·언어모델링·토크나이저를 손으로 복원하는...
arXiv 2605.12466은 backbone이 출력 임베딩 초안을 만들고 attractor head가 고정점을 풀어 정제하는 구조로, looped LM의 메모리·깊이 병목을 줄이면서 770M 언어 모델과 27...
이 논문은 Pólya식 문제 해결 휴리스틱으로 같은 문제의 여러 정답 풀이를 self-generated mid-training 데이터로 만들고, 그 다양성이 이후 GRPO 기반 RL에서 더 넓은 추론 경로와 조합...
Mind Lab의 MinT 기술 보고서는 LoRA adapter를 단순 메모리 절약용 파라미터가 아니라 rollout, update, export, evaluation, serving, rollback을 통과하는...
Nested Learning은 모델 구조와 학습 규칙을 별개의 설계물이 아니라 서로 다른 시간척도의 중첩 최적화·연상기억 문제로 해석하고, Hope와 CMS를 통해 continual learning과 long-c...
SU-01은 30B-A3B reasoning backbone에 reverse-perplexity SFT, two-stage RL, test-time verification/refinement를 얹어 IMO·USA...
SlimQwen은 Qwen3-Next-80A3B를 23A2B로 줄이는 과정에서 구조적 pruning, partial-preservation expert merging, KD+LM objective, MTP dis...
SOD는 tool-integrated reasoning에서 학생 모델의 잘못된 tool call이 만든 상태 드리프트를 step-level divergence로 감지하고, 온폴리시 증류 신호를 단계별로 재가중해...
PriorVLA는 pretrained VLA를 단순 초기값으로 쓰지 않고, frozen Prior Expert와 Expert Queries로 장면·모터 priors를 보존해 OOD와 few-shot 로봇 조작 적...
MIT의 ELF는 언어 생성을 연속 임베딩 공간의 Flow Matching 문제로 두고 마지막 단계에서만 토큰으로 이산화해, diffusion/flow 계열의 CFG와 self-conditioning을 언어 모델...
MMProLong은 Qwen2.5-VL-7B를 32K에서 128K로 확장하며, long-document VQA 합성·pool-native 길이 분포·8:2 추출/추론 혼합이 긴 멀티모달 컨텍스트 일반화에 더 중요...
Ai2와 UC Berkeley의 EMO는 문서 경계를 약한 supervision으로 삼아 같은 문서의 토큰이 공유 expert pool 안에서 routing되도록 MoE를 사전학습한다. 1B active / 14...
Latent Agents의 IMAD는 3개 에이전트의 토론 trace를 SFT로 학습한 뒤 GRPO의 동적 보상과 길이 클리핑으로 내재화해, 명시적 debate와 비슷하거나 더 나은 성능을 훨씬 적은 토큰으로 재...
Sampling-based Visual Projection(SVP)은 소량의 이미지, self-captioning, GroundingDINO류 grounding feedback만으로 VLM의 시각-언어 정렬을 보...
Unsloth의 NVIDIA 협업 글은 packed sequence metadata 캐싱, double-buffered checkpoint reload, MoE routing 최적화처럼 커널 주변의 동기화와 데이...
Angelos Perivolaropoulos의 'Training an LLM from Scratch, Locally'는 로컬에서 LLM을 훈련한다는 과장된 서사를 걷어내고, 작은 GPT를 tokenizer·arc...
UniPool은 MoE에서 레이어마다 따로 들고 있던 expert 집합을 전역 공유 풀로 바꾸고, pool-level balancing과 NormRouter를 더해 깊이에 비례하던 expert 파라미터 증가를 느...
LoPE는 hard question에서 실패한 롤아웃에 Lorem Ipsum 기반 프롬프트 교란을 추가해 GRPO의 zero-advantage 병목을 깨고, prompt-space exploration이 단순 추...
이 논문은 장기 상호작용 에이전트 학습의 병목을 추상적인 탐색 난이도가 아니라 horizon length 자체에서 찾고, macro action과 subgoal decomposition 같은 horizon red...
PRISM은 멀티모달 모델의 표준 SFT→RLVR 파이프라인 사이에 black-box on-policy distillation 기반의 pre-alignment 단계를 삽입해, 시각 인식과 추론이 서로 다른 방식으...
Oxen.ai의 실험은 Qwen3-VL-8B를 자동차 손상 분류에 맞춰 319장 이미지로 LoRA 파인튜닝하면, 약 1달러 학습비로 Gemini 3 Flash보다 더 높은 정확도와 더 짧은 추론 시간을 동시에 얻...
Doc-to-LoRA는 긴 문맥을 매번 다시 읽지 않고도 답할 수 있도록, 문서에서 LoRA 어댑터를 한 번의 forward pass로 생성하는 hypernetwork를 메타학습해 context distillat...
Learning to Reason in 13 Parameters는 RL 기반 post-training이 SFT보다 훨씬 정보 밀도가 높은 업데이트를 만든다는 가설 아래, TinyLoRA로 Qwen2.5-7B의 추...
Prompt-Level Distillation은 교사 모델의 추론 규칙을 학생 모델의 시스템 프롬프트로 옮겨, 파인튜닝 없이도 작은 모델이 복잡한 분류 추론을 더 빠르고 투명하게 수행하도록 만든다.
dFactory는 확산 언어 모델의 미세 조정을 위해 block diffusion, MoE 가중치 병합, 분산 학습, 병렬 디코딩 경로를 하나의 실행 가능한 프레임워크로 묶는다.