Tag

#Supervised Fine-Tuning

CausalMix는 512개 Qwen2.5-0.5B proxy run에서 데이터 상태, 도메인 비율, downstream 점수를 분리해 SFT 데이터 믹스를 상태별 causal marginal return으로 추...

Sangmin Lee2026.07.03

OpenThoughts-Agent는 100개 이상의 controlled ablation으로 agentic SFT 데이터 파이프라인을 분해하고, 100K trajectory로 Qwen3-32B를 학습해 공개 에이전...

Sangmin Lee2026.06.24