OpenThoughts-Agent는 에이전트 학습을 데이터 레시피 문제로 공개한...
OpenThoughts-Agent는 100개 이상의 controlled ablation으로 agentic SFT 데이터 파이프라인을 분해하고, 100K trajectory로 Qwen3-32B를 학습해 공개 에이전...
Tag
Supervised Fine-Tuning 태그가 붙은 글입니다.
OpenThoughts-Agent는 100개 이상의 controlled ablation으로 agentic SFT 데이터 파이프라인을 분해하고, 100K trajectory로 Qwen3-32B를 학습해 공개 에이전...