긴 작업을 못 버티는 이유는 모델 크기가 아니라 horizon일 수 있다
이 논문은 장기 상호작용 에이전트 학습의 병목을 추상적인 탐색 난이도가 아니라 horizon length 자체에서 찾고, macro action과 subgoal decomposition 같은 horizon reduction이 RL 안정성과 일반화까지 개선한다는 점을 실험적으로 보인다.
Tag
LLM Training 태그가 붙은 글입니다.
이 논문은 장기 상호작용 에이전트 학습의 병목을 추상적인 탐색 난이도가 아니라 horizon length 자체에서 찾고, macro action과 subgoal decomposition 같은 horizon reduction이 RL 안정성과 일반화까지 개선한다는 점을 실험적으로 보인다.