긴 작업을 못 버티는 이유는 모델 크기가 아니라 horizon일 수 있다
이 논문은 장기 상호작용 에이전트 학습의 병목을 추상적인 탐색 난이도가 아니라 horizon length 자체에서 찾고, macro action과 subgoal decomposition 같은 horizon reduction이 RL 안정성과 일반화까지 개선한다는 점을 실험적으로 보인다.
Tag
Long-Horizon 태그가 붙은 글입니다.
이 논문은 장기 상호작용 에이전트 학습의 병목을 추상적인 탐색 난이도가 아니라 horizon length 자체에서 찾고, macro action과 subgoal decomposition 같은 horizon reduction이 RL 안정성과 일반화까지 개선한다는 점을 실험적으로 보인다.