ProAct는 에이전트의 lookahead를 환경에 접지해 학습시킨다
ProAct는 LLM 에이전트의 내부 미래 시뮬레이션이 실제 환경과 어긋나는 simulation drift를 GLAD distillation과 MC-Critic 기반 RL로 줄이려는 agent lookahead...
Tag
ProAct 태그가 붙은 글입니다.
ProAct는 LLM 에이전트의 내부 미래 시뮬레이션이 실제 환경과 어긋나는 simulation drift를 GLAD distillation과 MC-Critic 기반 RL로 줄이려는 agent lookahead...