CUA-Gym은 컴퓨터 사용 에이전트 RL을 검증 가능한 환경 생성 문제로 바꾼...
CUA-Gym은 computer-use agent용 RLVR 학습 데이터를 task, environment, reward의 실행 가능한 삼중항으로 합성하고, 110개 환경과 3만 개 규모의 검증 가능한 튜플로 O...
Tag
OSWorld 태그가 붙은 글입니다.
CUA-Gym은 computer-use agent용 RLVR 학습 데이터를 task, environment, reward의 실행 가능한 삼중항으로 합성하고, 110개 환경과 3만 개 규모의 검증 가능한 튜플로 O...