AutoLab은 에이전트 평가를 몇 시간짜리 실험 루프로 끌어올린다
AutoLab은 36개 실행형 연구·엔지니어링 최적화 과제로 frontier 모델이 반복 측정·수정·시간 관리까지 해낼 수 있는지 묻는 장시간 에이전트 벤치마크다.
Tag
Long-Horizon Agents 태그가 붙은 글입니다.
AutoLab은 36개 실행형 연구·엔지니어링 최적화 과제로 frontier 모델이 반복 측정·수정·시간 관리까지 해낼 수 있는지 묻는 장시간 에이전트 벤치마크다.
Qwen3.7-Max는 코딩 에이전트, MCP 기반 업무 자동화, 장시간 자율 실행, cross-harness 일반화를 전면에 내세운 Qwen의 최신 독점형 agent foundation model이다.