AutoLab은 에이전트 평가를 몇 시간짜리 실험 루프로 끌어올린다
AutoLab은 36개 실행형 연구·엔지니어링 최적화 과제로 frontier 모델이 반복 측정·수정·시간 관리까지 해낼 수 있는지 묻는 장시간 에이전트 벤치마크다.
Tag
AutoResearch 태그가 붙은 글입니다.
AutoLab은 36개 실행형 연구·엔지니어링 최적화 과제로 frontier 모델이 반복 측정·수정·시간 관리까지 해낼 수 있는지 묻는 장시간 에이전트 벤치마크다.
AutoResearch AI는 AI 연구 자동화를 L0~L4 자율성, 다섯 워크플로 단계, 과학 품질 평가, 도메인별 상한으로 정리하며 완전 자율보다 검증·출처·책임 설계를 핵심 병목으로 본다.