Evaluation & BenchmarksEvaluation & BenchmarksAutoLab은 에이전트 평가를 몇 시간짜리 실험 루프로 끌어올린다AutoLab은 36개 실행형 연구·엔지니어링 최적화 과제로 frontier 모델이 반복 측정·수정·시간 관리까지 해낼 수 있는지 묻는 장시간 에이전트 벤치마크다.Sangmin Lee2026.06.05