NatureBench는 코딩 에이전트의 과학 발견 능력을 SOTA 기준으로 묻는...
NatureBench는 Nature 계열 논문 90개를 컨테이너화된 과학 ML 과제로 바꿔, 코딩 에이전트가 논문 재현을 넘어 published SOTA를 실제로 맞추거나 넘을 수 있는지 평가한다.
Tag
AI for Science 태그가 붙은 글입니다.
NatureBench는 Nature 계열 논문 90개를 컨테이너화된 과학 ML 과제로 바꿔, 코딩 에이전트가 논문 재현을 넘어 published SOTA를 실제로 맞추거나 넘을 수 있는지 평가한다.
arXiv 2605.22662는 Claw AI Lab을 한 프롬프트에서 연구팀을 만들고, 대시보드·실험 harness·rollback/resume으로 자동 연구를 조작 가능한 AI 연구실로 재구성하는 플랫폼으로...
Google DeepMind의 Science Skills는 Antigravity 위에서 생명과학 데이터베이스, 스크립트, 도메인별 절차를 SKILL.md 단위로 묶어 과학 워크플로의 신뢰도와 토큰 효율을 높이려는...
AutoResearch AI는 AI 연구 자동화를 L0~L4 자율성, 다섯 워크플로 단계, 과학 품질 평가, 도메인별 상한으로 정리하며 완전 자율보다 검증·출처·책임 설계를 핵심 병목으로 본다.
arXiv 2605.20025는 AutoResearchClaw를 multi-agent debate, self-healing execution, verified result registry, HITL co-pilo...
arXiv 2605.18661은 AI 자동연구를 네 단계·여덟 스테이지의 전체 연구 라이프사이클로 정리하고, 완전 자율보다 인간이 통제하는 검증·출처·책임 설계가 더 중요한 병목이라고 주장한다.