NatureBench는 코딩 에이전트의 과학 발견 능력을 SOTA 기준으로 묻는...
NatureBench는 Nature 계열 논문 90개를 컨테이너화된 과학 ML 과제로 바꿔, 코딩 에이전트가 논문 재현을 넘어 published SOTA를 실제로 맞추거나 넘을 수 있는지 평가한다.
Tag
NatureBench 태그가 붙은 글입니다.
NatureBench는 Nature 계열 논문 90개를 컨테이너화된 과학 ML 과제로 바꿔, 코딩 에이전트가 논문 재현을 넘어 published SOTA를 실제로 맞추거나 넘을 수 있는지 평가한다.