Autoresearch는 코딩 에이전트를 지표 기반 개선 루프로 바꾼다
uditgoenka/autoresearch는 Karpathy의 autoresearch를 Claude Code, OpenCode, Codex용 skill/command 패키지로 확장해 Goal·Scope·Metri...
Category
자동 연구, 임상·수학·ML 연구 보조, 과학 실험 에이전트 흐름을 정리합니다.
uditgoenka/autoresearch는 Karpathy의 autoresearch를 Claude Code, OpenCode, Codex용 skill/command 패키지로 확장해 Goal·Scope·Metri...
arXiv 2605.20176은 임상 에이전트가 미리 큐레이션된 컨텍스트를 읽는 대신 EHR, 웹 지식, 흉부 X-ray 도구를 직접 호출해 근거를 모으는 ClinSeekAgent와 ClinSeek-Bench,...
NVIDIA의 AI-Q agent skill은 Claude Code, Codex, OpenCode 같은 범용 에이전트 하네스가 리서치 파이프라인을 직접 재구현하지 않고, 로컬 또는 사내 AI-Q 서버에 장기 리서...
arXiv 2605.20025는 AutoResearchClaw를 multi-agent debate, self-healing execution, verified result registry, HITL co-pilo...
arXiv 2605.18661은 AI 자동연구를 네 단계·여덟 스테이지의 전체 연구 라이프사이클로 정리하고, 완전 자율보다 인간이 통제하는 검증·출처·책임 설계가 더 중요한 병목이라고 주장한다.
arXiv 2605.06651은 수학 연구를 단발성 정답 생성이 아니라 장기 상태, 실패 가설, 리뷰된 작업 문서, 인간 조향을 함께 관리하는 agentic workbench 문제로 재정의한다.
Autonomous Evolution of EDA Tools는 Claude 기반 다중 에이전트가 ABC의 120만 줄 규모 C 코드베이스를 직접 수정하고, 컴파일·CEC·QoR 평가 루프를 통과한 변경만 누적해...
OpenSearch-VL은 데이터 합성, 시각·검색 도구 환경, fatal-aware GRPO를 하나의 공개 레시피로 묶어 프론티어급 멀티모달 딥서치 에이전트를 재현하려는 시도다.
huggingface/ml-intern은 논문 읽기나 코드 생성에 머무는 챗봇이 아니라, Hugging Face Hub·GitHub·로컬 추론 서버·세션 트레이스·승인 흐름을 하나의 작업 루프로 묶으려는 ML 엔...
Auto Research는 specialist agent가 코드 수정, 실험 제출, 외부 evaluator 피드백 반영을 반복하는 closed-loop 연구 하네스를 제안한다. 핵심 산출물은 논문 초안이 아니라...