Claw AI Lab은 자동 연구를 숨은 파이프라인에서 조작 가능한 연구실로 바...
arXiv 2605.22662는 Claw AI Lab을 한 프롬프트에서 연구팀을 만들고, 대시보드·실험 harness·rollback/resume으로 자동 연구를 조작 가능한 AI 연구실로 재구성하는 플랫폼으로...
Category
자동 연구, 임상·수학·ML 연구 보조, 과학 실험 에이전트 흐름을 정리합니다.
arXiv 2605.22662는 Claw AI Lab을 한 프롬프트에서 연구팀을 만들고, 대시보드·실험 harness·rollback/resume으로 자동 연구를 조작 가능한 AI 연구실로 재구성하는 플랫폼으로...
arXiv 2606.03303은 전문 theorem prover fine-tuning보다 blueprint, AND-OR DAG, Lean compiler feedback을 결합한 agentic formal pr...
AutoResearch AI는 AI 연구 자동화를 L0~L4 자율성, 다섯 워크플로 단계, 과학 품질 평가, 도메인별 상한으로 정리하며 완전 자율보다 검증·출처·책임 설계를 핵심 병목으로 본다.
QUEST는 8K 합성 연구 과제와 rubric tree 보상, context management, MT→SFT→RL 파이프라인으로 2B~35B 공개 딥리서치 에이전트 패밀리를 만든다.
uditgoenka/autoresearch는 Karpathy의 autoresearch를 Claude Code, OpenCode, Codex용 skill/command 패키지로 확장해 Goal·Scope·Metri...
arXiv 2605.20176은 임상 에이전트가 미리 큐레이션된 컨텍스트를 읽는 대신 EHR, 웹 지식, 흉부 X-ray 도구를 직접 호출해 근거를 모으는 ClinSeekAgent와 ClinSeek-Bench,...
NVIDIA의 AI-Q agent skill은 Claude Code, Codex, OpenCode 같은 범용 에이전트 하네스가 리서치 파이프라인을 직접 재구현하지 않고, 로컬 또는 사내 AI-Q 서버에 장기 리서...
arXiv 2605.20025는 AutoResearchClaw를 multi-agent debate, self-healing execution, verified result registry, HITL co-pilo...
arXiv 2605.18661은 AI 자동연구를 네 단계·여덟 스테이지의 전체 연구 라이프사이클로 정리하고, 완전 자율보다 인간이 통제하는 검증·출처·책임 설계가 더 중요한 병목이라고 주장한다.
arXiv 2605.06651은 수학 연구를 단발성 정답 생성이 아니라 장기 상태, 실패 가설, 리뷰된 작업 문서, 인간 조향을 함께 관리하는 agentic workbench 문제로 재정의한다.
Autonomous Evolution of EDA Tools는 Claude 기반 다중 에이전트가 ABC의 120만 줄 규모 C 코드베이스를 직접 수정하고, 컴파일·CEC·QoR 평가 루프를 통과한 변경만 누적해...
OpenSearch-VL은 데이터 합성, 시각·검색 도구 환경, fatal-aware GRPO를 하나의 공개 레시피로 묶어 프론티어급 멀티모달 딥서치 에이전트를 재현하려는 시도다.
huggingface/ml-intern은 논문 읽기나 코드 생성에 머무는 챗봇이 아니라, Hugging Face Hub·GitHub·로컬 추론 서버·세션 트레이스·승인 흐름을 하나의 작업 루프로 묶으려는 ML 엔...
Auto Research는 specialist agent가 코드 수정, 실험 제출, 외부 evaluator 피드백 반영을 반복하는 closed-loop 연구 하네스를 제안한다. 핵심 산출물은 논문 초안이 아니라...