Research Agents

AREX는 검증을 끝단 필터가 아니라 다음 조사 라운드의 제어 신호로 쓴다

BAAI의 AREX는 provisional answer를 제약별로 감사해 accept·refine·restart를 고르고, 검증된 근거와 미해결 조건만 남기는 autonomous context update로 긴...

Sangmin Lee2026.07.25

Research Agents

자기개선 에이전트는 모델과 scaffold를 따로 봐야 한다

arXiv 2607.13104는 자기개선 에이전트를 foundation model 업데이트와 prompt·memory·tool·control logic을 고치는 scaffold 업데이트로 나누고, 성능보다 tra...

Sangmin Lee2026.07.18

Research Agents

ToFu는 에이전트 성능을 모델이 아니라 harness까지 연구 대상으로 만든다

arXiv 2607.11423의 ToFu는 3단 context compaction, 검색형 메모리, 다국어 번역 계층, 의존성 인식 swarm을 공개 harness에 묶고 SWE-bench Verified에서 C...

Sangmin Lee2026.07.18

Research Agents

AIDE²는 ‘더 잘하는 에이전트’보다 ‘더 잘 개선하는 에이전트’를 시험한다

Weco AI의 AIDE² 리포트는 outer loop가 inner research-agent harness를 100회 재작성하고, 고정 비용·비공개 점수·외부 벤치마크로 살아남은 변경만 채택해 인간 수동 튜닝보...

Sangmin Lee2026.07.15

Research Agents

Deep Agents와 Bedrock AgentCore는 리서치 에이전트를 컨텍...

AWS와 LangChain의 예제는 웹 리서치, 코드 분석, 장기 메모리, 관측성을 별도 MicroVM과 서브에이전트 경계로 나눠 컨텍스트 압박을 줄이는 실무형 리서치 에이전트 설계를 보여준다.

Sangmin Lee2026.06.18

Research Agents

Claw AI Lab은 자동 연구를 숨은 파이프라인에서 조작 가능한 연구실로 바...

arXiv 2605.22662는 Claw AI Lab을 한 프롬프트에서 연구팀을 만들고, 대시보드·실험 harness·rollback/resume으로 자동 연구를 조작 가능한 AI 연구실로 재구성하는 플랫폼으로...

Sangmin Lee2026.06.06

Research Agents

LEAP은 일반 LLM을 Lean 검증 루프 안의 형식 증명 에이전트로 바꾼다

arXiv 2606.03303은 전문 theorem prover fine-tuning보다 blueprint, AND-OR DAG, Lean compiler feedback을 결합한 agentic formal pr...

Sangmin Lee2026.06.04

Research Agents

AutoResearch AI는 과학 자동화를 자율성보다 검증 책임의 문제로 본다

AutoResearch AI는 AI 연구 자동화를 L0~L4 자율성, 다섯 워크플로 단계, 과학 품질 평가, 도메인별 상한으로 정리하며 완전 자율보다 검증·출처·책임 설계를 핵심 병목으로 본다.

Sangmin Lee2026.05.28

Research Agents

QUEST는 딥리서치 에이전트를 합성 과제로 훈련한다

QUEST는 8K 합성 연구 과제와 rubric tree 보상, context management, MT→SFT→RL 파이프라인으로 2B~35B 공개 딥리서치 에이전트 패밀리를 만든다.

Sangmin Lee2026.05.28

Research Agents

Autoresearch는 코딩 에이전트를 지표 기반 개선 루프로 바꾼다

uditgoenka/autoresearch는 Karpathy의 autoresearch를 Claude Code, OpenCode, Codex용 skill/command 패키지로 확장해 Goal·Scope·Metri...

Sangmin Lee2026.05.27

Research Agents

ClinSeekAgent는 임상 추론의 병목을 ‘증거 찾기’로 다시 정의한다

arXiv 2605.20176은 임상 에이전트가 미리 큐레이션된 컨텍스트를 읽는 대신 EHR, 웹 지식, 흉부 X-ray 도구를 직접 호출해 근거를 모으는 ClinSeekAgent와 ClinSeek-Bench,...

Sangmin Lee2026.05.25

Research Agents

NVIDIA AI-Q는 딥리서치를 에이전트 하네스 밖의 전문 스킬로 분리한다

NVIDIA의 AI-Q agent skill은 Claude Code, Codex, OpenCode 같은 범용 에이전트 하네스가 리서치 파이프라인을 직접 재구현하지 않고, 로컬 또는 사내 AI-Q 서버에 장기 리서...

Sangmin Lee2026.05.23

Research Agents

AutoResearchClaw는 자동 연구를 실패에서 배우는 에이전트 루프로 바...

arXiv 2605.20025는 AutoResearchClaw를 multi-agent debate, self-healing execution, verified result registry, HITL co-pilo...

Sangmin Lee2026.05.20

Research Agents

AI for Auto-Research는 자동 연구를 라이프사이클 거버넌스로 바꾼...

arXiv 2605.18661은 AI 자동연구를 네 단계·여덟 스테이지의 전체 연구 라이프사이클로 정리하고, 완전 자율보다 인간이 통제하는 검증·출처·책임 설계가 더 중요한 병목이라고 주장한다.

Sangmin Lee2026.05.20

Research Agents

AI co-mathematician은 수학자를 대체하기보다 연구 워크스페이스를...

arXiv 2605.06651은 수학 연구를 단발성 정답 생성이 아니라 장기 상태, 실패 가설, 리뷰된 작업 문서, 인간 조향을 함께 관리하는 agentic workbench 문제로 재정의한다.

Sangmin Lee2026.05.14

Research Agents

Self-Evolved ABC는 EDA 도구 자체를 에이전트가 진화시키려는 실험...

Autonomous Evolution of EDA Tools는 Claude 기반 다중 에이전트가 ABC의 120만 줄 규모 C 코드베이스를 직접 수정하고, 컴파일·CEC·QoR 평가 루프를 통과한 변경만 누적해...

Sangmin Lee2026.05.11

Research Agents

OpenSearch-VL은 멀티모달 검색 에이전트를 재현 가능한 훈련 레시피로...

OpenSearch-VL은 데이터 합성, 시각·검색 도구 환경, fatal-aware GRPO를 하나의 공개 레시피로 묶어 프론티어급 멀티모달 딥서치 에이전트를 재현하려는 시도다.

Sangmin Lee2026.05.11

Research Agents

ML Intern은 Hugging Face 위에서 돌아가는 운영형 ML 에이전트...

huggingface/ml-intern은 논문 읽기나 코드 생성에 머무는 챗봇이 아니라, Hugging Face Hub·GitHub·로컬 추론 서버·세션 트레이스·승인 흐름을 하나의 작업 루프로 묶으려는 ML 엔...

Sangmin Lee2026.05.10

Research Agents

Auto Research는 논문을 쓰지 않고 실험 궤적을 쌓는다

Auto Research는 specialist agent가 코드 수정, 실험 제출, 외부 evaluator 피드백 반영을 반복하는 closed-loop 연구 하네스를 제안한다. 핵심 산출물은 논문 초안이 아니라...

Sangmin Lee2026.05.08