TIDE는 에이전트의 proactivity를 ‘하나의 추천’이 아니라 숨은 문제...
TIDE 논문은 proactive agent가 사용자의 명시 요청을 기다리는 대신, 개인 workspace와 software repository 안에 공존하는 여러 숨은 문제를 반복적으로 찾고 근거와 해결 행동까...
Blog
TIDE 논문은 proactive agent가 사용자의 명시 요청을 기다리는 대신, 개인 workspace와 software repository 안에 공존하는 여러 숨은 문제를 반복적으로 찾고 근거와 해결 행동까...
Anthropic Engineering의 Claude containment 글은 claude.ai, Claude Code, Claude Cowork의 서로 다른 격리 구조를 통해 에이전트 보안의 핵심이 행동 감시...
Anthropic Institute의 When AI builds itself는 공개 벤치마크와 내부 데이터를 묶어 AI 개발에서 실행 비용은 급격히 낮아지고, 판단·검증·거버넌스가 새로운 병목으로 떠오른다는 점을...
OpenCV 5는 그래프 기반 DNN 엔진, 80%+ ONNX operator coverage, LLM/VLM 실행, 새 HAL, 0D/1D tensor와 3D 모듈 재편을 통해 전통적 CV 라이브러리를 현대 A...
NVIDIA OmniDreams는 Cosmos 기반 2B급 action-conditioned world model을 AlpaSim·Alpamayo·FlashDreams와 묶어, 정책 행동에 반응하는 704×128...
arXiv 2605.22662는 Claw AI Lab을 한 프롬프트에서 연구팀을 만들고, 대시보드·실험 harness·rollback/resume으로 자동 연구를 조작 가능한 AI 연구실로 재구성하는 플랫폼으로...
Microsoft AI가 Build 2026에서 공개한 7종 MAI 모델은 단일 SOTA 발표보다, 깨끗한 데이터·자체 인프라·제품 통합·Frontier Tuning을 묶은 반복 개선 시스템 선언에 가깝다.
arXiv 2605.22502는 외부 오케스트레이터가 매 턴 절차를 주입하는 대신, 절차형 agent workflow를 작은 fine-tuned model의 가중치에 내재화하면 near-frontier 품질을 훨...
AutoLab은 36개 실행형 연구·엔지니어링 최적화 과제로 frontier 모델이 반복 측정·수정·시간 관리까지 해낼 수 있는지 묻는 장시간 에이전트 벤치마크다.
KOLongDoc는 100개 한국어 장문 문서와 200개 멀티홉 QA로, VLM이 긴 공공문서를 이미지와 텍스트 입력 양쪽에서 얼마나 끝까지 읽고 추론하는지 평가하려는 벤치마크다.
PaddleOCR-VL-1.6 Hugging Face 모델 카드와 기술보고서를 함께 읽어, 0.9B 문서 파싱 VLM이 under-optimized region data engine과 CPT-SFT-RL 후학습으...
MiniCPM4는 0.5B·8B 모델, InfLLM v2 sparse attention, UltraClean 데이터 필터링, CPM.cu/ArkInfer 추론 스택을 한 번에 묶어 온디바이스 LLM의 병목을 시스...