AI co-mathematician은 수학자를 대체하기보다 연구 워크스페이스를...
arXiv 2605.06651은 수학 연구를 단발성 정답 생성이 아니라 장기 상태, 실패 가설, 리뷰된 작업 문서, 인간 조향을 함께 관리하는 agentic workbench 문제로 재정의한다.
Blog
arXiv 2605.06651은 수학 연구를 단발성 정답 생성이 아니라 장기 상태, 실패 가설, 리뷰된 작업 문서, 인간 조향을 함께 관리하는 agentic workbench 문제로 재정의한다.
이 논문은 GAIA·SWE-bench·Multi-Challenge 문맥에서 22,500개 결정론적 궤적을 평가해, 단순한 다수 auditor 프롬프트가 모델의 독립 추론을 사회적 순응으로 바꾸는 Interacti...
Meta FAIR의 Autodata는 Self-Instruct식 단발 생성이 아니라, 약한 모델과 강한 모델의 성능 격차를 직접 최적화하는 에이전트형 데이터 과학자 루프로 합성 데이터 품질을 끌어올린다.
arXiv 2604.15034는 프롬프트·에이전트·도구·환경·메모리를 버전 관리되는 리소스로 등록하고, 제안·평가·커밋·롤백을 갖춘 AGP/AGS 구조로 자가 진화를 실행 가능한 에이전트 런타임 문제로 옮긴다.
jina-embeddings-v5-omni는 Jina v5 Text의 벡터 geometry를 보존하면서 이미지·비디오·오디오 타워를 frozen projector로 붙여, 기존 텍스트 인덱스를 멀티모달 검색 su...
NVIDIA Nemotron 3 Super는 120B 총 파라미터·12B 활성 파라미터의 Hybrid Mamba-Attention LatentMoE 모델 위에 NVFP4 pretraining, MTP 기반 nat...
addyosmani/agent-skills는 22개 SKILL.md, 7개 slash command, 3개 전문 persona를 묶어 AI 코딩 에이전트가 spec→plan→build→test→review→shi...
kalyan-ks/ettin-68m-nemotron-pii는 ETTIN 68M encoder와 NVIDIA Nemotron-PII 데이터를 결합해, 영어 PII/PHI 탐지를 작은 NER 모델로 운영 파이프라인에...
arXiv 2604.26622는 장기 실행 에이전트의 trajectory를 텍스트로 계속 밀어 넣는 대신, multi-resolution 이미지와 Set-of-Mark anchor로 저장하고 필요한 segment...
OneManCompany(OMC)는 Talent–Container, Talent Market, E²R tree search로 이기종 에이전트를 고용·조정·리뷰하는 조직 레이어를 제안하고, PRDBench 84.6...
arXiv 2604.15771의 Skill-RAG는 hidden-state prober로 검색 실패 상태를 감지하고, query rewriting·question decomposition·evidence focu...
Ai2와 UC Berkeley의 EMO는 문서 경계를 약한 supervision으로 삼아 같은 문서의 토큰이 공유 expert pool 안에서 routing되도록 MoE를 사전학습한다. 1B active / 14...