Blog

Knowledge WIKI

335 posts, 134-145 showing

12 / 28

Research Agents

AutoResearch AI는 과학 자동화를 자율성보다 검증 책임의 문제로 본다

AutoResearch AI는 AI 연구 자동화를 L0~L4 자율성, 다섯 워크플로 단계, 과학 품질 평가, 도메인별 상한으로 정리하며 완전 자율보다 검증·출처·책임 설계를 핵심 병목으로 본다.

Sangmin Lee2026.05.28

Research Agents

QUEST는 딥리서치 에이전트를 합성 과제로 훈련한다

QUEST는 8K 합성 연구 과제와 rubric tree 보상, context management, MT→SFT→RL 파이프라인으로 2B~35B 공개 딥리서치 에이전트 패밀리를 만든다.

Sangmin Lee2026.05.28

Search & Retrieval

SemBridge는 영어 중심 sparse encoder를 다국어 검색기로 옮기...

arXiv 2605.26002 SemBridge 논문을 바탕으로, 영어 vocabulary에 갇힌 sparse encoder를 Arabic·Chinese·Hindi·Korean·Russian 검색기로 이전하는 방...

Sangmin Lee2026.05.28

Inference Systems

QueST는 사용자 질문 하나로 테스트 시점 LoRA 적응을 만든다

QueST는 입력 질문에서 관련 문제-해설 쌍을 생성하고, 이를 이용해 추론 직전에 LoRA로 모델을 가볍게 적응시키는 query-conditioned test-time self-training 방법이다.

Sangmin Lee2026.05.28

Agent Systems

Macaron-A2UI는 개인 에이전트의 응답을 ‘대화+실행 가능한 UI’로 확...

Macaron-A2UI는 개인 에이전트가 자연어와 A2UI v0.8 기반 선언형 UI 액션을 함께 생성하도록 학습한 모델군과 A2UI-Bench를 공개하며, 텍스트 채팅 이후의 에이전트 인터페이스를 평가 가능한...

Sangmin Lee2026.05.28

Agent Systems

Foundation Protocol은 에이전트 사회의 신뢰·거래·감사를 한 계층...

arXiv 2605.23218은 Foundation Protocol(FP)을 agent, tool, human, organization을 하나의 entity graph로 묶고 session, event, rece...

Sangmin Lee2026.05.28

Evaluation & Benchmarks

SkillEvolBench는 에이전트 경험이 재사용 가능한 스킬로 진화하는지를...

SkillEvolBench는 180개 과제와 6개 실제 에이전트 환경으로 episodic trajectory가 frozen deployment에서도 쓰이는 procedural skill이 되는지를 분리 측정하는...

Sangmin Lee2026.05.28

Evaluation & Benchmarks

WBench는 인터랙티브 비디오 월드 모델 평가를 다중 턴 벤치마크로 재정의한다

Meituan LongCat과 Fudan University가 공개한 WBench는 289개 테스트 케이스와 1,058개 상호작용 턴으로 비디오 월드 모델의 렌더링, 설정 준수, 상호작용, 일관성, 물리성을 함께...

Sangmin Lee2026.05.28

Evaluation & Benchmarks

Agentic CLEAR는 LLM 에이전트 평가를 trace·node·syste...

IBM Research의 Agentic CLEAR는 관측성 로그 위에서 에이전트 실행 trace를 LLM judge로 평가하고, CLEAR 집계로 반복 실패를 node·trace·system 수준의 진단 리포트로...

Sangmin Lee2026.05.28

Evaluation & Benchmarks

CUA-Gym은 컴퓨터 사용 에이전트 RL을 검증 가능한 환경 생성 문제로 바꾼...

CUA-Gym은 computer-use agent용 RLVR 학습 데이터를 task, environment, reward의 실행 가능한 삼중항으로 합성하고, 110개 환경과 3만 개 규모의 검증 가능한 튜플로 O...

Sangmin Lee2026.05.28

Model Training

BES는 자기개선 LLM 검색을 전방 진화와 후방 목표분해로 다시 설계한다

arXiv 2605.28814의 Bidirectional Evolutionary Search는 best-of-N과 tree search가 가진 희소 검증·자가회귀 확장 편향을 전방 evolutionary oper...

Sangmin Lee2026.05.28

Agent Systems

FluxMem은 에이전트 메모리를 고정 저장소가 아니라 진화하는 연결 그래프로...

HF Papers 2605.28773 / arXiv 논문은 FluxMem을 통해 에이전트 메모리를 semantic·episodic·procedural 노드가 계속 연결·수정·통합되는 heterogeneous gr...

Sangmin Lee2026.05.28