QUEST는 딥리서치 에이전트를 합성 과제로 훈련한다
QUEST는 8K 합성 연구 과제와 rubric tree 보상, context management, MT→SFT→RL 파이프라인으로 2B~35B 공개 딥리서치 에이전트 패밀리를 만든다.
Blog
QUEST는 8K 합성 연구 과제와 rubric tree 보상, context management, MT→SFT→RL 파이프라인으로 2B~35B 공개 딥리서치 에이전트 패밀리를 만든다.
arXiv 2605.26002 SemBridge 논문을 바탕으로, 영어 vocabulary에 갇힌 sparse encoder를 Arabic·Chinese·Hindi·Korean·Russian 검색기로 이전하는 방...
QueST는 입력 질문에서 관련 문제-해설 쌍을 생성하고, 이를 이용해 추론 직전에 LoRA로 모델을 가볍게 적응시키는 query-conditioned test-time self-training 방법이다.
Macaron-A2UI는 개인 에이전트가 자연어와 A2UI v0.8 기반 선언형 UI 액션을 함께 생성하도록 학습한 모델군과 A2UI-Bench를 공개하며, 텍스트 채팅 이후의 에이전트 인터페이스를 평가 가능한...
arXiv 2605.23218은 Foundation Protocol(FP)을 agent, tool, human, organization을 하나의 entity graph로 묶고 session, event, rece...
SkillEvolBench는 180개 과제와 6개 실제 에이전트 환경으로 episodic trajectory가 frozen deployment에서도 쓰이는 procedural skill이 되는지를 분리 측정하는...
Meituan LongCat과 Fudan University가 공개한 WBench는 289개 테스트 케이스와 1,058개 상호작용 턴으로 비디오 월드 모델의 렌더링, 설정 준수, 상호작용, 일관성, 물리성을 함께...
IBM Research의 Agentic CLEAR는 관측성 로그 위에서 에이전트 실행 trace를 LLM judge로 평가하고, CLEAR 집계로 반복 실패를 node·trace·system 수준의 진단 리포트로...
CUA-Gym은 computer-use agent용 RLVR 학습 데이터를 task, environment, reward의 실행 가능한 삼중항으로 합성하고, 110개 환경과 3만 개 규모의 검증 가능한 튜플로 O...
arXiv 2605.28814의 Bidirectional Evolutionary Search는 best-of-N과 tree search가 가진 희소 검증·자가회귀 확장 편향을 전방 evolutionary oper...
HF Papers 2605.28773 / arXiv 논문은 FluxMem을 통해 에이전트 메모리를 semantic·episodic·procedural 노드가 계속 연결·수정·통합되는 heterogeneous gr...
Rethinking VLM Representation for VLA Initialization은 로봇 VLA 성능을 단순한 백본 크기 문제가 아니라 embodied VQA 신호, LoRA 보존, 로봇 데이터 사전...