Tag

#Long-Horizon Agents

arXiv 2607.14777의 SEED는 완료된 on-policy trajectory에서 hindsight skill을 만들고, 같은 행동을 skill 유무 두 문맥에서 재채점해 GRPO에 dense token...

Sangmin Lee2026.07.18

Agents-A1은 Qwen3.5-35B-A3B 기반 35B MoE를 45K 토큰 장기 trajectory, knowledge-action graph, domain-routed on-policy distillat...

Sangmin Lee2026.06.30

AutoLab은 36개 실행형 연구·엔지니어링 최적화 과제로 frontier 모델이 반복 측정·수정·시간 관리까지 해낼 수 있는지 묻는 장시간 에이전트 벤치마크다.

Sangmin Lee2026.06.05

Qwen3.7-Max는 코딩 에이전트, MCP 기반 업무 자동화, 장시간 자율 실행, cross-harness 일반화를 전면에 내세운 Qwen의 최신 독점형 agent foundation model이다.

Sangmin Lee2026.05.21