긴 작업을 못 버티는 이유는 모델 크기가 아니라 horizon일 수 있다
이 논문은 장기 상호작용 에이전트 학습의 병목을 추상적인 탐색 난이도가 아니라 horizon length 자체에서 찾고, macro action과 subgoal decomposition 같은 horizon red...
Blog
이 논문은 장기 상호작용 에이전트 학습의 병목을 추상적인 탐색 난이도가 아니라 horizon length 자체에서 찾고, macro action과 subgoal decomposition 같은 horizon red...
HeavySkill은 멀티에이전트 오케스트레이션의 성능 원천을 외부 시스템 복잡도보다 모델 내부의 heavy thinking 스킬로 재해석하며, 이를 병렬 추론과 순차적 숙의로 분해해 test-time scali...
OneVL은 자율주행 VLA의 Chain-of-Thought를 언어 latent만이 아니라 미래 프레임 예측을 포함한 world-model supervision으로 압축해, explicit CoT를 넘는 정확도와...
OmniShotCut은 shot boundary detection을 단순 프레임 경계 검출이 아니라 intra-shot·inter-shot 관계를 함께 예측하는 구조적 문제로 재정의하고, 합성 전환 데이터와 현대...
confident-ai/deepeval은 단순 메트릭 라이브러리를 넘어 pytest 스타일 테스트, LLM-as-a-judge, 에이전트 트레이싱, 합성 데이터 생성, 벤치마크 실행을 하나의 local-first...
Argilla는 단순 주석 UI가 아니라 Python SDK, self-hosted 서버, 협업용 데이터셋 스키마를 결합해 human feedback 루프를 운영 가능한 데이터 워크벤치로 바꾼다.
Distilabel의 Tutorials 섹션은 synthetic data framework를 단순 SDK가 아니라 ORPO·DPO·retrieval·judge·structured generation 실험을 바로...
OSCAR는 더 강한 VLM의 오프라인 정답을 흉내 내는 대신, 모델 자신의 판별 능력과 MCTS 탐색을 이용해 온라인 preference 데이터를 만들고 DPO로 갱신함으로써 시각 환각을 줄이는 정렬 프레임을...
Dynin-Omni는 텍스트·이미지·음성 이해와 생성, 그리고 비디오 이해를 하나의 8B 마스크드 디퓨전 백본으로 통합해, 옴니모달 모델링을 외부 생성기 조립이 아니라 shared discrete token sp...
PRISM은 멀티모달 모델의 표준 SFT→RLVR 파이프라인 사이에 black-box on-policy distillation 기반의 pre-alignment 단계를 삽입해, 시각 인식과 추론이 서로 다른 방식으...
RecursiveMAS는 여러 LLM 에이전트를 텍스트 메시지 체인 대신 잠재 상태 루프로 연결하고, RecursiveLink와 inner–outer loop 학습으로 시스템 전체를 공동 최적화해 정확도·속도·토...
Qwen-Scope는 Qwen3·Qwen3.5 계열 7개 모델에 대해 14개 그룹의 sparse autoencoder를 공개하고, 이를 추론 조종·벤치마크 분석·안전 데이터 합성·사후 훈련 최적화까지 연결해 SA...