ProAct는 에이전트의 lookahead를 환경에 접지해 학습시킨다
ProAct는 LLM 에이전트의 내부 미래 시뮬레이션이 실제 환경과 어긋나는 simulation drift를 GLAD distillation과 MC-Critic 기반 RL로 줄이려는 agent lookahead...
Tag
Qwen3 태그가 붙은 글입니다.
ProAct는 LLM 에이전트의 내부 미래 시뮬레이션이 실제 환경과 어긋나는 simulation drift를 GLAD distillation과 MC-Critic 기반 RL로 줄이려는 agent lookahead...
Unsloth의 phone deployment 가이드는 Qwen3-0.6B를 QAT로 파인튜닝하고 TorchAO/ExecuTorch로 .pte 모델을 내보낸 뒤, Pixel 8과 iPhone 계열 기기에서 로컬...
arXiv 2604.11465는 Qwen3-8B 하나를 요약기, 메인 에이전트, 독립 교정기라는 세 역할로 반복 호출해 AppWorld pass@1 성능을 FP16 5.4%→8.9%, AWQ 3.0%→5.9%로...
arXiv 2605.08301은 Qwen·Llama·Mistral 계열 사전학습 Transformer에서 일부 attention layer를 SSM layer로 바꾸고, 짧은 alignment와 post-trai...
δ-mem은 frozen Transformer에 8×8 온라인 연상기억 상태를 붙이고, 그 readout으로 attention을 저랭크 보정해 장기 상호작용 메모리를 컨텍스트 확장 없이 다루려는 경량 메모리 메커...
SOD는 tool-integrated reasoning에서 학생 모델의 잘못된 tool call이 만든 상태 드리프트를 step-level divergence로 감지하고, 온폴리시 증류 신호를 단계별로 재가중해...