Latent Agents는 멀티에이전트 토론을 한 모델의 잠재공간으로 압축한다
Latent Agents의 IMAD는 3개 에이전트의 토론 trace를 SFT로 학습한 뒤 GRPO의 동적 보상과 길이 클리핑으로 내재화해, 명시적 debate와 비슷하거나 더 나은 성능을 훨씬 적은 토큰으로 재...
Tag
Post-Training 태그가 붙은 글입니다.
Latent Agents의 IMAD는 3개 에이전트의 토론 trace를 SFT로 학습한 뒤 GRPO의 동적 보상과 길이 클리핑으로 내재화해, 명시적 debate와 비슷하거나 더 나은 성능을 훨씬 적은 토큰으로 재...
Qwen-Scope는 Qwen3·Qwen3.5 계열 7개 모델에 대해 14개 그룹의 sparse autoencoder를 공개하고, 이를 추론 조종·벤치마크 분석·안전 데이터 합성·사후 훈련 최적화까지 연결해 SA...