mmGRPO는 DSPy식 LM 프로그램에 GRPO와 프롬프트 최적화를 함께 얹는...
mmGRPO는 여러 LM 모듈과 도구로 구성된 언어 모델 프로그램을 그대로 두고, 모듈 호출 단위의 GRPO와 MIPROv2 프롬프트 최적화를 조합해 더 좋은 rollout 분포를 만드는 온라인 RL 레시피다.
Tag
Prompt Optimization 태그가 붙은 글입니다.
mmGRPO는 여러 LM 모듈과 도구로 구성된 언어 모델 프로그램을 그대로 두고, 모듈 호출 단위의 GRPO와 MIPROv2 프롬프트 최적화를 조합해 더 좋은 rollout 분포를 만드는 온라인 RL 레시피다.
Microsoft 등이 공개한 SkillOpt는 에이전트의 자연어 skill 문서를 모델 가중치가 아닌 외부 학습 상태로 보고, rollout·reflection·bounded edit·validation gat...