mmGRPO는 DSPy식 LM 프로그램에 GRPO와 프롬프트 최적화를 함께 얹는...
mmGRPO는 여러 LM 모듈과 도구로 구성된 언어 모델 프로그램을 그대로 두고, 모듈 호출 단위의 GRPO와 MIPROv2 프롬프트 최적화를 조합해 더 좋은 rollout 분포를 만드는 온라인 RL 레시피다.
Tag
DSPy 태그가 붙은 글입니다.
mmGRPO는 여러 LM 모듈과 도구로 구성된 언어 모델 프로그램을 그대로 두고, 모듈 호출 단위의 GRPO와 MIPROv2 프롬프트 최적화를 조합해 더 좋은 rollout 분포를 만드는 온라인 RL 레시피다.
NousResearch의 별도 저장소는 DSPy+GEPA로 Hermes Agent의 SKILL.md, 도구 설명, 시스템 프롬프트를 평가 가능한 변종으로 만들고, 작은 Phase 1 검증을 통해 자동 스킬 개선...