mmGRPO는 DSPy식 LM 프로그램에 GRPO와 프롬프트 최적화를 함께 얹는...
mmGRPO는 여러 LM 모듈과 도구로 구성된 언어 모델 프로그램을 그대로 두고, 모듈 호출 단위의 GRPO와 MIPROv2 프롬프트 최적화를 조합해 더 좋은 rollout 분포를 만드는 온라인 RL 레시피다.
Blog
mmGRPO는 여러 LM 모듈과 도구로 구성된 언어 모델 프로그램을 그대로 두고, 모듈 호출 단위의 GRPO와 MIPROv2 프롬프트 최적화를 조합해 더 좋은 rollout 분포를 만드는 온라인 RL 레시피다.
arXiv 2606.03303은 전문 theorem prover fine-tuning보다 blueprint, AND-OR DAG, Lean compiler feedback을 결합한 agentic formal pr...
Google의 Gemma 4 12B Unified는 11.95B dense 모델에서 별도 비전·오디오 인코더를 제거하고 raw patch와 waveform을 LLM backbone에 직접 투입해, 노트북급 로컬...
Harness-1은 20B 검색 에이전트가 긴 transcript 위에서 모든 상태를 기억하게 하는 대신, 후보 풀·curated set·검증 기록을 하네스가 관리하게 만든 RL 기반 검색 에이전트다.
COLLEAGUE.SKILL은 동료의 리뷰 기준, 공적 인물의 사고 모델, 민감한 관계 기록을 불투명한 persona prompt가 아니라 inspectable·correctable·governable SKILL...
NousResearch의 별도 저장소는 DSPy+GEPA로 Hermes Agent의 SKILL.md, 도구 설명, 시스템 프롬프트를 평가 가능한 변종으로 만들고, 작은 Phase 1 검증을 통해 자동 스킬 개선...
The Efficiency Frontier는 긴 컨텍스트를 무조건 늘리는 대신, 검색·압축·전체 컨텍스트 전략을 성능 목표와 재사용 조건에 맞춰 선택하는 배포 지향 평가 프레임워크다.
Entropy Distribution as a Fingerprint for Hallucinations in Generative Models는 평균 perplexity가 버리는 토큰 엔트로피의 모양과 꼬리 신호를...
arXiv 2605.30621은 자기진화 에이전트의 성능 향상을 업데이트 작성 능력과 업데이트 활용 능력으로 분해하고, 실제 병목이 evolver보다 task-solving agent 쪽에 있음을 보여준다.
Google DeepMind의 Science Skills는 Antigravity 위에서 생명과학 데이터베이스, 스크립트, 도메인별 절차를 SKILL.md 단위로 묶어 과학 워크플로의 신뢰도와 토큰 효율을 높이려는...
SpatialBench는 19개 데이터셋, 546개 장면, 41개 모델 변형, 6개 패러다임을 하나의 deterministic multi-density 프로토콜로 묶어 공간 파운데이션 모델의 범용성을 검증하는 벤...
Google DeepMind의 Gemini Embedding 2 논문과 공식 문서를 바탕으로, 네이티브 멀티모달 임베딩 모델이 RAG·검색·추천 인프라에서 어떤 의미를 갖는지 정리한다.