Tag

#GRPO

TimeLens2는 long video의 단일·반복·질문형·egocentric 근거 구간을 하나의 generative interface로 찾고, 검증된 93K supervision과 temporal Wassers...

Sangmin Lee2026.07.24

arXiv 2607.14777의 SEED는 완료된 on-policy trajectory에서 hindsight skill을 만들고, 같은 행동을 skill 유무 두 문맥에서 재채점해 GRPO에 dense token...

Sangmin Lee2026.07.18

arXiv 2606.14249는 prompt·tool·memory·control flow를 typed harness primitive로 분리하고, AEGIS trace-driven evolution과 cross-...

Sangmin Lee2026.06.16

mmGRPO는 여러 LM 모듈과 도구로 구성된 언어 모델 프로그램을 그대로 두고, 모듈 호출 단위의 GRPO와 MIPROv2 프롬프트 최적화를 조합해 더 좋은 rollout 분포를 만드는 온라인 RL 레시피다.

Sangmin Lee2026.06.04

이 논문은 Pólya식 문제 해결 휴리스틱으로 같은 문제의 여러 정답 풀이를 self-generated mid-training 데이터로 만들고, 그 다양성이 이후 GRPO 기반 RL에서 더 넓은 추론 경로와 조합...

Sangmin Lee2026.05.21

Latent Agents의 IMAD는 3개 에이전트의 토론 trace를 SFT로 학습한 뒤 GRPO의 동적 보상과 길이 클리핑으로 내재화해, 명시적 debate와 비슷하거나 더 나은 성능을 훨씬 적은 토큰으로 재...

Sangmin Lee2026.05.13

LoPE는 hard question에서 실패한 롤아웃에 Lorem Ipsum 기반 프롬프트 교란을 추가해 GRPO의 zero-advantage 병목을 깨고, prompt-space exploration이 단순 추...

Sangmin Lee2026.05.08

Skills-Coach는 LLM 에이전트 스킬을 자동으로 테스트하고, Training-Free GRPO로 문서와 코드를 다듬고, 원본과 최적화본을 비교 평가하는 self-evolving optimizer 프레임워...

Sangmin Lee2026.05.07