PRISM은 멀티모달 RL의 병목을 RL 자체보다 SFT 이후의 분포 붕괴에서...
PRISM은 멀티모달 모델의 표준 SFT→RLVR 파이프라인 사이에 black-box on-policy distillation 기반의 pre-alignment 단계를 삽입해, 시각 인식과 추론이 서로 다른 방식으...
Blog
PRISM은 멀티모달 모델의 표준 SFT→RLVR 파이프라인 사이에 black-box on-policy distillation 기반의 pre-alignment 단계를 삽입해, 시각 인식과 추론이 서로 다른 방식으...
RecursiveMAS는 여러 LLM 에이전트를 텍스트 메시지 체인 대신 잠재 상태 루프로 연결하고, RecursiveLink와 inner–outer loop 학습으로 시스템 전체를 공동 최적화해 정확도·속도·토...
Qwen-Scope는 Qwen3·Qwen3.5 계열 7개 모델에 대해 14개 그룹의 sparse autoencoder를 공개하고, 이를 추론 조종·벤치마크 분석·안전 데이터 합성·사후 훈련 최적화까지 연결해 SA...
cocoindex-io/cocoindex는 RAG와 에이전트용 인덱싱을 단순 임베딩 배치가 아니라 declarative target state와 incremental sync 문제로 재정의해, 코드·문서·회의록·...
Stet의 56개 실전 리포지토리 태스크 비교는 GPT-5.5가 Codex CLI에서 더 자주 ‘출하 가능한 패치’를 만들고, Opus 4.7은 Claude Code에서 더 작은 패치를 만들지만 통합 작업을 덜...
Fincept-Corporation/FinceptTerminal은 C++20·Qt6 네이티브 데스크톱 위에 임베디드 Python 분석, 100개 이상 데이터 커넥터, 브로커 연동, AI 에이전트, MCP 도구,...
Lum1104/Understand-Anything은 코드·문서·Karpathy 스타일 위키를 멀티 에이전트 파이프라인으로 분석해 구조 그래프, 도메인 그래프, 검색, 온보딩, diff 영향 분석까지 연결하는 오픈...
Google의 Gemma 4 Multi-Token Prediction drafters는 작은 draft model이 여러 토큰을 미리 제안하고 target model이 이를 병렬 검증하는 구조를 통해, 출력 품질...
seulee26/mckinsey-pptx는 맥킨지 스타일 슬라이드 40종을 Python PPTX 엔진으로 구현하고, 그 위에 Claude Code 플러그인·서브에이전트·슬래시 커맨드를 얹어 사용자의 짧은 브리프를...
EXAONE 4.5 33B는 31.7B 언어모델과 1.29B 비전 인코더를 결합한 LG AI Research의 첫 오픈 웨이트 VLM으로, 256K 컨텍스트와 문서 이해 중심 데이터 전략을 앞세워 범용 벤치마크보...
Qwen3.6-35B-A3B는 총 35B·활성 3B의 멀티모달 MoE 구조 위에 agentic coding, preserve_thinking, 초장문 컨텍스트 확장, 오픈 배포 경로를 결합해 작은 활성 비용으로...
Mistral Medium 3.5는 128B dense open-weight 모델 하나에 instruction following, reasoning, coding, vision, tool use를 통합하고, 이를...