Blog

Knowledge WIKI

335 posts, 110-121 showing

10 / 28

MiniCPM4는 온디바이스 LLM을 모델·데이터·추론 스택 전체로 줄인다

MiniCPM4는 0.5B·8B 모델, InfLLM v2 sparse attention, UltraClean 데이터 필터링, CPM.cu/ArkInfer 추론 스택을 한 번에 묶어 온디바이스 LLM의 병목을 시스...

Sangmin Lee2026.06.04

Model Training

mmGRPO는 DSPy식 LM 프로그램에 GRPO와 프롬프트 최적화를 함께 얹는...

mmGRPO는 여러 LM 모듈과 도구로 구성된 언어 모델 프로그램을 그대로 두고, 모듈 호출 단위의 GRPO와 MIPROv2 프롬프트 최적화를 조합해 더 좋은 rollout 분포를 만드는 온라인 RL 레시피다.

Sangmin Lee2026.06.04

Research Agents

LEAP은 일반 LLM을 Lean 검증 루프 안의 형식 증명 에이전트로 바꾼다

arXiv 2606.03303은 전문 theorem prover fine-tuning보다 blueprint, AND-OR DAG, Lean compiler feedback을 결합한 agentic formal pr...

Sangmin Lee2026.06.04

Foundation Models

Gemma 4 12B는 인코더 없는 멀티모달을 로컬 에이전트 모델로 밀어 넣는다

Google의 Gemma 4 12B Unified는 11.95B dense 모델에서 별도 비전·오디오 인코더를 제거하고 raw patch와 waveform을 LLM backbone에 직접 투입해, 노트북급 로컬...

Sangmin Lee2026.06.04

Search & Retrieval

Harness-1은 검색 에이전트 학습을 stateful harness 문제로...

Harness-1은 20B 검색 에이전트가 긴 transcript 위에서 모든 상태를 기억하게 하는 대신, 후보 풀·curated set·검증 기록을 하네스가 관리하게 만든 RL 기반 검색 에이전트다.

Sangmin Lee2026.06.04

Agent Skills & Workflows

COLLEAGUE.SKILL은 사람의 흔적을 에이전트 스킬 패키지로 바꾼다

COLLEAGUE.SKILL은 동료의 리뷰 기준, 공적 인물의 사고 모델, 민감한 관계 기록을 불투명한 persona prompt가 아니라 inspectable·correctable·governable SKILL...

Sangmin Lee2026.06.04

Agent Skills & Workflows

Hermes Agent Self-Evolution은 에이전트 스킬을 자동으로 진...

NousResearch의 별도 저장소는 DSPy+GEPA로 Hermes Agent의 SKILL.md, 도구 설명, 시스템 프롬프트를 평가 가능한 변종으로 만들고, 작은 Phase 1 검증을 통해 자동 스킬 개선...

Sangmin Lee2026.06.04

Inference Systems

Efficiency Frontier는 LLM 컨텍스트 관리를 비용-성능 최적화...

The Efficiency Frontier는 긴 컨텍스트를 무조건 늘리는 대신, 검색·압축·전체 컨텍스트 전략을 성능 목표와 재사용 조건에 맞춰 선택하는 배포 지향 평가 프레임워크다.

Sangmin Lee2026.06.03

Safety & Privacy

CES는 토큰 엔트로피 분포를 환각 탐지의 지문으로 쓴다

Entropy Distribution as a Fingerprint for Hallucinations in Generative Models는 평균 perplexity가 버리는 토큰 엔트로피의 모양과 꼬리 신호를...

Sangmin Lee2026.06.04

Agent Skills & Workflows

Harness Updating은 Harness Benefit이 아니다

arXiv 2605.30621은 자기진화 에이전트의 성능 향상을 업데이트 작성 능력과 업데이트 활용 능력으로 분해하고, 실제 병목이 evolver보다 task-solving agent 쪽에 있음을 보여준다.

Sangmin Lee2026.06.04

Agent Skills & Workflows

Google DeepMind Science Skills는 과학 에이전트를 워크플...

Google DeepMind의 Science Skills는 Antigravity 위에서 생명과학 데이터베이스, 스크립트, 도메인별 절차를 SKILL.md 단위로 묶어 과학 워크플로의 신뢰도와 토큰 효율을 높이려는...

Sangmin Lee2026.06.02

Evaluation & Benchmarks

SpatialBench는 공간 파운데이션 모델이 진짜 올라운더인지 묻는다

SpatialBench는 19개 데이터셋, 546개 장면, 41개 모델 변형, 6개 패러다임을 하나의 deterministic multi-density 프로토콜로 묶어 공간 파운데이션 모델의 범용성을 검증하는 벤...

Sangmin Lee2026.05.29