Blog

Knowledge WIKI

335 posts, 242-253 showing

21 / 28

EMO는 MoE를 거대한 단일 모델이 아니라 조립 가능한 expert 모듈로 학...

Ai2와 UC Berkeley의 EMO는 문서 경계를 약한 supervision으로 삼아 같은 문서의 토큰이 공유 expert pool 안에서 routing되도록 MoE를 사전학습한다. 1B active / 14...

Sangmin Lee2026.05.13

Model Training

Latent Agents는 멀티에이전트 토론을 한 모델의 잠재공간으로 압축한다

Latent Agents의 IMAD는 3개 에이전트의 토론 trace를 SFT로 학습한 뒤 GRPO의 동적 보상과 길이 클리핑으로 내재화해, 명시적 debate와 비슷하거나 더 나은 성능을 훨씬 적은 토큰으로 재...

Sangmin Lee2026.05.13

Agent Systems

Reinforced Agent는 툴 호출을 실행 전에 한 번 더 검토하는 실용적...

Reinforced Agent 논문은 툴 호출 에이전트의 오류를 사후 복구가 아니라 실행 전 리뷰 문제로 바꾸고, Helpfulness-Harmfulness 지표로 reviewer agent가 실제로 도움이 되는...

Sangmin Lee2026.05.13

Inference Systems

LiteVLA-H는 드론 VLA를 20Hz 액션 루프와 6Hz 의미 루프로 나눈...

LiteVLA-H는 Jetson AGX Orin 위의 256M VLA에서 pre-fill이 액션 지연의 대부분을 차지한다는 관찰을 바탕으로, 빠른 외부 guidance 루프와 느린 semantic percepti...

Sangmin Lee2026.05.12

Foundation Models

MiniCPM-V 4.6은 1.3B 멀티모달 모델을 휴대폰 배포 기준으로 다시...

MiniCPM-V 4.6은 SigLIP2-400M과 Qwen3.5-0.8B, LLaVA-UHD v4식 시각 토큰 압축을 결합해 이미지·비디오 이해를 1.3B 규모와 모바일 배포 surface로 끌어내린 공개 VL...

Sangmin Lee2026.05.12

Agent Systems

Arize Alyx의 계층적 메모리는 에이전트 실패를 context window...

AI Engineer 발표에서 Arize의 Sally-Ann DeLucia는 Alyx를 만들며 겪은 context explosion을 바탕으로, 단순 truncation이나 LLM summarization보다 I...

Sangmin Lee2026.05.11

Safety & Privacy

Anthropic의 NLA는 Claude의 ‘속생각’을 자연어로 압축해 읽으려는...

Anthropic의 Natural Language Autoencoders는 Claude의 activation을 자연어 설명으로 바꾸고 다시 activation으로 복원하는 왕복 구조를 통해, 모델이 말하지 않은...

Sangmin Lee2026.05.11

Model Training

SVP는 VLM 정렬을 더 많은 라벨이 아니라 grounding feedback...

Sampling-based Visual Projection(SVP)은 소량의 이미지, self-captioning, GroundingDINO류 grounding feedback만으로 VLM의 시각-언어 정렬을 보...

Sangmin Lee2026.05.11

Agent Skills & Workflows

SRA는 에이전트 스킬을 프롬프트 목록에서 검색 가능한 능력 코퍼스로 바꾼다

arXiv 2604.24594는 Skill Retrieval Augmentation과 SRA-Bench를 통해 에이전트 스킬 검색·로딩·적용을 분리 평가하고, 병목이 검색 품질만이 아니라 모델의 스킬 로딩 판단에...

Sangmin Lee2026.05.11

Agent Skills & Workflows

Harness Engineering은 코딩 에이전트 시대의 소프트웨어 공학을 ‘...

OpenAI Ryan Lopopolo의 AI Engineer Europe 발표는 코드 작성이 싸진 뒤의 병목이 인간의 주의, 모델 컨텍스트, 검증 루프가 되며, 엔지니어의 역할이 에이전트가 일하기 좋은 하네스를...

Sangmin Lee2026.05.11

Research Agents

Self-Evolved ABC는 EDA 도구 자체를 에이전트가 진화시키려는 실험...

Autonomous Evolution of EDA Tools는 Claude 기반 다중 에이전트가 ABC의 120만 줄 규모 C 코드베이스를 직접 수정하고, 컴파일·CEC·QoR 평가 루프를 통과한 변경만 누적해...

Sangmin Lee2026.05.11

Model Training

Unsloth와 NVIDIA의 협업은 LLM 학습 병목을 커널 밖에서 줄인다

Unsloth의 NVIDIA 협업 글은 packed sequence metadata 캐싱, double-buffered checkpoint reload, MoE routing 최적화처럼 커널 주변의 동기화와 데이...

Sangmin Lee2026.05.11