Blog

Knowledge WIKI

335 posts, 38-49 showing

4 / 28

ViQ는 이미지도 텍스트처럼 ‘토큰화’하려는 시도다

ViQ는 SigLIP2 기반 시각 표현을 텍스트 정렬·근접 표현 학습·position-aware FSQ로 이산 코드화해, 임의 해상도 이미지 이해와 재구성, VLM 학습 효율을 함께 노리는 visual token...

Sangmin Lee2026.06.28

Inference Systems

SGLang Waterfill·LPLB는 MoE 서빙의 느린 rank를 disp...

LMSYS의 Waterfill·LPLB 글은 SGLang/DeepEP MoE inference에서 shared expert와 redundant expert replica를 runtime에 재배치해 EP rank...

Sangmin Lee2026.06.28

Inference Systems

Gemini Nano의 Frozen MTP는 Pixel 온디바이스 추론을 별도...

Google Research의 Frozen Multi-Token Prediction은 이미 배포된 Gemini Nano v3의 backbone을 고정한 채 MTP head만 붙여 Pixel 9·10의 온디바이스...

Sangmin Lee2026.06.28

Search & Retrieval

Neo4j LLM Graph Builder는 문서를 GraphRAG용 지식 그래...

Neo4j Labs의 LLM Graph Builder를 저장소·문서·릴리스 기준으로 살펴본다. 핵심은 문서 chunk와 entity graph를 함께 만들고, 이를 Neo4j 안에서 시각화·GraphRAG·평가까...

Sangmin Lee2026.06.26

Search & Retrieval

Hyper-Extract는 비정형 문서를 타입 있는 지식 추출 파이프라인으로 바...

Hyper-Extract는 문서를 리스트·Pydantic 모델·지식 그래프·하이퍼그래프·시공간 그래프로 추출하고, CLI·Python SDK·MCP·Obsidian export까지 붙인 지식 추출 프레임워크다.

Sangmin Lee2026.06.26

Inference Systems

Hugging Face의 로컬 오픈 모델 입문 영상은 모델보다 실행 스택을 먼저...

Hugging Face 라이브스트림 ‘Welcome to Open Source AI’는 오픈 모델을 로컬에서 쓰는 법을 llama.cpp, GGUF/quant, llama.app, Inference Provide...

Sangmin Lee2026.06.26

Foundation Models

ShutterMuse는 사진 촬영 순간의 구도와 포즈를 같이 안내하는 MLLM이...

ShutterMuse는 사후 크롭이 아니라 촬영 중 구도 결정, 프레이밍 보정, 피사체 포즈 추천을 함께 다루기 위해 CaptureGuide-Bench와 130K 규모 CaptureGuide-Dataset을 제안...

Sangmin Lee2026.06.26

Evaluation & Benchmarks

NatureBench는 코딩 에이전트의 과학 발견 능력을 SOTA 기준으로 묻는...

NatureBench는 Nature 계열 논문 90개를 컨테이너화된 과학 ML 과제로 바꿔, 코딩 에이전트가 논문 재현을 넘어 published SOTA를 실제로 맞추거나 넘을 수 있는지 평가한다.

Sangmin Lee2026.06.24

Agent Systems

Qwen-AgentWorld는 에이전트의 ‘환경’을 예측하는 언어 월드 모델이다

Qwen-AgentWorld는 MCP, 검색, 터미널, SWE, 웹, OS, Android까지 7개 에이전트 환경의 다음 관찰을 예측하도록 학습한 언어 월드 모델과 AgentWorldBench 공개 패키지다.

Sangmin Lee2026.06.25

Agent Systems

Awesome Harness Engineering은 에이전트 신뢰성을 모델 밖에...

walkinglabs의 Awesome Harness Engineering은 컨텍스트·평가·관측성·런타임 제어·안전한 자율성을 하나의 하네스 엔지니어링 문제로 묶어, 장기 실행 AI 에이전트를 더 신뢰할 수 있게...

Sangmin Lee2026.06.25

Model Training

OpenThoughts-Agent는 에이전트 학습을 데이터 레시피 문제로 공개한...

OpenThoughts-Agent는 100개 이상의 controlled ablation으로 agentic SFT 데이터 파이프라인을 분해하고, 100K trajectory로 Qwen3-32B를 학습해 공개 에이전...

Sangmin Lee2026.06.24

Document Intelligence

Unlimited-OCR은 긴 문서 OCR을 고정 KV 캐시 문제로 푼다

Baidu의 Unlimited-OCR은 DeepSeek-OCR의 압축 encoder 위에 Reference Sliding Window Attention을 얹어, 수십 페이지 문서 파싱을 한 번의 디코딩 흐름으로...

Sangmin Lee2026.06.23