Blog

Knowledge WIKI

187 posts, 1-13 showing

1 / 16

RF-DETR는 비전 Transformer를 실시간 객체검출기로 다시 조립한다

RF-DETR 논문은 DINOv2 기반 DETR에 weight-sharing NAS를 결합해 COCO와 RF100-VL에서 실시간 detection·segmentation의 accuracy-latency Pareto frontier를 다시 그리려는 Roboflow의 공...

Sangmin Lee2026.05.26

Agent Systems

SkillOpt는 에이전트 스킬을 가중치 없이 학습 가능한 절차로 바꾼다

Microsoft 등이 공개한 SkillOpt는 에이전트의 자연어 skill 문서를 모델 가중치가 아닌 외부 학습 상태로 보고, rollout·reflection·bounded edit·validation gat...

Sangmin Lee2026.05.26

Inference Systems

DeepConf는 확신도로 LLM 병렬 추론의 낭비를 줄인다

DeepConf는 self-consistency식 병렬 추론에서 모든 reasoning trace를 같은 한 표로 취급하지 않고, 모델 내부 confidence 신호로 낮은 품질의 추론을 필터링하거나 조기 중단해...

Sangmin Lee2026.05.26

Foundation Models

ERNIE-4.5-VL-Thinking은 3B 활성 MoE로 멀티모달 추론을 가...

Baidu의 ERNIE-4.5-VL-28B-A3B-Thinking은 28B급 총 파라미터와 3B 활성 파라미터를 갖는 공개 VLM으로, 이미지·비디오 reasoning, grounding, tool call, 1...

Sangmin Lee2026.05.26

Safety & Privacy

Kanana Safeguard 8B는 한국어 AI 서비스를 위한 공개 가드레일...

카카오의 Kanana Safeguard 8B는 한국어 유해 콘텐츠 탐지를 단일 토큰 분류 문제로 만들고, 사용자 발화와 AI 응답을 함께 판정하도록 공개된 Apache-2.0 가드레일 모델이다.

Sangmin Lee2026.05.26

Data Infrastructure

RAG 청킹 최적화는 검색 단위를 설계하는 일이다

요즘IT의 PyCon Korea 2025 세션 정리를 출발점으로, RAG 청킹을 고정 토큰 수 튜닝이 아니라 문맥 보존·메타데이터·검색 비용을 함께 다루는 데이터 인프라 설계 문제로 정리한다.

Sangmin Lee2026.05.26

Data Infrastructure

FastEmbed-rs는 RAG 임베딩·리랭킹을 Rust 로컬 런타임으로 묶는다

fastembed-rs는 ONNX Runtime, Hugging Face tokenizers, 선택적 Candle 백엔드를 묶어 텍스트·희소·이미지 임베딩과 reranking을 Rust 애플리케이션 안에서 실행하...

Sangmin Lee2026.05.26

Agent Systems

6가지 Agentic Design Pattern은 에이전트를 제품 구조로 보는...

Akshay Pachaar의 LinkedIn 포스트와 Daily Dose of Data Science 인포그래픽을 출발점으로 ReAct, CodeAct, MCP 기반 tool use, self-reflection...

Sangmin Lee2026.05.26

Agent Systems

Fara-7B는 컴퓨터 사용 에이전트를 온디바이스 7B 문제로 바꾼다

Microsoft Research의 Fara-7B는 스크린샷만 보고 좌표 행동을 예측하는 7B 컴퓨터 사용 에이전트로, FaraGen 합성 궤적과 Critical Point 안전장치를 통해 웹 자동화의 비용·프라...

Sangmin Lee2026.05.26

Inference Systems

Unsloth는 QAT와 ExecuTorch로 Qwen3를 스마트폰 안으로 밀어...

Unsloth의 phone deployment 가이드는 Qwen3-0.6B를 QAT로 파인튜닝하고 TorchAO/ExecuTorch로 .pte 모델을 내보낸 뒤, Pixel 8과 iPhone 계열 기기에서 로컬...

Sangmin Lee2026.05.25

Foundation Models

LFM2는 파운데이션 모델을 엣지 지연·메모리 문제로 다시 설계한다

LFM2 Technical Report는 게이트드 짧은 합성곱과 소수의 GQA 블록을 결합한 하이브리드 백본, 32K 컨텍스트, VL·Audio·ColBERT 변형, 엣지 런타임 패키징을 한 묶음으로 공개한 Li...

Sangmin Lee2026.05.25

Data Infrastructure

HNSW는 벡터 검색을 고차원 skip list로 만든다

Victoria Slocum의 HNSW 설명 포스트를 출발점으로, 벡터 DB가 brute-force 검색 대신 계층적 근접 그래프를 쓰는 이유와 M·ef·distance 튜닝의 실무적 의미를 정리한다.

Sangmin Lee2026.05.25

Data Infrastructure

ctxl-rerank-v2 seq-cls는 CausalLM reranker를 표...

sigridjineth/ctxl-rerank-v2-1b-seq-cls는 Contextual AI Reranker v2 1B의 마지막 토큰 vocab_id=0 logit을 단일 SequenceClassificati...

Sangmin Lee2026.05.25