Blog

Knowledge WIKI

335 posts, 170-181 showing

15 / 28

Agent Systems

RL Conductor는 7B 모델을 에이전트 오케스트라의 지휘자로 훈련한다

Sakana AI의 RL Conductor는 7B 모델이 GPT-5, Gemini, Claude, 오픈 모델을 직접 풀어 쓰는 대신 자연어 워크플로를 설계하도록 RL로 학습한 에이전트 오케스트레이션 논문이다.

Sangmin Lee2026.05.25

Model Training

νGPT는 Normalized Transformer의 학습률을 작은 모델에서 큰...

arXiv 2604.27077은 nGPT가 weight decay와 warmup 없이 빠르게 학습된다는 장점에도 불구하고 폭·깊이·토큰 horizon을 키울 때 학습률 transfer가 깨지는 문제를 보이고, a...

Sangmin Lee2026.05.25

Agent Systems

Three Roles, One Model은 작은 에이전트를 세 역할로 나눠 Ap...

arXiv 2604.11465는 Qwen3-8B 하나를 요약기, 메인 에이전트, 독립 교정기라는 세 역할로 반복 호출해 AppWorld pass@1 성능을 FP16 5.4%→8.9%, AWQ 3.0%→5.9%로...

Sangmin Lee2026.05.25

Search & Retrieval

Procrustes alignment는 embedding 모델 교체를 호환성 문...

arXiv 2510.13406은 서로 다른 embedding 모델이 pairwise dot product 구조를 비슷하게 보존한다면 직교 Procrustes 변환만으로 같은 검색·추천·멀티모달 파이프라인 안에서...

Sangmin Lee2026.05.25

Foundation Models

LLM은 깊이를 효율적으로 쓰지 못하고 있을 수 있다

NeurIPS 2025에 채택된 arXiv 2505.13898은 Llama 3.1, Qwen 3, OLMo 2의 residual stream을 분석해, 깊은 Transformer의 후반부 layer가 새로운 다단...

Sangmin Lee2026.05.25

Model Training

Prompt tuning은 작은 벡터로 생성·임베딩·리랭킹을 잇는다

Prefix-tuning, soft prompt tuning, suffix prompt tuning, passage-specific prompt tuning을 하나의 계보로 보면, LLM을 다시 학습시키는 대신...

Sangmin Lee2026.05.25

Search & Retrieval

LEAF는 작은 embedding 모델을 teacher와 같은 벡터 공간에 맞춘...

LEAF는 teacher embedding을 직접 근사하는 단순한 증류 목표로 23M text embedding 모델을 만들고, 문서는 큰 teacher로 질의는 작은 leaf로 처리하는 비대칭 검색 구조까지 열...

Sangmin Lee2026.05.25

Search & Retrieval

ZeroEntropy Models는 검색 품질을 모델·API·배포 옵션까지 한...

ZeroEntropy의 Models 문서는 zembed-1 임베딩, zerank 계열 reranker, zsearch 검색 엔진, API 요금·rate limit·배포 옵션을 하나의 검색 품질 스택으로 보여 준다...

Sangmin Lee2026.05.25

Agent Systems

Nemotron-Orchestrator-8B는 작은 8B 모델로 더 큰 에이전트...

NVIDIA의 Nemotron-Orchestrator-8B는 Qwen3-8B 기반의 경량 orchestrator를 RL로 학습시켜, 검색·코드 실행·전문 모델·거대 범용 모델을 상황별로 배치하며 GPT-5보다 더...

Sangmin Lee2026.05.25

Search & Retrieval

Direct Corpus Interaction은 검색 에이전트의 병목을 retr...

DCI는 임베딩 인덱스와 top-k 검색 API를 우회하고, 에이전트가 raw corpus를 grep·bash·read로 직접 탐색하게 만드는 검색 인터페이스 제안이다.

Sangmin Lee2026.05.25

Agent Systems

Life-Harness는 에이전트 실패를 모델 학습이 아니라 런타임 하네스 적응...

arXiv 2605.22166의 Life-Harness는 frozen LLM agent의 반복 실패를 환경 계약, 절차 스킬, 액션 실현, 궤적 제어 계층에서 고치는 runtime harness 방법이다. 7개...

Sangmin Lee2026.05.25

Research Agents

ClinSeekAgent는 임상 추론의 병목을 ‘증거 찾기’로 다시 정의한다

arXiv 2605.20176은 임상 에이전트가 미리 큐레이션된 컨텍스트를 읽는 대신 EHR, 웹 지식, 흉부 X-ray 도구를 직접 호출해 근거를 모으는 ClinSeekAgent와 ClinSeek-Bench,...

Sangmin Lee2026.05.25