LEAF는 작은 embedding 모델을 teacher와 같은 벡터 공간에 맞춘...
LEAF는 teacher embedding을 직접 근사하는 단순한 증류 목표로 23M text embedding 모델을 만들고, 문서는 큰 teacher로 질의는 작은 leaf로 처리하는 비대칭 검색 구조까지 열...
Blog
LEAF는 teacher embedding을 직접 근사하는 단순한 증류 목표로 23M text embedding 모델을 만들고, 문서는 큰 teacher로 질의는 작은 leaf로 처리하는 비대칭 검색 구조까지 열...
ZeroEntropy의 Models 문서는 zembed-1 임베딩, zerank 계열 reranker, zsearch 검색 엔진, API 요금·rate limit·배포 옵션을 하나의 검색 품질 스택으로 보여 준다...
NVIDIA의 Nemotron-Orchestrator-8B는 Qwen3-8B 기반의 경량 orchestrator를 RL로 학습시켜, 검색·코드 실행·전문 모델·거대 범용 모델을 상황별로 배치하며 GPT-5보다 더...
DCI는 임베딩 인덱스와 top-k 검색 API를 우회하고, 에이전트가 raw corpus를 grep·bash·read로 직접 탐색하게 만드는 검색 인터페이스 제안이다.
arXiv 2605.22166의 Life-Harness는 frozen LLM agent의 반복 실패를 환경 계약, 절차 스킬, 액션 실현, 궤적 제어 계층에서 고치는 runtime harness 방법이다. 7개...
arXiv 2605.20176은 임상 에이전트가 미리 큐레이션된 컨텍스트를 읽는 대신 EHR, 웹 지식, 흉부 X-ray 도구를 직접 호출해 근거를 모으는 ClinSeekAgent와 ClinSeek-Bench,...
arXiv 2605.08301은 Qwen·Llama·Mistral 계열 사전학습 Transformer에서 일부 attention layer를 SSM layer로 바꾸고, 짧은 alignment와 post-trai...
SWIM은 NL-Refer와 cross-attention mask supervision으로 Qwen2.5-VL 계열 모델이 추론 시 point·box·mask 없이 자연어로 지칭한 비디오 객체에 주의를 맞추도록...
rasbt/LLMs-from-scratch의 ch04/09_dsa는 DeepSeek-V3.2의 DeepSeek Sparse Attention을 작은 GPT 코드로 재구성해, long-context attentio...
δ-mem은 frozen Transformer에 8×8 온라인 연상기억 상태를 붙이고, 그 readout으로 attention을 저랭크 보정해 장기 상호작용 메모리를 컨텍스트 확장 없이 다루려는 경량 메모리 메커...
NVIDIA Nemotron-Labs-Diffusion은 동일한 백본에서 오토리그레시브, 블록 단위 디퓨전, self-speculation 디코딩을 전환해 품질과 저동시성 추론 효율을 함께 노리는 tri-mode...
NVIDIA의 AI-Q agent skill은 Claude Code, Codex, OpenCode 같은 범용 에이전트 하네스가 리서치 파이프라인을 직접 재구현하지 않고, 로컬 또는 사내 AI-Q 서버에 장기 리서...