Nemotron-Orchestrator-8B는 작은 8B 모델로 더 큰 에이전트 시스템을 지휘한다
NVIDIA의 Nemotron-Orchestrator-8B는 Qwen3-8B 기반의 경량 orchestrator를 RL로 학습시켜, 검색·코드 실행·전문 모델·거대 범용 모델을 상황별로 배치하며 GPT-5보다 더 높은 HLE 점수와 더 나은 비용 효율을 동시에 노린다.
Tag
LLM Systems 태그가 붙은 글입니다.
NVIDIA의 Nemotron-Orchestrator-8B는 Qwen3-8B 기반의 경량 orchestrator를 RL로 학습시켜, 검색·코드 실행·전문 모델·거대 범용 모델을 상황별로 배치하며 GPT-5보다 더 높은 HLE 점수와 더 나은 비용 효율을 동시에 노린다.
Agent Lightning은 기존 LangChain·OpenAI Agents SDK·AutoGen 기반 에이전트를 거의 수정하지 않고도 강화학습으로 최적화할 수 있게 하며, 이를 위해 실행 궤적을 통합 인터페이스로 수집하고 Training-Agent Disaggregation 구조로 학습 루프를 분리한다.
Prompt-Level Distillation은 교사 모델의 추론 규칙을 학생 모델의 시스템 프롬프트로 옮겨, 파인튜닝 없이도 작은 모델이 복잡한 분류 추론을 더 빠르고 투명하게 수행하도록 만든다.