Prompt tuning은 작은 벡터로 생성·임베딩·리랭킹을 잇는다
Prefix-tuning, soft prompt tuning, suffix prompt tuning, passage-specific prompt tuning을 하나의 계보로 보면, LLM을 다시 학습시키는 대신...
Tag
LLM Systems 태그가 붙은 글입니다.
Prefix-tuning, soft prompt tuning, suffix prompt tuning, passage-specific prompt tuning을 하나의 계보로 보면, LLM을 다시 학습시키는 대신...
NVIDIA의 Nemotron-Orchestrator-8B는 Qwen3-8B 기반의 경량 orchestrator를 RL로 학습시켜, 검색·코드 실행·전문 모델·거대 범용 모델을 상황별로 배치하며 GPT-5보다 더...
Agent Lightning은 기존 LangChain·OpenAI Agents SDK·AutoGen 기반 에이전트를 거의 수정하지 않고도 강화학습으로 최적화할 수 있게 하며, 이를 위해 실행 궤적을 통합 인터페이...
Prompt-Level Distillation은 교사 모델의 추론 규칙을 학생 모델의 시스템 프롬프트로 옮겨, 파인튜닝 없이도 작은 모델이 복잡한 분류 추론을 더 빠르고 투명하게 수행하도록 만든다.