QueST는 사용자 질문 하나로 테스트 시점 LoRA 적응을 만든다
QueST는 입력 질문에서 관련 문제-해설 쌍을 생성하고, 이를 이용해 추론 직전에 LoRA로 모델을 가볍게 적응시키는 query-conditioned test-time self-training 방법이다.
Tag
LLM Reasoning 태그가 붙은 글입니다.
QueST는 입력 질문에서 관련 문제-해설 쌍을 생성하고, 이를 이용해 추론 직전에 LoRA로 모델을 가볍게 적응시키는 query-conditioned test-time self-training 방법이다.
DeepConf는 self-consistency식 병렬 추론에서 모든 reasoning trace를 같은 한 표로 취급하지 않고, 모델 내부 confidence 신호로 낮은 품질의 추론을 필터링하거나 조기 중단해...