OSCAR는 VLM 환각 억제를 더 강한 교사보다 자기 검증 루프로 옮긴다
OSCAR는 더 강한 VLM의 오프라인 정답을 흉내 내는 대신, 모델 자신의 판별 능력과 MCTS 탐색을 이용해 온라인 preference 데이터를 만들고 DPO로 갱신함으로써 시각 환각을 줄이는 정렬 프레임을 제안한다.
Category
보안 배포, 개인정보 보호, 세이프티 가드 모델을 운영 환경 기준으로 정리합니다.
OSCAR는 더 강한 VLM의 오프라인 정답을 흉내 내는 대신, 모델 자신의 판별 능력과 MCTS 탐색을 이용해 온라인 preference 데이터를 만들고 DPO로 갱신함으로써 시각 환각을 줄이는 정렬 프레임을 제안한다.
SIREN은 마지막 레이어 출력만 쓰는 기존 guard model 대신 LLM 내부 레이어의 safety neuron을 모아 harmfulness detector를 구성함으로써, 훨씬 적은 학습 파라미터로 더 강한 일반화와 스트리밍 감지를 노린다.
OpenAI Privacy Filter는 PII 탐지와 마스킹을 위한 1.5B 오픈 웨이트 모델로, 긴 비정형 텍스트를 로컬 환경에서 빠르게 처리하면서 개인정보 보호를 제품 내부 워크플로우로 끌어들인다.
모델 파일 암호화, manifest, runtime role mapping, 배포 검증은 보안 기능을 넘어 고객이 제품을 신뢰하는 방식이 된다.