Safety & Privacy

보안 배포, 개인정보 보호, 세이프티 가드 모델을 운영 환경 기준으로 정리합니다.

카카오의 Kanana Safeguard 8B는 한국어 유해 콘텐츠 탐지를 단일 토큰 분류 문제로 만들고, 사용자 발화와 AI 응답을 함께 판정하도록 공개된 Apache-2.0 가드레일 모델이다.

Sangmin Lee2026.05.26

Meta의 Code World Model Preparedness Report는 32B 코드 월드 모델 CWM을 공개하기 전에 사이버·생화학·정직성 리스크를 현재 오픈 모델 생태계와 비교해 검증한 사례다.

Sangmin Lee2026.05.19

kalyan-ks/ettin-68m-nemotron-pii는 ETTIN 68M encoder와 NVIDIA Nemotron-PII 데이터를 결합해, 영어 PII/PHI 탐지를 작은 NER 모델로 운영 파이프라인에...

Sangmin Lee2026.05.13

Anthropic의 Natural Language Autoencoders는 Claude의 activation을 자연어 설명으로 바꾸고 다시 activation으로 복원하는 왕복 구조를 통해, 모델이 말하지 않은...

Sangmin Lee2026.05.11

OSCAR는 더 강한 VLM의 오프라인 정답을 흉내 내는 대신, 모델 자신의 판별 능력과 MCTS 탐색을 이용해 온라인 preference 데이터를 만들고 DPO로 갱신함으로써 시각 환각을 줄이는 정렬 프레임을...

Sangmin Lee2026.05.06

SIREN은 마지막 레이어 출력만 쓰는 기존 guard model 대신 LLM 내부 레이어의 safety neuron을 모아 harmfulness detector를 구성함으로써, 훨씬 적은 학습 파라미터로 더 강...

Sangmin Lee2026.05.06

OpenAI Privacy Filter는 PII 탐지와 마스킹을 위한 1.5B 오픈 웨이트 모델로, 긴 비정형 텍스트를 로컬 환경에서 빠르게 처리하면서 개인정보 보호를 제품 내부 워크플로우로 끌어들인다.

Sangmin Lee2026.05.06

모델 파일 암호화, manifest, runtime role mapping, 배포 검증은 보안 기능을 넘어 고객이 제품을 신뢰하는 방식이 된다.

Sangmin Lee2026.04.12