Kanana Safeguard 8B는 한국어 AI 서비스를 위한 공개 가드레일...
카카오의 Kanana Safeguard 8B는 한국어 유해 콘텐츠 탐지를 단일 토큰 분류 문제로 만들고, 사용자 발화와 AI 응답을 함께 판정하도록 공개된 Apache-2.0 가드레일 모델이다.
Tag
AI Safety 태그가 붙은 글입니다.
카카오의 Kanana Safeguard 8B는 한국어 유해 콘텐츠 탐지를 단일 토큰 분류 문제로 만들고, 사용자 발화와 AI 응답을 함께 판정하도록 공개된 Apache-2.0 가드레일 모델이다.
Meta의 Code World Model Preparedness Report는 32B 코드 월드 모델 CWM을 공개하기 전에 사이버·생화학·정직성 리스크를 현재 오픈 모델 생태계와 비교해 검증한 사례다.
Latent Agents의 IMAD는 3개 에이전트의 토론 trace를 SFT로 학습한 뒤 GRPO의 동적 보상과 길이 클리핑으로 내재화해, 명시적 debate와 비슷하거나 더 나은 성능을 훨씬 적은 토큰으로 재...
Anthropic의 Natural Language Autoencoders는 Claude의 activation을 자연어 설명으로 바꾸고 다시 activation으로 복원하는 왕복 구조를 통해, 모델이 말하지 않은...