Tag

#AI Safety

Anthropic Engineering의 Claude containment 글은 claude.ai, Claude Code, Claude Cowork의 서로 다른 격리 구조를 통해 에이전트 보안의 핵심이 행동 감시...

Sangmin Lee2026.06.06

카카오의 Kanana Safeguard 8B는 한국어 유해 콘텐츠 탐지를 단일 토큰 분류 문제로 만들고, 사용자 발화와 AI 응답을 함께 판정하도록 공개된 Apache-2.0 가드레일 모델이다.

Sangmin Lee2026.05.26

Meta의 Code World Model Preparedness Report는 32B 코드 월드 모델 CWM을 공개하기 전에 사이버·생화학·정직성 리스크를 현재 오픈 모델 생태계와 비교해 검증한 사례다.

Sangmin Lee2026.05.19

Latent Agents의 IMAD는 3개 에이전트의 토론 trace를 SFT로 학습한 뒤 GRPO의 동적 보상과 길이 클리핑으로 내재화해, 명시적 debate와 비슷하거나 더 나은 성능을 훨씬 적은 토큰으로 재...

Sangmin Lee2026.05.13

Anthropic의 Natural Language Autoencoders는 Claude의 activation을 자연어 설명으로 바꾸고 다시 activation으로 복원하는 왕복 구조를 통해, 모델이 말하지 않은...

Sangmin Lee2026.05.11