MMSkills는 시각 에이전트 스킬을 멀티모달 절차 기억으로 만든다
MMSkills는 SKILL.md 절차에 상태 카드와 시각 keyframe을 결합하고, 런타임에는 branch loading으로 필요한 증거만 검토하게 만드는 시각 에이전트용 멀티모달 스킬 프레임워크다.
Blog
MMSkills는 SKILL.md 절차에 상태 카드와 시각 keyframe을 결합하고, 런타임에는 branch loading으로 필요한 증거만 검토하게 만드는 시각 에이전트용 멀티모달 스킬 프레임워크다.
SkillsVote는 100만 규모의 SKILL.md 생태계에서 어떤 스킬을 노출하고, 실행 결과를 어떻게 귀속하며, 어떤 경험만 라이브러리에 반영할지를 하나의 수명주기 문제로 다루는 에이전트 스킬 거버넌스 프레...
NVIDIA LongLive-2.0은 Balanced SP, NVFP4 학습·추론, KV-cache 양자화, asynchronous VAE decoding을 묶어 긴 비디오 생성의 학습 비용과 실시간 추론 병목을...
ByteDance의 Lance는 3B active parameter급 native unified multimodal model로, 이미지·비디오 이해, 생성, 편집을 shared interleaved contex...
arXiv 2605.18661은 AI 자동연구를 네 단계·여덟 스테이지의 전체 연구 라이프사이클로 정리하고, 완전 자율보다 인간이 통제하는 검증·출처·책임 설계가 더 중요한 병목이라고 주장한다.
Mind Lab의 MinT 기술 보고서는 LoRA adapter를 단순 메모리 절약용 파라미터가 아니라 rollout, update, export, evaluation, serving, rollback을 통과하는...
Hugging Face의 ettin-reranker-v1 계열은 Ettin ModernBERT encoder 위에 17M~1B CrossEncoder를 학습해, 공개 데이터·증류 레시피·MTEB/NanoBEIR·...
arXiv survey Code as Agent Harness는 코드가 reasoning·action·state·verification을 묶는 에이전트 운영 기판이 되며, 하네스 인터페이스·메커니즘·멀티에이전트...
Nested Learning은 모델 구조와 학습 규칙을 별개의 설계물이 아니라 서로 다른 시간척도의 중첩 최적화·연상기억 문제로 해석하고, Hope와 CMS를 통해 continual learning과 long-c...
SU-01은 30B-A3B reasoning backbone에 reverse-perplexity SFT, two-stage RL, test-time verification/refinement를 얹어 IMO·USA...
Meta의 Code World Model Preparedness Report는 32B 코드 월드 모델 CWM을 공개하기 전에 사이버·생화학·정직성 리스크를 현재 오픈 모델 생태계와 비교해 검증한 사례다.
Microsoft Security의 MDASH는 100개 이상의 전문 에이전트, 다중 모델 앙상블, debate·dedup·prove 파이프라인으로 Windows 취약점 16건과 CyberGym 88.45% 성과...