KoHRM-Text는 HRM-Text를 한국어·터미널 사전학습 실험으로 다시 읽...
KoHRM-Text는 HRM-Text의 recurrent PrefixLM 학습 스택을 한국어, 터미널, 툴콜, 코드 데이터와 131K 토크나이저로 재구성한 1.4B급 scratch pretraining 작업 저장...
Tag
Model Training 태그가 붙은 글입니다.
KoHRM-Text는 HRM-Text의 recurrent PrefixLM 학습 스택을 한국어, 터미널, 툴콜, 코드 데이터와 131K 토크나이저로 재구성한 1.4B급 scratch pretraining 작업 저장...
arXiv 2606.12397은 MoE router row를 각 expert weight matrix의 principal singular direction에 맞추는 Manifold Power Iteration을...
Microsoft AI가 Build 2026에서 공개한 7종 MAI 모델은 단일 SOTA 발표보다, 깨끗한 데이터·자체 인프라·제품 통합·Frontier Tuning을 묶은 반복 개선 시스템 선언에 가깝다.
Rethinking VLM Representation for VLA Initialization은 로봇 VLA 성능을 단순한 백본 크기 문제가 아니라 embodied VQA 신호, LoRA 보존, 로봇 데이터 사전...
Merve Noyan의 AI Engineer 발표는 Hugging Face Hub가 모델 저장소를 넘어, 오픈 모델 탐색·Inference Providers·traces·skills·MCP·Jobs를 묶어 에이전...
Jin’s Doodle의 Large-scale Model 핵심 기술 리포트는 decoder-only 아키텍처, RMSNorm·SwiGLU·Pre-Norm, RoPE·mRoPE, FlashAttention·GQA를...