SenseNova-U1은 픽셀과 단어를 같은 기판에서 이해하고 생성한다
SenseNova-U1은 NEO-unify 기반으로 비전 인코더와 VAE를 제거하고, 픽셀 공간 생성과 MoT 구조를 결합해 이해·생성·편집·인터리브 생성을 한 모델 계열에 묶은 공개 멀티모달 릴리스다.
Blog
SenseNova-U1은 NEO-unify 기반으로 비전 인코더와 VAE를 제거하고, 픽셀 공간 생성과 MoT 구조를 결합해 이해·생성·편집·인터리브 생성을 한 모델 계열에 묶은 공개 멀티모달 릴리스다.
Qwen-Image-2.0은 Qwen3-VL 조건 인코더, MMDiT, 16× VAE, 다단계 데이터 플라이휠을 결합해 1K 토큰 텍스트 지시, 2K 포토리얼리즘, 이미지 편집을 하나의 생성 모델 표면으로 통합하...
SANA-WM은 Hybrid GDN-Softmax attention, 6-DoF camera control, long-video refiner, pose annotation pipeline을 묶어 720p 60초...
SlimQwen은 Qwen3-Next-80A3B를 23A2B로 줄이는 과정에서 구조적 pruning, partial-preservation expert merging, KD+LM objective, MTP dis...
AI Engineer의 MCP UI 발표는 MCP Apps가 tool result를 단순 텍스트가 아니라 sandboxed iframe, ui:// resource, bidirectional communicati...
Merve Noyan의 AI Engineer 발표는 Hugging Face Hub가 모델 저장소를 넘어, 오픈 모델 탐색·Inference Providers·traces·skills·MCP·Jobs를 묶어 에이전...
arXiv 2605.15184는 LongMemEval 기반 실험으로 agentic search의 성능이 grep 대 vector만이 아니라 하네스, 도구 출력 전달 방식, 노이즈 스케일링의 결합으로 결정된다는 점...
SOD는 tool-integrated reasoning에서 학생 모델의 잘못된 tool call이 만든 상태 드리프트를 step-level divergence로 감지하고, 온폴리시 증류 신호를 단계별로 재가중해...
PriorVLA는 pretrained VLA를 단순 초기값으로 쓰지 않고, frozen Prior Expert와 Expert Queries로 장면·모터 priors를 보존해 OOD와 few-shot 로봇 조작 적...
OptiLLM은 Best-of-N, MoA, MCTS, CePO, MARS 같은 inference-time 기법을 OpenAI 호환 프록시 뒤에 묶어, 모델 재학습 없이 더 많은 추론 계산으로 정확도와 운영 유연...
MIT의 ELF는 언어 생성을 연속 임베딩 공간의 Flow Matching 문제로 두고 마지막 단계에서만 토큰으로 이산화해, diffusion/flow 계열의 CFG와 self-conditioning을 언어 모델...
MMProLong은 Qwen2.5-VL-7B를 32K에서 128K로 확장하며, long-document VQA 합성·pool-native 길이 분포·8:2 추출/추론 혼합이 긴 멀티모달 컨텍스트 일반화에 더 중요...