LAMP는 AR 헤드셋의 사람 추적을 ‘월드 좌표 ray’ 문제로 바꾼다
Meta Reality Labs의 CVPR 2026 논문 LAMP는 다중 카메라 헤드셋의 2D keypoint를 6-DoF pose로 3D ray cloud에 올린 뒤, LAMP-Net으로 metric 3D hu...
Category
서빙, speculative decoding, pruning, GPU 커널, 로컬 런타임처럼 모델 실행 시스템을 다룹니다.
Meta Reality Labs의 CVPR 2026 논문 LAMP는 다중 카메라 헤드셋의 2D keypoint를 6-DoF pose로 3D ray cloud에 올린 뒤, LAMP-Net으로 metric 3D hu...
MiniMax Sparse Attention은 GQA 위에 경량 Index Branch를 붙여 GQA 그룹별 Top-k KV 블록만 정확 어텐션하고, 1M 컨텍스트에서 어텐션 compute와 wall-clock...
SAHI는 큰 항공·감시 이미지에서 작은 객체가 입력 리사이즈 과정에서 사라지는 문제를, 겹치는 슬라이스별 추론과 좌표 병합으로 풀어 기존 detector 위에 바로 얹을 수 있는 실용적 small-object...
ESOD는 고해상도 이미지에서 작은 객체가 희소하게 모여 있다는 관찰을 이용해, 특징 맵 수준에서 객체 후보 패치만 남기고 sparse head로 계산량과 메모리 비용을 줄이는 효율적 객체 탐지 프레임워크다.
Qualcomm AI Research의 Efficient Reasoning on the Edge는 Qwen2.5-7B에 LoRA reasoning adapter, budget forcing, switcher, 병...
ICML 2026 논문 Reason, Then Re-reason은 egocentric video 하나만 보고 답을 확정하는 대신, 먼저 가설을 만들고 VGGT 기반 Geometry-to-Video가 만든 allo...
OpenCV 5는 그래프 기반 DNN 엔진, 80%+ ONNX operator coverage, LLM/VLM 실행, 새 HAL, 0D/1D tensor와 3D 모듈 재편을 통해 전통적 CV 라이브러리를 현대 A...
MiniCPM4는 0.5B·8B 모델, InfLLM v2 sparse attention, UltraClean 데이터 필터링, CPM.cu/ArkInfer 추론 스택을 한 번에 묶어 온디바이스 LLM의 병목을 시스...
The Efficiency Frontier는 긴 컨텍스트를 무조건 늘리는 대신, 검색·압축·전체 컨텍스트 전략을 성능 목표와 재사용 조건에 맞춰 선택하는 배포 지향 평가 프레임워크다.
ThriftAttention은 Blackwell FP4 어텐션의 장기 컨텍스트 품질 저하를 전체 고정밀 계산이 아니라 중요한 query-key block만 FP16으로 승격하는 선택적 혼합정밀 방식으로 줄이려는...
QueST는 입력 질문에서 관련 문제-해설 쌍을 생성하고, 이를 이용해 추론 직전에 LoRA로 모델을 가볍게 적응시키는 query-conditioned test-time self-training 방법이다.
MobileMoE는 0.3–0.9B 활성 파라미터의 MoE를 온디바이스 메모리·연산 제약에 맞춰 설계하고, INT4 QAT와 ExecuTorch 커스텀 커널로 실제 스마트폰에서 dense MobileLLM-Pro...
DeepConf는 self-consistency식 병렬 추론에서 모든 reasoning trace를 같은 한 표로 취급하지 않고, 모델 내부 confidence 신호로 낮은 품질의 추론을 필터링하거나 조기 중단해...
Unsloth의 phone deployment 가이드는 Qwen3-0.6B를 QAT로 파인튜닝하고 TorchAO/ExecuTorch로 .pte 모델을 내보낸 뒤, Pixel 8과 iPhone 계열 기기에서 로컬...
rasbt/LLMs-from-scratch의 ch04/09_dsa는 DeepSeek-V3.2의 DeepSeek Sparse Attention을 작은 GPT 코드로 재구성해, long-context attentio...
Sebastian Raschka의 최근 LLM 아키텍처 정리는 Gemma 4의 cross-layer KV sharing, Laguna XS.2의 layer-wise attention budget, ZAYA1-8B...
Adrien Grondin의 AI Engineer 발표는 Gemma 4를 iPhone에서 약 40 tok/s로 실행하는 데모를 통해, MLX Swift LM, Hugging Face MLX Community, 4...
OptiLLM은 Best-of-N, MoA, MCTS, CePO, MARS 같은 inference-time 기법을 OpenAI 호환 프록시 뒤에 묶어, 모델 재학습 없이 더 많은 추론 계산으로 정확도와 운영 유연...
LiteVLA-H는 Jetson AGX Orin 위의 256M VLA에서 pre-fill이 액션 지연의 대부분을 차지한다는 관찰을 바탕으로, 빠른 외부 guidance 루프와 느린 semantic percepti...
Google의 Gemma 4 Multi-Token Prediction drafters는 작은 draft model이 여러 토큰을 미리 제안하고 target model이 이를 병렬 검증하는 구조를 통해, 출력 품질...
Jiunsong의 SuperGemma4-26B-Uncensored-Fast v2는 Google Gemma 4 26B IT를 MLX 4bit 형식으로 재가공해, Apple Silicon 로컬 환경에서 속도와 실사용...
AutoKernel은 PyTorch 모델을 프로파일링해 병목 GPU 커널을 추출한 뒤, Triton 또는 CUDA C++ 커널을 에이전트가 반복적으로 수정·벤치마크·유지/되돌리기 하도록 설계해 하룻밤 단위의 자동...
POP은 LLM 추론의 prefill과 decode가 서로 다른 역할을 가진다는 점을 이용해, 문맥 인코딩 단계에서만 깊은 층을 생략하고 decode는 풀모델로 유지함으로써 정확도 손실을 크게 늘리지 않고 pre...