#Inference Optimization

#Agents45#YouTube24#Developer Tools19#MCP19#RAG18#Reinforcement Learning18#Agent Evaluation15#Agent Skills14#Claude Code14#Coding Agents14#Retrieval14#MoE13#Multimodal13#On-device AI13#Agent Harness12#Agent Systems12#Multi-Agent Systems12#Benchmark11#Long Context11#Open Weights10#Tool Use10#VLM10#Agentic AI9#AI Engineer9#Codex8#Context Engineering8#Hugging Face8#OCR8#Vision-Language Models8#Agent Memory7#AI Agents7#Computer Vision7#Document Intelligence7#Embeddings7#Model Training7#NVIDIA7#Reasoning7#Agent Training6#Agent Workflows6#AI for Science6#arXiv6#Claude6#Foundation Models6#GRPO6#LoRA6#Observability6#Quantization6#Qwen6#Qwen36#SKILL.md6#AI Safety5#Anthropic5#Edge AI5#Fine-tuning5#LLM Agents5#LLM Evaluation5#Reranking5#RLVR5#Sparse Attention5#Synthetic Data5#Test-Time Scaling5#Video Generation5#Data Pipeline4#Deep Research4#Gemma4#Image Generation4#Inference Optimization4#Inference Systems4#Knowledge Graph4#LLM Architecture4#LLM Serving4#LLM Systems4#Open Source4#Qwen3-VL4#Research Agents4#Robotics4#Speculative Decoding4#Training Systems4#Transformer4#Vector Search4#VLA4#Workflow Automation4#World Model4#Agent Runtime3#Agentic Coding3#AI Governance3#Auto Research3#AutoResearch3#Data Curation3#DeepSeek3#Design Systems3#Distillation3#Document AI3#Evaluation3#Evaluation Benchmark3#Google DeepMind3#GraphRAG3#Harness Engineering3#Knowledge Distillation3#KV Cache3#Liquid AI3#LLM Training3#Long-Horizon Agents3#MLOps3#Multi-Agent3#Object Detection3#Obsidian3#Proactive Agents3#Prompt Engineering3#PyTorch3#Reasoning Models3#Security3#Self-Evolving Agents3#Small Language Models3#Sparse Models3#Structured Extraction3#Survey3#SWE-bench3#TDD3#Terminal-Bench3#Video Understanding3#vLLM3#3D Reconstruction2#Activation Steering2#Agent Orchestration2#Agent OS2#Agent UI2#Agentic Models2#Agentic Search2#Apple Silicon2#Argilla2#Autonomous Driving2#Backpropagation2#BDD2#Blackwell2#Chain of Thought2#Context Management2#Continual Learning2#Contrastive Learning2#CUDA2#Data Infrastructure2#Diffusion2#Diffusion LM2#DSPy2#EDA2#Edge LLM2#Enterprise AI2#ExecuTorch2#Flow Matching2#Gemini2#Gemma 42#Generative UI2#GEPA2#Hallucination2#Hallucination Detection2#Human-in-the-loop2#if(kakao)20202#Inference2#Information Retrieval2#Jenkins2#KakaoPay2#Korean LLM2#Kubernetes2#Language Modeling2#Latent Reasoning2#LFM2.52#LightRAG2#LLM Pretraining2#LLM Reasoning2#LLMOps2#Local Agents2#Local AI2#Local-First2#LoCoMo2#LongMemEval2#Mechanistic Interpretability2#Memory Systems2#Metadata2#Microsoft Research2#Mixture of Experts2#MLLM2#MLX2#Mobile LLM2#Model Compression2#MoE Serving2#Multimodal Agents2#Multimodal AI2#Multimodal Embeddings2#Multimodal LLM2#Multimodal Models2#Multimodal Reasoning2#Nemotron2#Neo4j2#NVFP42#On-policy Distillation2#Open Models2#OpenAI2#Personal Agents2#Post-Training2#Privacy2#Procedural Memory2#Product Strategy2#Prompt Optimization2#Quant Finance2#QUEST2#Qwen2.5-VL2#Recommender Systems2#Recursive Self-Improvement2#Research Engineering2#RF-DETR2#Roboflow2#SAM2#Scientific Discovery2#SGLang2#Skill Governance2#Skill Optimization2#Skills2#Small Object Detection2#Spatial Reasoning2#State Space Model2#Supervised Fine-Tuning2#Tabular Data2#Unsloth2#Verification2#Vibe Coding2#Vision Transformer2#Vision-Language Model2#World Models2#2D Materials1#A-Evolve1#A/B Testing1#A2UI1#Abstention1#Accessibility1#Adobe Research1#AG-UI1#Agent Economy1#Agent Engineering1#Agent Protocols1#Agent Safety1#Agent Security1#AgentBench1#Agentic Abstention1#Agentic CLEAR1#Agentic Design1#Agentic LLMs1#Agentic Reasoning1#Agentic RL1#Agentic Security1#Agentic Self-Instruct1#Agentic Society1#Agents-A11#AgentWorldBench1#AGI1#AI Co-Mathematician1#AI Coding1#AI Coding Agent1#AI Coding Agents1#AI Engineering1#AI for Mathematics1#AI Infrastructure1#AI Pricing1#AI Products1#AI SaaS1#AI-Q1#AKT-Rec1#Allen AI1#Altermagnetism1#Alyx1#Amazon Bedrock AgentCore1#AMD1#AMVL1#Analog Hardware1#ANN1#Antigravity1#Apple Intelligence1#AppWizzy1#AppWorld1#AR VR1#Arize1#ASI1#Assistive Technology1#Associative Memory1#Attention1#Attention Supervision1#Attractor Models1#Autodata1#Autogenesis1#AutoLab1#AutoML1#AutoResearchClaw1#BAGEL1#Baidu1#Benchmarks1#BES1#BI1#Biologically Plausible Learning1#Browser Agents1#Budget Forcing1#Calamari1#Calibration1#Camera Control1#CaptureGuide-Bench1#Career1#Causal Inference1#CausalMix1#Chunking1#CL-Bench1#Claude Opus1#Claw AI Lab1#Claw-Anything1#ClawHub1#CLEAR1#Clinical AI1#ClinSeekAgent1#Closed-loop Simulation1#Cloud VM1#Code Evolution1#Code Generation1#Code Intelligence1#Code Models1#Codex CLI1#Cognitive Loafing1#Computational Neuroscience1#Computer Use1#Computer Use Agent1#Computer-Use Agents1#Consulting1#Content Moderation1#Context Compression1#Context Distillation1#Context Graphs1#Context Learning1#Contextual Bandit1#Continuous Generation1#Controllable Generation1#CopilotKit1#Cost Efficiency1#CPM.cu1#Criticality1#CSTS1#Ctx2Skill1#CUA-Gym1#Cucumber1#CUDA Graphs1#cuDNN1#CuTe DSL1#CyberGym1#D2Hub1#DA-Next1#Data Annotation1#Data Catalog1#Data Engine1#Data Mixture1#Data Sanitization1#Data Security1#Data-Centric AI1#Dataset Ops1#DCI-Agent1#Decode Routing1#Deep Search1#DeepEP1#DeepEval1#DeepSeek-OCR1#DeepSpec1#DELEGATE-521#Delegated Work1#Delegation Intelligence1#Delivery1#Delta-Mem1#Demand-Driven Context1#Design Research1#Design Tools1#DESIGN.md1#Desktop Apps1#DevOps1#Diffusion Acceleration1#Diffusion Language Model1#Diffusion Language Models1#Diffusion LLM1#Diffusion Model1#Diffusion Transformer1#Direct Corpus Interaction1#Distilabel1#Distributed Training1#DKOS1#DNN Runtime1#Dockerless1#Document Editing1#DPO1#Draft Model1#DualOptim+1#Dynamic Memory1#Dynin-Omni1#Edge Inference1#Effect1#Efficiency Frontier1#Efficient Coding1#Efficient Inference1#Egocentric Tracking1#Egress Control1#EHR1#EKS1#Elastic1#ELDR1#ElevenLabs1#ELF1#Embodiment1#Enactive AI1#Encoder-free1#Enterprise Agents1#Entropy1#Environment Simulation1#ERNIE 4.51#ESOD1#ETL1#Evoflux1#Evolutionary Search1#EXAONE1#Expert Parallelism1#Fara-7B1#FastAPI1#FastEmbed1#FDS1#Ferrimagnetism1#Financial Time Series1#Fintech1#Fisher Information1#Fixed-point1#FLARE1#FlashAttention1#Flow-GRPO1#FluxMem1#Formal Mathematics1#Forward-Forward Algorithm1#Foundation Protocol1#FP4 Attention1#Fraud Detection1#Frontend AI1#FrontierMath1#GAIA1#Gemini Embedding 21#Gemini for Science1#Gemini Nano1#GGUF1#GLM-5.21#Google Cloud1#Google I/O1#Governance1#GPT-5.51#GPU Optimization1#GQA1#Graph Network1#Grounding1#GroundX1#Guard Models1#Guardrail1#Guardrails1#GUI Agents1#Hardware Acceleration1#Hardware Design1#Harness Evolution1#Harness-11#HarnessAudit1#HarnessX1#HASTE1#HeavySkill1#Hermes Agent1#Hidden Problem Discovery1#Hidden-State Probing1#Hierarchical Memory1#Historical Documents1#HNSW1#Hope1#HORIZON1#Horizon Generalization1#HRM-Text1#Human Feedback1#Human Motion Tracking1#HumanLayer1#Hunyuan1#Hy-MT21#Hybrid Attention1#Hybrid SSM1#Hyper-Extract1#Hypergraph1#Hypernetworks1#Hyperparameter Transfer1#ICLR 20261#ifkakao1#ifkakao20201#Image Editing1#Image Inpainting1#Implicit Differentiation1#In-Context Learning1#Incremental Processing1#Inference Providers1#Inference Scaffolding1#Inference-Time Compute1#Inference-Time Feedback1#Inference-Time Reasoning1#Inference-Time Search1#Infrastructure as Code1#Inpainting1#Interpretability1#ITSM1#JaCoCo1#JAX1#Jina AI1#Kakao1#KakaoTalk1#Kanban1#Karpathy1#Kernel Optimization1#Keye-VL1#Kimi1#Knowledge Bases1#Knowledge Catalog1#Knowledge Graphs1#Knowledge Management1#KoHRM1#KOLongDoc1#Korean AI1#Korean VLM1#Kotest1#Kotlin1#Kronos1#LAMP1#Lance1#LangChain1#LangChain Deep Agents1#Language World Model1#Latent Space1#Layout Analysis1#LazyCodex1#Leaderboard1#Lean1#LEAP1#Learning Rate Transfer1#Legacy Systems1#LFM21#License Compliance1#Life-Harness1#LightMem1#LiteLLM1#LiteVLA-H1#llama.cpp1#LLM Depth1#LLM Distillation1#LLM Fundamentals1#LLM Graph Builder1#LLM Infrastructure1#LLM Internals1#LLM Ops1#LLM Safety1#LLM Wiki1#LM Programs1#Load Balancing1#Local Harness1#Local LLM1#Locally AI1#LocateAnything1#Logic Synthesis1#Long Document QA1#Long Video Understanding1#Long-Context Inference1#Long-Horizon1#Long-tail1#Long-Term Memory1#LongLive-2.01#Lookahead Reasoning1#Looped Transformers1#Macaron-A2UI1#Machine Translation1#Machine Unlearning1#Mamba1#Manifold Power Iteration1#Matrix Factorization1#Matt Pocock1#MaxText1#MCompassRAG1#MCP Apps1#MCTS1#MDASH1#Megatron-LM1#MemForest1#Memory Compression1#Memory-Augmented Generation1#Meta AI1#Meta-Optimization1#MetaAgent-X1#Microsoft1#Microsoft AI1#Microsoft Security1#Mid-Training1#MiMo1#Mind2Web1#MiniCPM-V1#MiniCPM41#MiniMax Sparse Attention1#MinT1#Mistral1#Mistral AI1#ML Engineering1#ML Engineering Agents1#MLE-Bench1#mmGRPO1#MMProLong1#Mobile Agents1#MobileLLM-R11#MobileMoE1#MockK1#Model Adaptation1#Model Pruning1#Model Studio1#Moderation1#ModernBERT1#Modular AI1#Moebius1#Monetization1#MongoDB1#Moonshot AI1#MrFlow1#MTEB1#Multi-Agent Debate1#Multi-LoRA1#Multi-Token Prediction1#Multi-turn Evaluation1#Multi-View Reasoning1#Multilingual Retrieval1#Multimodal Diffusion1#Multimodal Evaluation1#Multimodal Retrieval1#Multimodal RL1#Multimodal Safety1#Multimodal Search1#Multimodal Training1#NanoGPT1#Native Unified Model1#Native VLM1#Natural Language Autoencoders1#NatureBench1#NEO-unify1#Nested Learning1#Netflix1#Neural Architecture Search1#Neural Networks1#Neural Procedural Memory1#NeurIPS 20251#Next-State Prediction1#nGPT1#NL-Refer1#NoisyAgent1#Normalized Transformer1#NVIDIA Cosmos1#NVIDIA NeMo1#OCR-Memory1#OKF1#OLIVE Platform1#Olympiad Math1#OmniDreams1#Omnimodal1#OmniShotCut1#OmO1#On-call1#OneManCompany1#OneVL1#Online Memory1#ONNX1#Open Knowledge Format1#Open Source Compliance1#Open Training Recipe1#OpenAI API1#OpenClaw-Skill1#OpenCompass1#OpenCV 51#OpenHarness1#OpenSearch-VL1#OpenThoughts-Agent1#Optimizer1#Optimizers1#Orca1#OSWorld1#Ouroboros1#PaddleOCR1#PaddleOCR-VL1#PageIndex1#Paper Reproduction1#ParaDLC-Bench1#Parallel Box Decoding1#Parallel Verification1#Parameter-Efficient Tuning1#Pare-Bench1#PD Disaggregation1#PEFT1#PerceptionDLM1#Personal Assistants1#Personalization1#Photography Guidance1#Piccoma1#PII Detection1#Pixel1#Pixel Embeddings1#Platform Engineering1#Plugins1#PowerPoint1#PP-OCRv61#PrefixLM1#Preparedness1#Presentation AI1#Presentation Tools1#Priming1#PriorVLA1#ProAct1#PROBE1#Process Evaluation1#Procrustes Alignment1#Product1#Product Hunt1#Productivity1#Program Verification1#Prometheus1#Prompt Tuning1#Protocols1#Pytest1#QAT1#Query Adaptation1#Query Rewriting1#Qwen-AgentWorld1#Qwen-Image-2.01#Qwen3-Next1#Qwen3.51#R-SWA1#React1#Reasoning Model1#Recurrence1#Recursive Reasoning1#Region Captioning1#Reinforced Agent1#Representation Engineering1#ReRe1#Research1#Research Workflow1#Residual Stream1#Richard Sutton1#Risk Assessment1#Risk Management1#RL Post-Training1#RMS1#Robot Learning1#Robust MLLM1#Robustness1#RoPE1#Ropedia1#Router1#Routing1#RTL1#Runtime Systems1#Rust1#S-Agent1#Safety1#Safety Alignment1#SAHI1#SANA-WM1#Sandboxing1#Sandcastle1#SARIF1#Science Skills1#Search Agent1#SearchSwarm1#Segmentation1#Self-Consistency1#Self-Evolution1#Self-Generated Data1#Self-Harness1#Self-Improving Agents1#Self-Improving LLMs1#Self-Play1#Self-Speculation1#Self-Training1#Semantic ID1#Semantic Layer1#SemBridge1#SenseNova-U11#Sentence Transformers1#Sequence Classification1#Shot Boundary Detection1#ShutterMuse1#Skill Evolution1#Skill Retrieval1#Skill-RAG1#SkillEvolBench1#Sliced Inference1#Sloppiness1#SmallCode1#Software Engineering1#Sparse Autoencoder1#Sparse Detection1#Sparse MoE1#Sparse Retrieval1#Spatial Foundation Models1#SpatialBench1#Specification First1#Speech1#Spintronics1#SPLADE1#SQL1#SRA-Bench1#State Tracking1#Static Analysis1#Storybook1#Streaming Data1#Stripe1#SU-011#Subterranean Agent1#Supply Chain Security1#Swarm Intelligence1#SWIM1#Sycophancy1#TabEmbed1#TabPFN1#Talent Market1#TEDS1#Temporal Indexing1#Temporal Reasoning1#Terraform1#Test Automation1#Test-Time Training1#Text Embeddings1#Text Rendering1#Text-to-Image1#Text-to-SQL1#Thanos1#Theorem Proving1#Thought Templates1#ThriftAttention1#TIDE1#Time Series Forecasting1#TinyLoRA1#Token Classification1#Tokenizer1#Tool Calling1#Tool Selection1#Tool-Integrated Reasoning1#Tool-Using Agents1#Topic Modeling1#TorchAO1#Training Recipes1#Trajectory Audit1#Transformers1#Triton1#Tuna-21#TypeScript1#UI Engineering1#UI Inspiration1#UI over MCP1#UI Testing1#Uncertainty1#Unlimited-OCR1#Usage-Based Billing1#User Simulation1#Validation1#Valleytronics1#Variational Learning1#Vector Database1#VibeThinker-3B1#Video Editing1#Video Reasoning1#Video-MME-Logical1#ViQ1#Vision-Language Alignment1#Visual Grounding1#Visual Perception1#Visual Recovery1#Visual Regression1#Visual Tokenization1#VLM Agents1#Vulnerability Discovery1#WBench1#Web Agents1#WorkOS1#WorldDirector1#X2SAM1#Z.AI1#ZeroEntropy1#Zyphra1#μP1

Inference Systems

DeepConf는 확신도로 LLM 병렬 추론의 낭비를 줄인다

DeepConf는 self-consistency식 병렬 추론에서 모든 reasoning trace를 같은 한 표로 취급하지 않고, 모델 내부 confidence 신호로 낮은 품질의 추론을 필터링하거나 조기 중단해...

Sangmin Lee2026.05.26

Inference Systems

LiteVLA-H는 드론 VLA를 20Hz 액션 루프와 6Hz 의미 루프로 나눈...

LiteVLA-H는 Jetson AGX Orin 위의 256M VLA에서 pre-fill이 액션 지연의 대부분을 차지한다는 관찰을 바탕으로, 빠른 외부 guidance 루프와 느린 semantic percepti...

Sangmin Lee2026.05.12

Inference Systems

Gemma 4 MTP는 speculative decoding을 제품형 추론 가속...

Google의 Gemma 4 Multi-Token Prediction drafters는 작은 draft model이 여러 토큰을 미리 제안하고 target model이 이를 병렬 검증하는 구조를 통해, 출력 품질...

Sangmin Lee2026.05.06

Inference Systems

POP은 prefill만 가지치기해 LLM 추론을 가속한다

POP은 LLM 추론의 prefill과 decode가 서로 다른 역할을 가진다는 점을 이용해, 문맥 인코딩 단계에서만 깊은 층을 생략하고 decode는 풀모델로 유지함으로써 정확도 손실을 크게 늘리지 않고 pre...

Sangmin Lee2026.05.06