#Reasoning

#Agents42#MCP16#RAG15#Developer Tools14#YouTube14#Claude Code11#Retrieval11#AI Engineer9#MoE9#Multi-Agent Systems9#Reinforcement Learning9#Multimodal8#VLM8#Coding Agents7#Hugging Face7#On-device AI7#Open Weights7#Reasoning7#Agent Evaluation6#Agent Harness6#Agent Skills6#Agent Systems6#Benchmark6#Codex6#Context Engineering6#Embeddings6#Long Context6#Tool Use6#Agentic AI5#AI Agents5#arXiv5#Claude5#NVIDIA5#OCR5#Qwen5#Qwen35#Reranking5#Agent Memory4#Agent Workflows4#AI Safety4#Data Pipeline4#Document Intelligence4#Foundation Models4#Gemma4#GRPO4#Image Generation4#Inference Optimization4#LLM Architecture4#LLM Systems4#Open Source4#RLVR4#SKILL.md4#Synthetic Data4#Vision-Language Models4#Workflow Automation4#Agent Training3#Anthropic3#Auto Research3#Design Systems3#Edge AI3#Fine-Tuning3#KV Cache3#LLM Evaluation3#LLM Serving3#LoRA3#MLOps3#Prompt Engineering3#PyTorch3#Quantization3#Qwen3-VL3#Test-Time Scaling3#Transformer3#Vector Search3#Video Generation3#VLA3#Agent OS2#Agentic Coding2#Agentic Search2#AI for Science2#Apple Silicon2#Argilla2#Backpropagation2#Computer Vision2#Contrastive Learning2#CUDA2#Data Curation2#Data Infrastructure2#Deep Research2#DeepSeek2#Diffusion2#Distillation2#Document AI2#Gemini2#GEPA2#Hallucination2#Harness Engineering2#Information Retrieval2#Knowledge Distillation2#Knowledge Graph2#Language Modeling2#LLM Agents2#LLM Pretraining2#LLM Training2#LLMOps2#Local-First2#Mechanistic Interpretability2#Microsoft Research2#MLX2#Mobile LLM2#Model Training2#Multi-Agent2#Multimodal Agents2#Nemotron2#Observability2#Obsidian2#OpenAI2#Post-Training2#Privacy2#Product Strategy2#Quant Finance2#Reasoning Models2#Research Engineering2#RF-DETR2#Roboflow2#Robotics2#SAM2#Security2#Skill Optimization2#Small Language Models2#Sparse Models2#Structured Extraction2#Survey2#Tabular Data2#TDD2#Training Systems2#Unsloth2#Verification2#Video Understanding2#Vision Transformer2#Vision-Language Model2#vLLM2#World Model2#Accessibility1#Activation Steering1#AG-UI1#Agent Engineering1#Agent Orchestration1#Agent Protocols1#Agent Runtime1#Agent Safety1#Agent UI1#AgentBench1#Agentic Design1#Agentic Reasoning1#Agentic RL1#Agentic Security1#Agentic Self-Instruct1#AI Co-Mathematician1#AI Coding1#AI Coding Agents1#AI for Mathematics1#AI Infrastructure1#AI Pricing1#AI SaaS1#AI-Q1#Allen AI1#Alyx1#AMD1#Analog Hardware1#ANN1#Apple Intelligence1#AppWorld1#Arize1#Assistive Technology1#Associative Memory1#Attention1#Attention Supervision1#Attractor Models1#Autodata1#Autogenesis1#AutoML1#Autonomous Driving1#AutoResearchClaw1#Baidu1#Benchmarks1#BI1#Biologically Plausible Learning1#Browser Agents1#Calamari1#Camera Control1#Career1#Chain-of-Thought1#Chunking1#Claude Opus1#ClawHub1#Clinical AI1#ClinSeekAgent1#Code Evolution1#Code Generation1#Code Intelligence1#Code Models1#Codex CLI1#Cognitive Loafing1#Computer Use1#Computer Use Agent1#Consulting1#Content Moderation1#Context Compression1#Context Distillation1#Context Graphs1#Context Learning1#Continual Learning1#Continuous Generation1#CopilotKit1#Ctx2Skill1#CyberGym1#Data Annotation1#Data Sanitization1#Data Security1#Data-Centric AI1#Dataset Ops1#DCI-Agent1#Deep Search1#DeepEval1#DeepSeek-OCR1#DELEGATE-521#Delegated Work1#Delivery1#Delta-Mem1#Demand-Driven Context1#Design Research1#Design Tools1#DESIGN.md1#Desktop Apps1#Diffusion Language Models1#Diffusion LLM1#Diffusion LM1#Diffusion Transformer1#Direct Corpus Interaction1#Distilabel1#Distributed Training1#Document Editing1#DPO1#DSPy1#Dynin-Omni1#EDA1#Edge Inference1#Effect1#EHR1#Elastic1#ElevenLabs1#ELF1#Enterprise Agents1#Enterprise AI1#ERNIE 4.51#ETL1#Evaluation1#EXAONE1#ExecuTorch1#Fara-7B1#FastAPI1#FastEmbed1#Financial Time Series1#Fintech1#Fixed-point1#FlashAttention1#Flow Matching1#Forward-Forward Algorithm1#Frontend AI1#FrontierMath1#Gemma 41#Generative UI1#Google I/O1#GPT-5.51#GPU Optimization1#GQA1#GraphRAG1#Grounding1#Guard Models1#Guardrail1#Guardrails1#GUI Agents1#HarnessAudit1#HeavySkill1#Hermes Agent1#Hidden-State Probing1#Historical Documents1#HNSW1#Hope1#Horizon Generalization1#Human Feedback1#Human-in-the-loop1#HumanLayer1#Hunyuan1#Hy-MT21#Hybrid SSM1#Hypernetworks1#Hyperparameter Transfer1#ICLR 20261#Image Editing1#Implicit Differentiation1#In-Context Learning1#Incremental Processing1#Inference1#Inference Providers1#Inference Scaffolding1#Inference Systems1#Inference-Time Compute1#Inference-Time Feedback1#Inpainting1#Interpretability1#Jina AI1#Kanban1#Karpathy1#Knowledge Bases1#Knowledge Graphs1#Knowledge Management1#Korean AI1#Korean LLM1#Kronos1#Lance1#Latent Reasoning1#Latent Space1#Layout Analysis1#Leaderboard1#Learning Rate Transfer1#LFM21#Life-Harness1#Liquid AI1#LiteLLM1#LiteVLA-H1#LLM Depth1#LLM Fundamentals1#LLM Infrastructure1#LLM Internals1#LLM Ops1#LLM Reasoning1#Local Agents1#Local AI1#Local LLM1#Locally AI1#Logic Synthesis1#Long-Horizon1#Long-Horizon Agents1#LongLive-2.01#LongMemEval1#Looped Transformers1#Machine Translation1#Mamba1#Matt Pocock1#MCP Apps1#MCTS1#MDASH1#Megatron-LM1#Memory Systems1#Meta AI1#Meta-Optimization1#MetaAgent-X1#Microsoft1#Microsoft Security1#Mid-Training1#MiMo1#MiniCPM-V1#MinT1#Mistral1#Mistral AI1#ML Engineering1#MMProLong1#Mobile Agents1#MobileLLM-R11#Model Adaptation1#Model Compression1#Model Pruning1#Model Studio1#Moderation1#ModernBERT1#Modular AI1#Monetization1#MongoDB1#MTEB1#Multi-Agent Debate1#Multi-LoRA1#Multimodal AI1#Multimodal Diffusion1#Multimodal Embeddings1#Multimodal LLM1#Multimodal Models1#Multimodal Retrieval1#Multimodal RL1#Multimodal Safety1#Multimodal Search1#Multimodal Training1#NanoGPT1#Native Unified Model1#Native VLM1#Natural Language Autoencoders1#NEO-unify1#Neo4j1#Nested Learning1#Netflix1#Neural Architecture Search1#Neural Networks1#NeurIPS 20251#nGPT1#NL-Refer1#Normalized Transformer1#NVFP41#NVIDIA NeMo1#Object Detection1#OCR-Memory1#Olympiad Math1#Omnimodal1#OmniShotCut1#On-policy Distillation1#OneManCompany1#OneVL1#Online Memory1#Open Models1#Open Training Recipe1#OpenAI API1#OpenCompass1#OpenSearch-VL1#Optimizers1#Ouroboros1#PageIndex1#Paper Reproduction1#Parameter-Efficient Tuning1#Pare-Bench1#PEFT1#PII Detection1#Pixel Embeddings1#Plugins1#PowerPoint1#Preparedness1#Presentation AI1#Presentation Tools1#Priming1#PriorVLA1#Proactive Agents1#Procrustes Alignment1#Product1#Productivity1#Prompt Optimization1#Prompt Tuning1#Pytest1#QAT1#Query Rewriting1#Qwen-Image-2.01#Qwen2.5-VL1#Qwen3-Next1#React1#Reasoning Model1#Recursive Reasoning1#Reinforced Agent1#Research1#Research Workflow1#Residual Stream1#Risk Assessment1#Robot Learning1#RoPE1#Routing1#Rust1#Safety1#SANA-WM1#Sandcastle1#Segmentation1#Self-Consistency1#Self-Evolution1#Self-Generated Data1#Self-Play1#Self-Speculation1#Self-Training1#Semantic Layer1#SenseNova-U11#Sentence Transformers1#Sequence Classification1#SGLang1#Shot Boundary Detection1#Skill Evolution1#Skill Governance1#Skill Retrieval1#Skill-RAG1#Skills1#SmallCode1#Sparse Attention1#Sparse Autoencoder1#Sparse MoE1#Specification First1#Speculative Decoding1#Speech1#SQL1#SRA-Bench1#State Space Model1#Stripe1#SU-011#Swarm Intelligence1#SWE-Bench1#SWIM1#Sycophancy1#TabEmbed1#TabPFN1#Talent Market1#TEDS1#Terminal-Bench1#Text Embeddings1#Text Rendering1#Text-to-SQL1#Time Series Forecasting1#TinyLoRA1#Token Classification1#Tokenizer1#Tool Calling1#Tool-Integrated Reasoning1#TorchAO1#Training Recipes1#Trajectory Audit1#Transformers1#Triton1#Tuna-21#TypeScript1#UI Engineering1#UI Inspiration1#UI over MCP1#Usage-Based Billing1#User Simulation1#Validation1#Vector Database1#Vibe Coding1#Video Editing1#Vision-Language Alignment1#Vulnerability Discovery1#Web Agents1#WorkOS1#X2SAM1#ZeroEntropy1#Zyphra1#μP1

Model Training

RL은 배운 풀이법을 조합할 때 더 강해진다

이 논문은 Pólya식 문제 해결 휴리스틱으로 같은 문제의 여러 정답 풀이를 self-generated mid-training 데이터로 만들고, 그 다양성이 이후 GRPO 기반 RL에서 더 넓은 추론 경로와 조합...

Sangmin Lee2026.05.21

Inference Systems

OptiLLM은 추론 시간 최적화를 OpenAI 호환 프록시로 묶는다

OptiLLM은 Best-of-N, MoA, MCTS, CePO, MARS 같은 inference-time 기법을 OpenAI 호환 프록시 뒤에 묶어, 모델 재학습 없이 더 많은 추론 계산으로 정확도와 운영 유연...

Sangmin Lee2026.05.16

Model Training

LoPE는 왜 의미 없는 문장으로 GRPO의 막힌 탐색을 푸는가

LoPE는 hard question에서 실패한 롤아웃에 Lorem Ipsum 기반 프롬프트 교란을 추가해 GRPO의 zero-advantage 병목을 깨고, prompt-space exploration이 단순 추...

Sangmin Lee2026.05.08

Agent Systems

HeavySkill은 에이전트 하네스의 복잡함을 병렬 추론과 요약이라는 내부 스...

HeavySkill은 멀티에이전트 오케스트레이션의 성능 원천을 외부 시스템 복잡도보다 모델 내부의 heavy thinking 스킬로 재해석하며, 이를 병렬 추론과 순차적 숙의로 분해해 test-time scali...

Sangmin Lee2026.05.06

Foundation Models

DeepSeek-V4-Pro는 1M 컨텍스트를 49B 활성 경로로 밀어붙인다

DeepSeek-V4-Pro는 1.6T total / 49B activated MoE와 CSA·HCA 하이브리드 attention, mHC, Muon optimizer를 결합해 1M 토큰 문맥에서 추론 비용과 K...

Sangmin Lee2026.05.06

Model Training

TinyLoRA는 추론 파인튜닝을 13개 파라미터까지 압축한다

Learning to Reason in 13 Parameters는 RL 기반 post-training이 SFT보다 훨씬 정보 밀도가 높은 업데이트를 만든다는 가설 아래, TinyLoRA로 Qwen2.5-7B의 추...

Sangmin Lee2026.05.06

Model Training

Prompt-Level Distillation은 추론을 가중치가 아니라 프롬프트...

Prompt-Level Distillation은 교사 모델의 추론 규칙을 학생 모델의 시스템 프롬프트로 옮겨, 파인튜닝 없이도 작은 모델이 복잡한 분류 추론을 더 빠르고 투명하게 수행하도록 만든다.

Sangmin Lee2026.05.06