#LLM Pretraining

#Agents43#MCP17#Developer Tools16#RAG16#YouTube14#Claude Code13#Reinforcement Learning13#Retrieval11#Agent Evaluation10#MoE10#Multi-Agent Systems10#VLM10#Agent Skills9#AI Engineer9#On-device AI9#Benchmark8#Multimodal8#Agent Systems7#Coding Agents7#Embeddings7#Hugging Face7#Long Context7#Open Weights7#Reasoning7#Agent Harness6#Agent Memory6#AI Agents6#Codex6#Context Engineering6#Qwen36#Tool Use6#Agent Training5#Agentic AI5#arXiv5#Claude5#LoRA5#NVIDIA5#OCR5#Qwen5#Reranking5#RLVR5#Synthetic Data5#Agent Workflows4#AI for Science4#AI Safety4#Data Pipeline4#Document Intelligence4#Foundation Models4#Gemma4#GRPO4#Image Generation4#Inference Optimization4#LLM Architecture4#LLM Evaluation4#LLM Systems4#Open Source4#Quantization4#SKILL.md4#Test-Time Scaling4#Vector Search4#Video Generation4#Vision-Language Models4#VLA4#Workflow Automation4#Anthropic3#Auto Research3#Deep Research3#Design Systems3#Edge AI3#Fine-Tuning3#KV Cache3#LLM Agents3#LLM Serving3#LLM Training3#MLOps3#Model Training3#Multi-Agent3#Observability3#Prompt Engineering3#PyTorch3#Qwen3-VL3#Robotics3#Survey3#Transformer3#Agent OS2#Agent UI2#Agentic Coding2#Agentic Search2#Apple Silicon2#Argilla2#AutoResearch2#Backpropagation2#Computer Vision2#Contrastive Learning2#CUDA2#Data Curation2#Data Infrastructure2#DeepSeek2#Diffusion2#Distillation2#Document AI2#Evaluation Benchmark2#ExecuTorch2#Gemini2#Generative UI2#GEPA2#Google DeepMind2#Hallucination2#Harness Engineering2#Inference Systems2#Information Retrieval2#Knowledge Distillation2#Knowledge Graph2#Language Modeling2#Liquid AI2#LLM Pretraining2#LLM Reasoning2#LLMOps2#Local-First2#LoCoMo2#LongMemEval2#Mechanistic Interpretability2#Microsoft Research2#MLX2#Mobile LLM2#Multimodal Agents2#Multimodal Embeddings2#Nemotron2#Object Detection2#Obsidian2#OpenAI2#Post-Training2#Privacy2#Proactive Agents2#Product Strategy2#Quant Finance2#QUEST2#Reasoning Models2#Research Agents2#Research Engineering2#RF-DETR2#Roboflow2#SAM2#Security2#Skill Optimization2#Skills2#Small Language Models2#Sparse Models2#Structured Extraction2#Tabular Data2#TDD2#Training Systems2#Unsloth2#Verification2#Video Understanding2#Vision Transformer2#Vision-Language Model2#vLLM2#World Model2#2D Materials1#3D Reconstruction1#A2UI1#Accessibility1#Activation Steering1#AG-UI1#Agent Economy1#Agent Engineering1#Agent Orchestration1#Agent Protocols1#Agent Runtime1#Agent Safety1#AgentBench1#Agentic CLEAR1#Agentic Design1#Agentic Models1#Agentic Reasoning1#Agentic RL1#Agentic Security1#Agentic Self-Instruct1#Agentic Society1#AI Co-Mathematician1#AI Coding1#AI Coding Agents1#AI for Mathematics1#AI Infrastructure1#AI Pricing1#AI SaaS1#AI-Q1#AKT-Rec1#Allen AI1#Altermagnetism1#Alyx1#AMD1#Analog Hardware1#ANN1#Antigravity1#Apple Intelligence1#AppWorld1#Arize1#Assistive Technology1#Associative Memory1#Attention1#Attention Supervision1#Attractor Models1#Autodata1#Autogenesis1#AutoML1#Autonomous Driving1#AutoResearchClaw1#Baidu1#Benchmarks1#BES1#BI1#Biologically Plausible Learning1#Blackwell1#Browser Agents1#Calamari1#Camera Control1#Career1#Chain-of-Thought1#Chunking1#Claude Opus1#Claw-Anything1#ClawHub1#CLEAR1#Clinical AI1#ClinSeekAgent1#Code Evolution1#Code Generation1#Code Intelligence1#Code Models1#Codex CLI1#Cognitive Loafing1#Computational Neuroscience1#Computer Use1#Computer Use Agent1#Computer-Use Agents1#Consulting1#Content Moderation1#Context Compression1#Context Distillation1#Context Graphs1#Context Learning1#Continual Learning1#Continuous Generation1#CopilotKit1#Criticality1#Ctx2Skill1#CUA-Gym1#CyberGym1#DA-Next1#Data Annotation1#Data Sanitization1#Data Security1#Data-Centric AI1#Dataset Ops1#DCI-Agent1#Deep Search1#DeepEval1#DeepSeek-OCR1#DELEGATE-521#Delegated Work1#Delivery1#Delta-Mem1#Demand-Driven Context1#Design Research1#Design Tools1#DESIGN.md1#Desktop Apps1#Diffusion Language Models1#Diffusion LLM1#Diffusion LM1#Diffusion Transformer1#Direct Corpus Interaction1#Distilabel1#Distributed Training1#Document Editing1#DPO1#DSPy1#DualOptim+1#Dynin-Omni1#EDA1#Edge Inference1#Effect1#Efficient Coding1#EHR1#Elastic1#ElevenLabs1#ELF1#Embodiment1#Enactive AI1#Enterprise Agents1#Enterprise AI1#ERNIE 4.51#ETL1#Evaluation1#Evolutionary Search1#EXAONE1#Fara-7B1#FastAPI1#FastEmbed1#Ferrimagnetism1#Financial Time Series1#Fintech1#Fisher Information1#Fixed-point1#FlashAttention1#Flow Matching1#FluxMem1#Forward-Forward Algorithm1#Foundation Protocol1#FP4 Attention1#Frontend AI1#FrontierMath1#GAIA1#Gemini Embedding 21#Gemini for Science1#Gemma 41#Google I/O1#GPT-5.51#GPU Optimization1#GQA1#GraphRAG1#Grounding1#Guard Models1#Guardrail1#Guardrails1#GUI Agents1#HarnessAudit1#HeavySkill1#Hermes Agent1#Hidden-State Probing1#Historical Documents1#HNSW1#Hope1#Horizon Generalization1#Human Feedback1#Human-in-the-loop1#HumanLayer1#Hunyuan1#Hy-MT21#Hybrid SSM1#Hypernetworks1#Hyperparameter Transfer1#ICLR 20261#Image Editing1#Implicit Differentiation1#In-Context Learning1#Incremental Processing1#Inference1#Inference Providers1#Inference Scaffolding1#Inference-Time Compute1#Inference-Time Feedback1#Inpainting1#Interpretability1#Jina AI1#Kanban1#Karpathy1#Knowledge Bases1#Knowledge Graphs1#Knowledge Management1#Korean AI1#Korean LLM1#Kronos1#Lance1#Latent Reasoning1#Latent Space1#Layout Analysis1#Leaderboard1#Learning Rate Transfer1#LFM21#LFM2.51#Life-Harness1#LightMem1#LiteLLM1#LiteVLA-H1#LLM Depth1#LLM Fundamentals1#LLM Infrastructure1#LLM Internals1#LLM Ops1#Local Agents1#Local AI1#Local LLM1#Locally AI1#LocateAnything1#Logic Synthesis1#Long-Horizon1#Long-Horizon Agents1#Long-tail1#Long-Term Memory1#LongLive-2.01#Lookahead Reasoning1#Looped Transformers1#Macaron-A2UI1#Machine Translation1#Machine Unlearning1#Mamba1#Matt Pocock1#MCP Apps1#MCTS1#MDASH1#Megatron-LM1#MemForest1#Memory Systems1#Memory-Augmented Generation1#Meta AI1#Meta-Optimization1#MetaAgent-X1#Microsoft1#Microsoft Security1#Mid-Training1#MiMo1#Mind2Web1#MiniCPM-V1#MinT1#Mistral1#Mistral AI1#Mixture of Experts1#ML Engineering1#MLLM1#MMProLong1#Mobile Agents1#MobileLLM-R11#MobileMoE1#Model Adaptation1#Model Compression1#Model Pruning1#Model Studio1#Moderation1#ModernBERT1#Modular AI1#Monetization1#MongoDB1#MTEB1#Multi-Agent Debate1#Multi-LoRA1#Multi-turn Evaluation1#Multilingual Retrieval1#Multimodal AI1#Multimodal Diffusion1#Multimodal LLM1#Multimodal Models1#Multimodal Retrieval1#Multimodal RL1#Multimodal Safety1#Multimodal Search1#Multimodal Training1#NanoGPT1#Native Unified Model1#Native VLM1#Natural Language Autoencoders1#NEO-unify1#Neo4j1#Nested Learning1#Netflix1#Neural Architecture Search1#Neural Networks1#NeurIPS 20251#nGPT1#NL-Refer1#NoisyAgent1#Normalized Transformer1#NVFP41#NVIDIA NeMo1#OCR-Memory1#Olympiad Math1#Omnimodal1#OmniShotCut1#On-policy Distillation1#OneManCompany1#OneVL1#Online Memory1#Open Models1#Open Training Recipe1#OpenAI API1#OpenCompass1#OpenHarness1#OpenSearch-VL1#Optimizer1#Optimizers1#OSWorld1#Ouroboros1#PageIndex1#Paper Reproduction1#Parallel Box Decoding1#Parameter-Efficient Tuning1#Pare-Bench1#PEFT1#Personal Agents1#Personal Assistants1#PII Detection1#Pixel Embeddings1#Plugins1#PowerPoint1#Preparedness1#Presentation AI1#Presentation Tools1#Priming1#PriorVLA1#ProAct1#Procedural Memory1#Procrustes Alignment1#Product1#Productivity1#Prompt Optimization1#Prompt Tuning1#Protocols1#Pytest1#QAT1#Query Adaptation1#Query Rewriting1#Qwen-Image-2.01#Qwen2.5-VL1#Qwen3-Next1#React1#Reasoning Model1#Recommender Systems1#Recursive Reasoning1#Reinforced Agent1#Research1#Research Workflow1#Residual Stream1#Richard Sutton1#Risk Assessment1#RL Post-Training1#Robot Learning1#Robustness1#RoPE1#Routing1#Rust1#Safety1#Safety Alignment1#SANA-WM1#Sandcastle1#Science Skills1#Scientific Discovery1#Segmentation1#Self-Consistency1#Self-Evolution1#Self-Evolving Agents1#Self-Generated Data1#Self-Improving LLMs1#Self-Play1#Self-Speculation1#Self-Training1#Semantic ID1#Semantic Layer1#SemBridge1#SenseNova-U11#Sentence Transformers1#Sequence Classification1#SGLang1#Shot Boundary Detection1#Skill Evolution1#Skill Governance1#Skill Retrieval1#Skill-RAG1#SkillEvolBench1#Sloppiness1#SmallCode1#Sparse Attention1#Sparse Autoencoder1#Sparse MoE1#Sparse Retrieval1#Spatial Foundation Models1#SpatialBench1#Specification First1#Speculative Decoding1#Speech1#Spintronics1#SPLADE1#SQL1#SRA-Bench1#State Space Model1#Stripe1#SU-011#Swarm Intelligence1#SWE-Bench1#SWIM1#Sycophancy1#TabEmbed1#TabPFN1#Talent Market1#TEDS1#Temporal Indexing1#Terminal-Bench1#Test-Time Training1#Text Embeddings1#Text Rendering1#Text-to-SQL1#ThriftAttention1#Time Series Forecasting1#TinyLoRA1#Token Classification1#Tokenizer1#Tool Calling1#Tool-Integrated Reasoning1#Tool-Using Agents1#TorchAO1#Training Recipes1#Trajectory Audit1#Transformers1#Triton1#Tuna-21#TypeScript1#UI Engineering1#UI Inspiration1#UI over MCP1#Usage-Based Billing1#User Simulation1#Validation1#Valleytronics1#Vector Database1#Vibe Coding1#Video Editing1#Vision-Language Alignment1#Visual Grounding1#Vulnerability Discovery1#WBench1#Web Agents1#WorkOS1#World Models1#X2SAM1#ZeroEntropy1#Zyphra1#μP1

Model Training

SlimQwen은 거대 MoE를 그냥 자르지 않고, 사전학습 궤적까지 함께 압축...

SlimQwen은 Qwen3-Next-80A3B를 23A2B로 줄이는 과정에서 구조적 pruning, partial-preservation expert merging, KD+LM objective, MTP dis...

Sangmin Lee2026.05.18

Model Training

EMO는 MoE를 거대한 단일 모델이 아니라 조립 가능한 expert 모듈로 학...

Ai2와 UC Berkeley의 EMO는 문서 경계를 약한 supervision으로 삼아 같은 문서의 토큰이 공유 expert pool 안에서 routing되도록 MoE를 사전학습한다. 1B active / 14...

Sangmin Lee2026.05.13