DeepSeek-OCR 시각화는 OCR 모델을 압축 아키텍처로 읽게 만든다
Frederik vom Lehn의 DeepSeek-OCR fully visualised와 DeepSeek 공식 논문·GitHub·Hugging Face 자료를 함께 읽어, Gundam 모드, SAM/CNN/CLI...
Blog
Frederik vom Lehn의 DeepSeek-OCR fully visualised와 DeepSeek 공식 논문·GitHub·Hugging Face 자료를 함께 읽어, Gundam 모드, SAM/CNN/CLI...
arXiv 2509.24945의 MobileLLM-R1은 140M·360M·950M reasoning model을 공개하면서, 초대형 말뭉치보다 능력별 데이터 선별·재혼합·지식 압축이 작은 모델의 reasonin...
Mistral OCR 3는 OCR을 단순 텍스트 인식이 아니라 Markdown, HTML table, structured annotation, Document AI Playground까지 이어지는 문서 구조 복원...
Nature 논문으로 정식화된 TabPFN은 1억 개 안팎의 synthetic tabular task로 transformer를 사전학습해, 작은 표형 데이터셋에서 학습·튜닝 루프를 한 번의 in-context p...
Geoffrey Hinton의 Forward-Forward 알고리즘은 각 layer가 positive data와 negative data를 구분하는 local goodness objective로 학습하면, 역전파...
Pare는 FSM 기반 모바일 앱과 active user simulator로 proactive assistant의 goal inference, intervention timing, multi-app orchest...
Sakana AI의 RL Conductor는 7B 모델이 GPT-5, Gemini, Claude, 오픈 모델을 직접 풀어 쓰는 대신 자연어 워크플로를 설계하도록 RL로 학습한 에이전트 오케스트레이션 논문이다.
arXiv 2604.27077은 nGPT가 weight decay와 warmup 없이 빠르게 학습된다는 장점에도 불구하고 폭·깊이·토큰 horizon을 키울 때 학습률 transfer가 깨지는 문제를 보이고, a...
arXiv 2604.11465는 Qwen3-8B 하나를 요약기, 메인 에이전트, 독립 교정기라는 세 역할로 반복 호출해 AppWorld pass@1 성능을 FP16 5.4%→8.9%, AWQ 3.0%→5.9%로...
arXiv 2510.13406은 서로 다른 embedding 모델이 pairwise dot product 구조를 비슷하게 보존한다면 직교 Procrustes 변환만으로 같은 검색·추천·멀티모달 파이프라인 안에서...
NeurIPS 2025에 채택된 arXiv 2505.13898은 Llama 3.1, Qwen 3, OLMo 2의 residual stream을 분석해, 깊은 Transformer의 후반부 layer가 새로운 다단...
Prefix-tuning, soft prompt tuning, suffix prompt tuning, passage-specific prompt tuning을 하나의 계보로 보면, LLM을 다시 학습시키는 대신...