OCR4all은 역사 인쇄물 OCR을 사람-개입형 워크플로우로 푼다
OCR4all은 초기 근대 인쇄물처럼 표준 OCR이 자주 무너지는 문서를 대상으로, 전처리·레이아웃 분할·라인 분할·인식·교정·도메인별 모델 학습을 하나의 웹 UI에 묶어 비전문가도 고품질 OCR 파이프라인을 운...
Blog
OCR4all은 초기 근대 인쇄물처럼 표준 OCR이 자주 무너지는 문서를 대상으로, 전처리·레이아웃 분할·라인 분할·인식·교정·도메인별 모델 학습을 하나의 웹 UI에 묶어 비전문가도 고품질 OCR 파이프라인을 운...
obra/superpowers는 Claude Code, Codex, Gemini CLI, Cursor 같은 코딩 에이전트에 스킬 라이브러리와 강제 워크플로우를 주입해, 즉흥적인 프롬프트 코딩을 설계-계획-TDD-...
Oxen.ai의 실험은 Qwen3-VL-8B를 자동차 손상 분류에 맞춰 319장 이미지로 LoRA 파인튜닝하면, 약 1달러 학습비로 Gemini 3 Flash보다 더 높은 정확도와 더 짧은 추론 시간을 동시에 얻...
POP은 LLM 추론의 prefill과 decode가 서로 다른 역할을 가진다는 점을 이용해, 문맥 인코딩 단계에서만 깊은 층을 생략하고 decode는 풀모델로 유지함으로써 정확도 손실을 크게 늘리지 않고 pre...
Doc-to-LoRA는 긴 문맥을 매번 다시 읽지 않고도 답할 수 있도록, 문서에서 LoRA 어댑터를 한 번의 forward pass로 생성하는 hypernetwork를 메타학습해 context distillat...
Learning to Reason in 13 Parameters는 RL 기반 post-training이 SFT보다 훨씬 정보 밀도가 높은 업데이트를 만든다는 가설 아래, TinyLoRA로 Qwen2.5-7B의 추...
Agent Lightning은 기존 LangChain·OpenAI Agents SDK·AutoGen 기반 에이전트를 거의 수정하지 않고도 강화학습으로 최적화할 수 있게 하며, 이를 위해 실행 궤적을 통합 인터페이...
SIREN은 마지막 레이어 출력만 쓰는 기존 guard model 대신 LLM 내부 레이어의 safety neuron을 모아 harmfulness detector를 구성함으로써, 훨씬 적은 학습 파라미터로 더 강...
Prompt-Level Distillation은 교사 모델의 추론 규칙을 학생 모델의 시스템 프롬프트로 옮겨, 파인튜닝 없이도 작은 모델이 복잡한 분류 추론을 더 빠르고 투명하게 수행하도록 만든다.
OpenAI Privacy Filter는 PII 탐지와 마스킹을 위한 1.5B 오픈 웨이트 모델로, 긴 비정형 텍스트를 로컬 환경에서 빠르게 처리하면서 개인정보 보호를 제품 내부 워크플로우로 끌어들인다.
Hugging Face Skills는 모델 학습, 데이터셋 탐색, 평가, 로컬 추론 같은 AI 작업 지식을 SKILL.md 기반 패키지로 묶어 Claude Code, Codex, Gemini CLI, Cursor...
dFactory는 확산 언어 모델의 미세 조정을 위해 block diffusion, MoE 가중치 병합, 분산 학습, 병렬 디코딩 경로를 하나의 실행 가능한 프레임워크로 묶는다.