Ctx2Skill은 긴 문맥을 읽는 능력을 파라미터가 아니라 스킬 문서로 끌어올린다
Ctx2Skill은 복잡한 문맥에서 규칙과 절차를 자연어 스킬로 추출해 언어모델의 context learning을 강화하는 self-play 프레임워크로, 인간 주석과 외부 실행 피드백 없이도 closed-source 모델에 꽂아 넣을 수 있는 해석 가능한 skill layer를 제안한다.
Blog
Ctx2Skill은 복잡한 문맥에서 규칙과 절차를 자연어 스킬로 추출해 언어모델의 context learning을 강화하는 self-play 프레임워크로, 인간 주석과 외부 실행 피드백 없이도 closed-source 모델에 꽂아 넣을 수 있는 해석 가능한 skill layer를 제안한다.
이 논문은 장기 상호작용 에이전트 학습의 병목을 추상적인 탐색 난이도가 아니라 horizon length 자체에서 찾고, macro action과 subgoal decomposition 같은 horizon reduction이 RL 안정성과 일반화까지 개선한다는 점을 실험적으로 보인다.
HeavySkill은 멀티에이전트 오케스트레이션의 성능 원천을 외부 시스템 복잡도보다 모델 내부의 heavy thinking 스킬로 재해석하며, 이를 병렬 추론과 순차적 숙의로 분해해 test-time scaling과 RLVR의 결합 지점을 제시한다.
OneVL은 자율주행 VLA의 Chain-of-Thought를 언어 latent만이 아니라 미래 프레임 예측을 포함한 world-model supervision으로 압축해, explicit CoT를 넘는 정확도와 answer-only 수준 지연을 동시에 노린다.
OmniShotCut은 shot boundary detection을 단순 프레임 경계 검출이 아니라 intra-shot·inter-shot 관계를 함께 예측하는 구조적 문제로 재정의하고, 합성 전환 데이터와 현대적 벤치마크를 함께 설계해 영상 분할 파이프라인을 더 해석 가능하고 실전 지향적으로 밀어 올리려는 작업이다.
Tuna-2는 사전학습 비전 인코더와 VAE를 제거하고 raw pixel patch embedding만으로 이해와 생성을 함께 처리해, native unified multimodal model의 복잡도를 낮추면서도 세밀한 시각 이해 성능을 끌어올리려는 시도다.
confident-ai/deepeval은 단순 메트릭 라이브러리를 넘어 pytest 스타일 테스트, LLM-as-a-judge, 에이전트 트레이싱, 합성 데이터 생성, 벤치마크 실행을 하나의 local-first 평가 프레임워크로 묶는다.
Argilla는 단순 주석 UI가 아니라 Python SDK, self-hosted 서버, 협업용 데이터셋 스키마를 결합해 human feedback 루프를 운영 가능한 데이터 워크벤치로 바꾼다.
Distilabel의 Tutorials 섹션은 synthetic data framework를 단순 SDK가 아니라 ORPO·DPO·retrieval·judge·structured generation 실험을 바로 복제할 수 있는 실행형 cookbook으로 재포지셔닝한다.
OSCAR는 더 강한 VLM의 오프라인 정답을 흉내 내는 대신, 모델 자신의 판별 능력과 MCTS 탐색을 이용해 온라인 preference 데이터를 만들고 DPO로 갱신함으로써 시각 환각을 줄이는 정렬 프레임을 제안한다.
Dynin-Omni는 텍스트·이미지·음성 이해와 생성, 그리고 비디오 이해를 하나의 8B 마스크드 디퓨전 백본으로 통합해, 옴니모달 모델링을 외부 생성기 조립이 아니라 shared discrete token space 위의 iterative denoising 문제로 다시 정의한다.
PRISM은 멀티모달 모델의 표준 SFT→RLVR 파이프라인 사이에 black-box on-policy distillation 기반의 pre-alignment 단계를 삽입해, 시각 인식과 추론이 서로 다른 방식으로 무너지는 distributional drift를 먼저 복구하자고 제안한다.
RecursiveMAS는 여러 LLM 에이전트를 텍스트 메시지 체인 대신 잠재 상태 루프로 연결하고, RecursiveLink와 inner–outer loop 학습으로 시스템 전체를 공동 최적화해 정확도·속도·토큰 사용량을 함께 개선하려는 멀티 에이전트 프레임워크다.
Qwen-Scope는 Qwen3·Qwen3.5 계열 7개 모델에 대해 14개 그룹의 sparse autoencoder를 공개하고, 이를 추론 조종·벤치마크 분석·안전 데이터 합성·사후 훈련 최적화까지 연결해 SAE를 사후 해석 기법이 아니라 재사용 가능한 개발 인터페이스로 재정의하려는 시도다.
cocoindex-io/cocoindex는 RAG와 에이전트용 인덱싱을 단순 임베딩 배치가 아니라 declarative target state와 incremental sync 문제로 재정의해, 코드·문서·회의록·PDF·Slack 같은 소스를 항상 최신 컨텍스트로 유지하려는 엔진이다.
PriorLabs의 TabPFN은 표형 데이터를 위한 사전학습 transformer를 중심에 두고, 로컬 Python 패키지·클라우드 API·UX·MCP·엔터프라이즈 배포까지 연결하면서 tabular ML을 모델 훈련 문제에서 예측 인프라 문제로 재구성하려는 프로젝트다.
Stet의 56개 실전 리포지토리 태스크 비교는 GPT-5.5가 Codex CLI에서 더 자주 ‘출하 가능한 패치’를 만들고, Opus 4.7은 Claude Code에서 더 작은 패치를 만들지만 통합 작업을 덜 마무리하는 경향이 있음을 보여 준다.
mksglu/context-mode는 MCP 도구 출력, 세션 압축, 상태 복구, 검색 기반 재주입을 하나의 실행 레이어로 묶어 Claude Code·Gemini CLI·Cursor·Copilot·OpenCode 같은 코딩 에이전트의 컨텍스트 낭비를 인프라 문제로 재정의한다.
Fincept-Corporation/FinceptTerminal은 C++20·Qt6 네이티브 데스크톱 위에 임베디드 Python 분석, 100개 이상 데이터 커넥터, 브로커 연동, AI 에이전트, MCP 도구, 정량 분석 모듈을 얹어 블룸버그형 금융 터미널을 오픈소스+상용 라이선스 혼합 모델로 재구성하려는 프로젝트다.
Lum1104/Understand-Anything은 코드·문서·Karpathy 스타일 위키를 멀티 에이전트 파이프라인으로 분석해 구조 그래프, 도메인 그래프, 검색, 온보딩, diff 영향 분석까지 연결하는 오픈소스 코드베이스 이해 플랫폼이다.
Google의 Gemma 4 Multi-Token Prediction drafters는 작은 draft model이 여러 토큰을 미리 제안하고 target model이 이를 병렬 검증하는 구조를 통해, 출력 품질을 바꾸지 않으면서 최대 3배까지 추론 속도를 끌어올리려는 inference acceleration layer다.
seulee26/mckinsey-pptx는 맥킨지 스타일 슬라이드 40종을 Python PPTX 엔진으로 구현하고, 그 위에 Claude Code 플러그인·서브에이전트·슬래시 커맨드를 얹어 사용자의 짧은 브리프를 실제 .pptx 파일로 변환하는 로컬 실행형 프레젠테이션 에이전트 프로젝트다.
EXAONE 4.5 33B는 31.7B 언어모델과 1.29B 비전 인코더를 결합한 LG AI Research의 첫 오픈 웨이트 VLM으로, 256K 컨텍스트와 문서 이해 중심 데이터 전략을 앞세워 범용 벤치마크보다 산업형 멀티모달 실전성에 무게를 둔 릴리스다.
Qwen3.6-35B-A3B는 총 35B·활성 3B의 멀티모달 MoE 구조 위에 agentic coding, preserve_thinking, 초장문 컨텍스트 확장, 오픈 배포 경로를 결합해 작은 활성 비용으로 실전형 코딩 에이전트 성능을 노리는 Qwen의 공개 모델이다.
Mistral Medium 3.5는 128B dense open-weight 모델 하나에 instruction following, reasoning, coding, vision, tool use를 통합하고, 이를 Le Chat과 Vibe의 장시간 에이전트 실행 계층에 바로 연결하려는 Mistral의 새 플래그십이다.
Netflix의 VOID는 단순 배경 인페인팅을 넘어서, 사람이 사라지면 기타가 떨어지는 것처럼 제거 대상이 남긴 물리적 상호작용까지 함께 수정하는 interaction-aware video object removal 모델이다.
Jiunsong의 SuperGemma4-26B-Uncensored-Fast v2는 Google Gemma 4 26B IT를 MLX 4bit 형식으로 재가공해, Apple Silicon 로컬 환경에서 속도와 실사용 에이전트 성능을 함께 끌어올리려는 비공식 커뮤니티 릴리스다.
DeepSeek-V4-Pro는 1.6T total / 49B activated MoE와 CSA·HCA 하이브리드 attention, mHC, Muon optimizer를 결합해 1M 토큰 문맥에서 추론 비용과 KV-cache를 크게 줄이면서도 코딩·추론·에이전트 성능을 함께 끌어올리려는 공개 모델이다.
Xiaomi의 MiMo-V2.5는 310B Sparse MoE에 비전·오디오 인코더와 에이전트 후학습을 결합해, 1M 컨텍스트와 네이티브 옴니모달 이해를 하나의 공개 모델로 밀어 넣은 릴리스다.
SkillsMP는 GitHub 전역에 흩어진 SKILL.md 기반 에이전트 스킬을 수집해 의미 검색, 직군 분류, 카테고리 탐색, API 접근, 설치 가이드까지 한 화면으로 묶어 Claude Code·Codex·ChatGPT 시대의 스킬 발견 레이어를 만들고 있다.
NVIDIA의 Nemotron-Orchestrator-8B는 Qwen3-8B 기반의 경량 orchestrator를 RL로 학습시켜, 검색·코드 실행·전문 모델·거대 범용 모델을 상황별로 배치하며 GPT-5보다 더 높은 HLE 점수와 더 나은 비용 효율을 동시에 노린다.
Jin’s Doodle의 Large-scale Model 핵심 기술 리포트는 decoder-only 아키텍처, RMSNorm·SwiGLU·Pre-Norm, RoPE·mRoPE, FlashAttention·GQA를 하나의 설계 지도처럼 엮어 최신 LLM과 VLM의 기본 선택지를 빠르게 복기하게 만든다.
oh-my-codex는 OpenAI Codex CLI를 대체하지 않고 그 위에 팀 실행, worktree 격리, 역할 프롬프트, 워크플로우 스킬, MCP 서버, HUD와 상태 관리까지 얹어 단일 코딩 에이전트를 운영 가능한 멀티에이전트 런타임으로 바꾸려는 오픈소스 프로젝트다.
open-compass/opencompass는 모델 하나의 점수를 계산하는 스크립트를 넘어서, 방대한 데이터셋 카탈로그·분산 실행·가속 추론·LLM-as-a-judge·공개 리더보드를 한 스택으로 엮어 LLM 평가를 반복 가능한 운영 파이프라인으로 바꾸려는 오픈소스 플랫폼이다.
Lazyweb은 방대한 앱 스크린샷 라이브러리와 비교 페이지, 인스퍼레이션 카탈로그, 무료 MCP 엔드포인트, 에이전트용 스킬 배포 경로를 결합해 Claude Code·Codex·Cursor 같은 코딩 에이전트가 실제 UI 레퍼런스를 근거로 디자인 조사와 개선 제안을 하도록 만드는 디자인 컨텍스트 플랫폼이다.
ruvnet/ruflo는 Claude Code 위에 swarm coordination, persistent memory, self-learning loop, federation, 32개 플러그인, 300개 수준의 MCP 도구를 얹어 단일 코딩 도우미를 장기 기억과 협업 능력을 가진 에이전트 운영 플랫폼으로 바꾸려는 대형 오픈소스 프로젝트다.
rowboatlabs/rowboat는 이메일·캘린더·미팅노트·웹 검색 결과를 로컬 마크다운 볼트와 지식 그래프로 축적한 뒤, 그 위에서 회의 준비, 이메일 초안, 문서 작성, PDF 덱 생성, 라이브 노트 업데이트를 수행하는 로컬 퍼스트 AI 동료(co-worker)를 지향한다.
unclejobs-ai가 포크한 LLM Wiki gist는 파일 업로드형 RAG 대신, LLM이 원문 소스를 읽고 지속적으로 갱신하는 마크다운 위키를 중간 계층으로 두어 개인·연구·팀 지식을 축적형 자산으로 운영하자는 패턴을 제안한다.
nexu-io/open-design은 Claude Design의 artifact-first 디자인 경험을 오픈소스로 재구성하면서, 여러 코딩 에이전트 CLI와 로컬 데몬, 디자인 시스템, 스킬 카탈로그, 샌드박스 프리뷰, HTML·PDF·PPTX·MP4 내보내기를 하나의 로컬 퍼스트 디자인 스튜디오로 묶으려는 프로젝트다.
paper2code는 arXiv 논문을 구현할 때 LLM이 빈칸을 자신 있게 메워버리는 문제를 막기 위해, 구현 결과를 citation-anchored code·ambiguity audit·walkthrough notebook 형태로 출력하고 각 선택을 SPECIFIED, PARTIALLY_SPECIFIED, UNSPECIFIED로 분류하는 에이전트 스킬 프로젝트다.
AutoKernel은 PyTorch 모델을 프로파일링해 병목 GPU 커널을 추출한 뒤, Triton 또는 CUDA C++ 커널을 에이전트가 반복적으로 수정·벤치마크·유지/되돌리기 하도록 설계해 하룻밤 단위의 자동 커널 최적화를 가능하게 하려는 오픈소스 프레임워크다.
OCR4all은 초기 근대 인쇄물처럼 표준 OCR이 자주 무너지는 문서를 대상으로, 전처리·레이아웃 분할·라인 분할·인식·교정·도메인별 모델 학습을 하나의 웹 UI에 묶어 비전문가도 고품질 OCR 파이프라인을 운영할 수 있게 하려는 오픈소스 프로젝트다.
obra/superpowers는 Claude Code, Codex, Gemini CLI, Cursor 같은 코딩 에이전트에 스킬 라이브러리와 강제 워크플로우를 주입해, 즉흥적인 프롬프트 코딩을 설계-계획-TDD-리뷰-마무리까지 이어지는 반복 가능한 개발 방법론으로 바꾸려는 프로젝트다.
Oxen.ai의 실험은 Qwen3-VL-8B를 자동차 손상 분류에 맞춰 319장 이미지로 LoRA 파인튜닝하면, 약 1달러 학습비로 Gemini 3 Flash보다 더 높은 정확도와 더 짧은 추론 시간을 동시에 얻을 수 있음을 보여준다.
POP은 LLM 추론의 prefill과 decode가 서로 다른 역할을 가진다는 점을 이용해, 문맥 인코딩 단계에서만 깊은 층을 생략하고 decode는 풀모델로 유지함으로써 정확도 손실을 크게 늘리지 않고 prefill 지연을 줄이려는 stage-aware pruning 접근이다.
Doc-to-LoRA는 긴 문맥을 매번 다시 읽지 않고도 답할 수 있도록, 문서에서 LoRA 어댑터를 한 번의 forward pass로 생성하는 hypernetwork를 메타학습해 context distillation의 지연과 메모리 비용을 크게 줄이려는 접근이다.
Learning to Reason in 13 Parameters는 RL 기반 post-training이 SFT보다 훨씬 정보 밀도가 높은 업데이트를 만든다는 가설 아래, TinyLoRA로 Qwen2.5-7B의 추론 성능을 단 13개 파라미터와 26바이트만으로 크게 끌어올릴 수 있음을 보여준다.
Agent Lightning은 기존 LangChain·OpenAI Agents SDK·AutoGen 기반 에이전트를 거의 수정하지 않고도 강화학습으로 최적화할 수 있게 하며, 이를 위해 실행 궤적을 통합 인터페이스로 수집하고 Training-Agent Disaggregation 구조로 학습 루프를 분리한다.
SIREN은 마지막 레이어 출력만 쓰는 기존 guard model 대신 LLM 내부 레이어의 safety neuron을 모아 harmfulness detector를 구성함으로써, 훨씬 적은 학습 파라미터로 더 강한 일반화와 스트리밍 감지를 노린다.
Prompt-Level Distillation은 교사 모델의 추론 규칙을 학생 모델의 시스템 프롬프트로 옮겨, 파인튜닝 없이도 작은 모델이 복잡한 분류 추론을 더 빠르고 투명하게 수행하도록 만든다.
OpenAI Privacy Filter는 PII 탐지와 마스킹을 위한 1.5B 오픈 웨이트 모델로, 긴 비정형 텍스트를 로컬 환경에서 빠르게 처리하면서 개인정보 보호를 제품 내부 워크플로우로 끌어들인다.
Hugging Face Skills는 모델 학습, 데이터셋 탐색, 평가, 로컬 추론 같은 AI 작업 지식을 SKILL.md 기반 패키지로 묶어 Claude Code, Codex, Gemini CLI, Cursor 사이에서 재사용 가능하게 만든다.
dFactory는 확산 언어 모델의 미세 조정을 위해 block diffusion, MoE 가중치 병합, 분산 학습, 병렬 디코딩 경로를 하나의 실행 가능한 프레임워크로 묶는다.
데이터 중심 AI 시대에는 좋은 모델보다 좋은 데이터 파이프라인이 더 큰 차이를 만든다. DataFlow는 생성, 평가, 필터링, 정제를 하나의 실행 가능한 시스템으로 묶는다.
합성 데이터의 품질은 더 좋은 프롬프트 한 줄보다 컬럼 간 상관관계, 검증, 반복 가능한 생성 파이프라인에서 결정된다.
RAG가 데모에서 제품으로 넘어가는 순간, 질문은 어떤 검색기가 더 좋은가에서 실패한 추론을 어떻게 발견하고 복구할 것인가로 바뀐다.
문서 복원 품질은 OCR 텍스트 정확도와 테이블 구조 품질이 함께 움직일 때 비로소 사용자 체감 품질에 가까워진다.
모델 파일 암호화, manifest, runtime role mapping, 배포 검증은 보안 기능을 넘어 고객이 제품을 신뢰하는 방식이 된다.
논문, 벤치마크, 제품 출시 경험을 한 프로필로 묶으려면 성과보다 판단의 구조가 먼저 보여야 한다.