Blog

Knowledge WIKI

335 posts, 14-25 showing

2 / 28

Kimi K3는 2.8T·1M context를 ‘오픈 웨이트 이전’ API ag...

Moonshot AI의 Kimi K3는 2.8T MoE, 1M context, native vision을 내세운 Kimi의 새 flagship이다. API·Kimi Code·Kimi Work에는 이미 들어왔지만,...

Sangmin Lee2026.07.17

Agent Systems

WebSwarm은 웹 검색을 고정 분업이 아니라 재귀적 위임 트리로 푼다

WebSwarm은 검색 중 발견한 증거에 따라 agent node와 search mode를 계속 생성·수정하는 재귀적 orchestration으로, 깊은 추론과 넓은 정보 수집을 같은 실행 흐름에서 결합하려는 웹...

Sangmin Lee2026.07.15

Research Agents

AIDE²는 ‘더 잘하는 에이전트’보다 ‘더 잘 개선하는 에이전트’를 시험한다

Weco AI의 AIDE² 리포트는 outer loop가 inner research-agent harness를 100회 재작성하고, 고정 비용·비공개 점수·외부 벤치마크로 살아남은 변경만 채택해 인간 수동 튜닝보...

Sangmin Lee2026.07.15

Agent Skills & Workflows

autoresearch-skill은 스킬 프롬프트를 keep-or-discard...

olelehmann1337/autoresearch-skill은 Claude Code skill을 여러 번 실행하고 binary eval로 점수화한 뒤, 한 번에 하나의 prompt mutation만 keep-or...

Sangmin Lee2026.07.15

Model Training

Direct-OPD는 작은 모델의 RL 결과를 큰 모델용 보상으로 다시 쓴다

Direct-OPD는 작은 RL teacher의 최종 정책을 모방하지 않고, 사전·사후 체크포인트의 로그비에 남은 policy shift를 큰 student의 온폴리시 학습용 dense reward로 바꿔 wea...

Sangmin Lee2026.07.15

Video Generation

StudioRecon은 네 대의 거의 겹치지 않는 카메라를 4D 캡처 스튜디오로...

StudioRecon은 저중첩 다중 카메라 영상에서 배경에는 비디오 확산 prior를, 사람에는 SMPL 기하 prior를 따로 적용해 4D Gaussian human-scene을 재구성하고, 시간 일관성 보정으...

Sangmin Lee2026.07.14

Agent Skills & Workflows

SkillOpt-Lite는 에이전트 자기진화를 파일 디버깅 루프로 되돌린다

arXiv 2607.03451은 에이전트 스킬 최적화를 복잡한 tree merge와 update damping이 아니라, 실패 trace 파일을 읽고 최소 패치를 만든 뒤 독립 validation gate로 ke...

Sangmin Lee2026.07.09

Agent Skills & Workflows

SkillComposer는 에이전트 스킬 선택을 검색이 아니라 순서 있는 생성...

arXiv 2606.32025는 LLM 에이전트가 어떤 스킬을 몇 개, 어떤 순서로 불러올지를 하나의 시퀀스 생성 문제로 정식화하고, 3.9M 학습 파라미터의 작은 컴포저가 검색·전체 SFT 방식보다 안정적인 스...

Sangmin Lee2026.07.07

Foundation Models

Instok3D는 3D 장면을 프리미티브가 아니라 객체 토큰으로 본다

arXiv 2606.29513은 unposed multi-view 이미지에서 장면을 dense Gaussian 집합이 아니라 instance token과 anchor token으로 구성된 객체 중심 3D toke...

Sangmin Lee2026.07.07

Agent Skills & Workflows

HASTE는 에이전트 스킬을 계층으로 쌓아 ML 엔지니어링 반복을 줄인다

arXiv 2606.30911은 ML 엔지니어링 에이전트가 과거 Kaggle 경험을 global·domain·competition 스킬로 나눠 재사용할 때, 단순한 flat memory보다 전이 효율이 좋아진다는...

Sangmin Lee2026.07.06

Agent Systems

HORIZON은 RTL 설계를 Git 저장소 진화 문제로 바꾼다

NVIDIA Research의 HORIZON은 Markdown harness를 평가 가능한 project pack으로 컴파일하고, Git worktree 위에서 RTL 설계를 반복 수정·검증·커밋하는 agenti...

Sangmin Lee2026.07.06

Evaluation & Benchmarks

PROBE는 환각 탐지를 한 번의 판정이 아니라 검증 과정으로 평가한다

ACL 2026 Findings의 PROBE는 LLM 환각 탐지를 claim decomposition, evidence finding, evidence evaluation, hallucination localiz...

Sangmin Lee2026.07.05