Blog

Knowledge WIKI

335 posts, 98-109 showing

9 / 28

AppWizzy는 바이브 코딩을 ‘프리뷰 IDE’가 아니라 지속형 VM으로 옮긴...

AppWizzy는 Codex/Gemini CLI가 들어간 전용 클라우드 VM에서 자연어 요청, 코드 수정, 백엔드·DB 실행, 배포·호스팅을 한 환경에 묶어 프로토타입 이후의 운영 공백을 줄이려는 전문형 바이브...

Sangmin Lee2026.06.06

Agent Systems

TIDE는 에이전트의 proactivity를 ‘하나의 추천’이 아니라 숨은 문제...

TIDE 논문은 proactive agent가 사용자의 명시 요청을 기다리는 대신, 개인 workspace와 software repository 안에 공존하는 여러 숨은 문제를 반복적으로 찾고 근거와 해결 행동까...

Sangmin Lee2026.06.06

Safety & Privacy

Anthropic은 Claude의 안전을 모델이 아니라 경계로 설계한다

Anthropic Engineering의 Claude containment 글은 claude.ai, Claude Code, Claude Cowork의 서로 다른 격리 구조를 통해 에이전트 보안의 핵심이 행동 감시...

Sangmin Lee2026.06.06

Agent Systems

Anthropic의 ‘AI가 스스로를 만든다’는 선언은 재귀적 자기개선보다 먼저...

Anthropic Institute의 When AI builds itself는 공개 벤치마크와 내부 데이터를 묶어 AI 개발에서 실행 비용은 급격히 낮아지고, 판단·검증·거버넌스가 새로운 병목으로 떠오른다는 점을...

Sangmin Lee2026.06.06

Inference Systems

OpenCV 5는 컴퓨터 비전 라이브러리를 다시 추론 런타임으로 만든다

OpenCV 5는 그래프 기반 DNN 엔진, 80%+ ONNX operator coverage, LLM/VLM 실행, 새 HAL, 0D/1D tensor와 3D 모듈 재편을 통해 전통적 CV 라이브러리를 현대 A...

Sangmin Lee2026.06.06

Foundation Models

OmniDreams는 자율주행 시뮬레이션을 녹화 재생이 아니라 실시간 생성 월드...

NVIDIA OmniDreams는 Cosmos 기반 2B급 action-conditioned world model을 AlpaSim·Alpamayo·FlashDreams와 묶어, 정책 행동에 반응하는 704×128...

Sangmin Lee2026.06.06

Research Agents

Claw AI Lab은 자동 연구를 숨은 파이프라인에서 조작 가능한 연구실로 바...

arXiv 2605.22662는 Claw AI Lab을 한 프롬프트에서 연구팀을 만들고, 대시보드·실험 harness·rollback/resume으로 자동 연구를 조작 가능한 AI 연구실로 재구성하는 플랫폼으로...

Sangmin Lee2026.06.06

Foundation Models

Microsoft AI의 MAI 모델 패밀리는 모델 출시를 힐 클라이밍 시스템으...

Microsoft AI가 Build 2026에서 공개한 7종 MAI 모델은 단일 SOTA 발표보다, 깨끗한 데이터·자체 인프라·제품 통합·Frontier Tuning을 묶은 반복 개선 시스템 선언에 가깝다.

Sangmin Lee2026.06.05

Agent Skills & Workflows

Subterranean Agent는 에이전트 워크플로를 가중치에 컴파일한다

arXiv 2605.22502는 외부 오케스트레이터가 매 턴 절차를 주입하는 대신, 절차형 agent workflow를 작은 fine-tuned model의 가중치에 내재화하면 near-frontier 품질을 훨...

Sangmin Lee2026.06.05

Evaluation & Benchmarks

AutoLab은 에이전트 평가를 몇 시간짜리 실험 루프로 끌어올린다

AutoLab은 36개 실행형 연구·엔지니어링 최적화 과제로 frontier 모델이 반복 측정·수정·시간 관리까지 해낼 수 있는지 묻는 장시간 에이전트 벤치마크다.

Sangmin Lee2026.06.05

Evaluation & Benchmarks

KOLongDoc는 한국어 장문 문서 VLM을 멀티홉 QA로 압박한다

KOLongDoc는 100개 한국어 장문 문서와 200개 멀티홉 QA로, VLM이 긴 공공문서를 이미지와 텍스트 입력 양쪽에서 얼마나 끝까지 읽고 추론하는지 평가하려는 벤치마크다.

Sangmin Lee2026.06.05

Document Intelligence

PaddleOCR-VL-1.6은 문서 VLM을 더 키우지 않고 약한 구간만 다시...

PaddleOCR-VL-1.6 Hugging Face 모델 카드와 기술보고서를 함께 읽어, 0.9B 문서 파싱 VLM이 under-optimized region data engine과 CPT-SFT-RL 후학습으...

Sangmin Lee2026.06.04