Tag

#Tool Use

S-Agent는 VLM을 의미적 planner로 두고 2D grounding, 3D lifting, 공간 expert, scene/agent memory를 결합해 multi-view·video 공간 추론을 evi...

Sangmin Lee2026.06.20

arXiv 2606.16774는 여러 모델의 실행 궤적과 judge 평가를 결합해 전이 가능한 스킬 트리를 만들고, CSRL로 스킬 조건부 rollout을 비교 학습하는 OpenClaw-Skill을 제안한다.

Sangmin Lee2026.06.18

Qwable-v1은 Qwen3.6-35B-A3B 계열 reasoning distill 위에 Claude Fable-5 도구 사용 흔적을 한 번 더 SFT한 35B MoE 오픈 웨이트 모델이다. 공개된 근거는 ag...

Sangmin Lee2026.06.16

arXiv 2606.12674는 MCP-style 툴 사용을 함수 호출 문제가 아니라 실행 가능한 workflow graph를 고치는 문제로 보고, 작은 planner에서 SFT/DPO보다 inference-ti...

Sangmin Lee2026.06.16

Akshay Pachaar의 LinkedIn 포스트와 Daily Dose of Data Science 인포그래픽을 출발점으로 ReAct, CodeAct, MCP 기반 tool use, self-reflection...

Sangmin Lee2026.05.26

arXiv 2604.11465는 Qwen3-8B 하나를 요약기, 메인 에이전트, 독립 교정기라는 세 역할로 반복 호출해 AppWorld pass@1 성능을 FP16 5.4%→8.9%, AWQ 3.0%→5.9%로...

Sangmin Lee2026.05.25

NVIDIA의 Nemotron-Orchestrator-8B는 Qwen3-8B 기반의 경량 orchestrator를 RL로 학습시켜, 검색·코드 실행·전문 모델·거대 범용 모델을 상황별로 배치하며 GPT-5보다 더...

Sangmin Lee2026.05.25

arXiv 2605.22166의 Life-Harness는 frozen LLM agent의 반복 실패를 환경 계약, 절차 스킬, 액션 실현, 궤적 제어 계층에서 고치는 runtime harness 방법이다. 7개...

Sangmin Lee2026.05.25

SmallCode는 7B~20B 로컬 모델을 전제로 context budget, forgiving tool parser, patch-first editing, 검증 루프를 묶은 코딩 에이전트다. v0.7.1 릴리...

Sangmin Lee2026.05.21

Tejas Kumar의 AI Engineer 발표는 낡은 GPT-3.5 Turbo 브라우저 에이전트가 Hacker News upvote task에서 실패하고 거짓 성공을 보고하는 장면을 출발점으로, tool re...

Sangmin Lee2026.05.19