OCR-Memory는 에이전트 기억을 텍스트 요약이 아니라 시각적 검색 문제로...
arXiv 2604.26622는 장기 실행 에이전트의 trajectory를 텍스트로 계속 밀어 넣는 대신, multi-resolution 이미지와 Set-of-Mark anchor로 저장하고 필요한 segment...
Tag
Multimodal Retrieval 태그가 붙은 글입니다.
arXiv 2604.26622는 장기 실행 에이전트의 trajectory를 텍스트로 계속 밀어 넣는 대신, multi-resolution 이미지와 Set-of-Mark anchor로 저장하고 필요한 segment...