KOLongDoc는 한국어 장문 문서 VLM을 멀티홉 QA로 압박한다
KOLongDoc는 100개 한국어 장문 문서와 200개 멀티홉 QA로, VLM이 긴 공공문서를 이미지와 텍스트 입력 양쪽에서 얼마나 끝까지 읽고 추론하는지 평가하려는 벤치마크다.
Tag
Document AI 태그가 붙은 글입니다.
KOLongDoc는 100개 한국어 장문 문서와 200개 멀티홉 QA로, VLM이 긴 공공문서를 이미지와 텍스트 입력 양쪽에서 얼마나 끝까지 읽고 추론하는지 평가하려는 벤치마크다.
Mistral OCR 3는 OCR을 단순 텍스트 인식이 아니라 Markdown, HTML table, structured annotation, Document AI Playground까지 이어지는 문서 구조 복원...
VectifyAI/PageIndex는 긴 문서를 청킹해 벡터 DB에 넣는 전통적 RAG 대신, 계층적 문서 인덱스와 LLM 추론으로 관련 섹션을 좁혀 가는 vectorless retrieval 프레임을 제안한다.