문서 AI 벤치마크는 왜 단일 정확도로 설명되지 않는가

문서 복원 품질은 OCR 텍스트 정확도와 테이블 구조 품질이 함께 움직일 때 비로소 사용자 체감 품질에 가까워진다.

문서 AI를 평가할 때 가장 흔한 실수는 하나의 정확도 수치로 전체 품질을 설명하려는 것이다.
OCR 텍스트가 맞아도 row와 column이 무너지면 표는 사용할 수 없다.
반대로 셀 구조가 맞아도 문자 오류가 많으면 후속 검색, 요약, 검증 단계에서 다시 비용이 발생한다.

그래서 문서 복원 플랫폼에서는 CER, Row F1, Col F1, Cell F1, TEDS를 함께 봐야 한다.
각 지표는 서로 다른 실패 모드를 보여준다.
CER은 텍스트 인식의 바닥 품질을 말하고, Cell F1은 실제 셀 단위 복원 성공률을 말하며, TEDS는 HTML이나 표 구조가 원본과 얼마나 가까운지를 드러낸다.

사용자는 구조 오류를 더 크게 느낀다

사용자가 문서 AI의 결과를 검수할 때 가장 크게 체감하는 문제는 글자 하나의 오탈자가 아니다.
행이 밀리거나, 헤더가 데이터 행으로 들어가거나, 병합 셀이 깨지는 순간 전체 표를 다시 봐야 한다.
문서 AI 제품에서는 이 검수 비용을 줄이는 방향으로 지표를 읽어야 한다.

벤치마크는 운영 대시보드와 연결되어야 한다

벤치마크 결과는 연구용 CSV로 끝나면 안 된다.
데이터셋, 모델 버전, threshold, 후처리 옵션, 실패 샘플 링크가 함께 남아야 다음 개선이 가능하다.
좋은 벤치마크는 수치를 보여주는 것을 넘어서 실패 샘플을 다시 찾아갈 수 있게 한다.

개선 우선순위

OCR 회복률이 낮으면 텍스트 정규화와 후보 선택을 먼저 본다.
Row나 Col F1이 낮으면 선분 추출과 grouping 규칙을 점검한다.
TEDS가 낮으면 셀 span 복원과 HTML 직렬화 경로를 따로 확인한다.
사용자 검수 시간이 줄지 않으면 지표 조합이 실제 업무 품질을 충분히 반영하는지 다시 묻는다.