문서 AI를 평가할 때 가장 흔한 실수는 하나의 정확도 수치로 전체 품질을 설명하려는 것이다. OCR 텍스트가 맞아도 row와 column이 무너지면 표는 사용할 수 없다. 반대로 셀 구조가 맞아도 문자 오류가 많으면 후속 검색, 요약, 검증 단계에서 다시 비용이 발생한다.
그래서 문서 복원 플랫폼에서는 CER, Row F1, Col F1, Cell F1, TEDS를 함께 봐야 한다. 각 지표는 서로 다른 실패 모드를 보여준다. CER은 텍스트 인식의 바닥 품질을 말하고, Cell F1은 실제 셀 단위 복원 성공률을 말하며, TEDS는 HTML이나 표 구조가 원본과 얼마나 가까운지를 드러낸다.
사용자는 구조 오류를 더 크게 느낀다
사용자가 문서 AI의 결과를 검수할 때 가장 크게 체감하는 문제는 글자 하나의 오탈자가 아니다. 행이 밀리거나, 헤더가 데이터 행으로 들어가거나, 병합 셀이 깨지는 순간 전체 표를 다시 봐야 한다. 문서 AI 제품에서는 이 검수 비용을 줄이는 방향으로 지표를 읽어야 한다.
벤치마크는 운영 대시보드와 연결되어야 한다
벤치마크 결과는 연구용 CSV로 끝나면 안 된다. 데이터셋, 모델 버전, threshold, 후처리 옵션, 실패 샘플 링크가 함께 남아야 다음 개선이 가능하다. 좋은 벤치마크는 수치를 보여주는 것을 넘어서 실패 샘플을 다시 찾아갈 수 있게 한다.
개선 우선순위
- OCR 회복률이 낮으면 텍스트 정규화와 후보 선택을 먼저 본다.
- Row나 Col F1이 낮으면 선분 추출과 grouping 규칙을 점검한다.
- TEDS가 낮으면 셀 span 복원과 HTML 직렬화 경로를 따로 확인한다.
- 사용자 검수 시간이 줄지 않으면 지표 조합이 실제 업무 품질을 충분히 반영하는지 다시 묻는다.