문제 상황

PDF는 생각보다 훨씬 복잡하다.

PDF 입력은 다음과 같은 복잡한 상황들이 존재한다.

즉, PDF 입력 단계에서부터 누락 없는 텍스트 확보가 중요한 목표가 되었다.

검토 했던 접근 방식들

현재 전략 : OCR 단독 사용

하지만 비용 문제가 존재했고, PDF 전체를 한 번에 OCR 요청하는 방식은 실패 시 리스크도 컸고 결국 페이지 제한을 두게 된다.

Spring AI Document Reader