Document Loader (PDF)

RAG를 하려면 수 많은 Raw Data들을 파싱해야함 Raw Data들 중에서도 가장 범용적으로 사용되는 파일은 PDF이기 때문에, PDF 파일에서 한글을 추출해내는 것이 중요합니다. 아래는 Aurtorag 팀에서 한글 여러 도메인의 pdf를 가지고 한글 텍스트 추출 실험을 진행한 순위표.

아래 표기된 숫자는 등수를 나타냅니다. (The lower, the better)

PDFMiner PDFPlumber PyPDFium2 PyMuPDF PyPDF2 Medical 1 2 3 4 5 Law 3 1 1 3 5 Finance 1 2 2 4 5 Public 1 1 1 4 5 Sum 5 5 7 15 20

1. 표가 있는 PDF 문서

PDF에서 텍스트를 추출하는 것은 위에서 비교한 라이브러리 모두 어느정도 비슷한 성능을 보입니다.

하지만, 텍스트 추출 시 표의 구조를 잘 유지하면서 텍스트를 추출하는 것은 라이브러리마다 성능 차이가 천차만별입니다.

PDF 문서마다 이중 표, 테두리 선이 존재하지 않는 표 등 형식이 다르기 때문입니다. 이로 인해 표에서 추출된 텍스트를 자세히 살펴보면 헤더와 값이 잘못 매핑되면서 왜곡된 정보를 가진 텍스트 Document가 생성될 수 있습니다.

그래서 이 글에서는 표의 구조를 가장 잘 유지하면서 텍스트를 추출할 수 있는 PDF 라이브러리를 비교필요