PDFファイルを参照するRAGシステムを構築する場合、PDFの前処理は重要です。その後のチャンク設計や検索品質に直結します。

一方でドキュメントの前処理の選択肢は急速に増えています。テキスト抽出、Doclingのような変換ツール、さらにLLMやVLMがPDFを直接解釈し、Markdownに変換するパターンも現実的な選択肢になっています。

そこで本記事では、READocの論文を参考に、RAG用途のPDF前処理の視点で代表的なツールを比較し、2025年時点での使い分けの指針を整理します。

READocの概要

READocの狙い

READocは、Document Structure Extraction (DSE) を、実運用に近い形で評価することを目的としたベンチマークです。DSEを非構造な複数ページのPDFを意味的にリッチなMarkdownへ変換するエンドツーエンドのタスク(PDF-to-Markdown)として再定義し、多様なPDFとMarkdownのペアの評価データセットで検証します。

つまりただPDFからテキストを抜くのではなく、見出し階層、表、数式、読み順といった構造情報をどこまで壊さずにMarkdownに復元できるかを複数のデータセットで横断評価でき、RAGの前処理の現場とも親和性が高い点が特徴です。

データセット

READocは、3,576件のPDFとMarkdownペアを構築しており、目的の異なる複数データセットが含まれています。(READoc論文より)

arXiv:学術論文。数式や表を含む複数列レイアウト多い。見出しスタイルは分かりやすい。
GitHub:README中心。表と数式を含まない単一カラム多い。見出しスタイルはシンプルだが多様。
Zenodo:レイアウトが多様で多言語・多形式。

本記事では、MarkItDown / Docling / GPT-4o-mini の3者比較が同条件で成立しているarXivとGitHubに焦点を当てて傾向を解釈します。

評価観点

READocの主要な評価軸は、RAG前処理の要求と直結しています。

Text:テキスト文を正しく抽出できているか
Heading:見出しを検出できているか、かつ階層構造(章、節等)を復元できているか
Formula:数式を壊さずに正しく復元できているか
Table:表の内容と構造をどれだけ正しく再現できているか
Reading Order:人が読む順番でテキストやブロックを並べられているか

RAGの利用を考える場合、Textの重要性は言うまでもないですが、Headingが壊れると構造単位チャンクができなくなりますし、Tableが壊れるのも致命傷です。
Reading OrderFormulaは用途依存で重要度が変わりますが、理工系用途のRAGではFormulaの破綻がそのまま誤回答の起点になります。

本記事で比較するツールと前提

READocでは多くのツールが比較されていますが、企業の導入可能性(特にライセンスと運用負荷)を考えると、選択肢は実務上ある程度絞られます。本記事では次の3つを中心に整理します。

MarkItDown:軽量なMarkdown変換ツール。本体はMITライセンス※1。
Docling:DocTagsなどの中間表現を介した構造抽出が強みのツール。本体はMITライセンス※1。
GPT-4o-mini:マルチモーダルモデル※2を用いたPDF理解

※1 商用利用可否は本体ライセンスに加え、同梱モデルのOCRや依存ライブラリまで確認が必要です。
※2 GPT-4o-miniなどのLLMにPDFを読ませる場合、全ページを画像変換して入力する運用は有力なアプローチです。レイアウト解釈を視覚モードに寄せられ、レイアウト情報を正確に与えられるためです。
なお本論文では、複数ページを一度に処理することで、目次構造の構築能力は大幅に向上しますが、局所的な詳細情報(表や数式の変換精度)は低下したと報告されています。

READocの評価結果

arXivデータセットの評価結果

arXivは、数式、表、見出し階層など研究論文特有の構造が密に埋め込まれた学術PDFです。したがってHeading、Formula、Tableの総合力が重視されるデータセットです。

出典: READoc, Table 3 を基に著者作成
MethodText AvgHeading AvgFormula AvgTable AvgReading Order AvgAverage
MarkItDown76.761.920.050.2197.1135.21
Docling82.5653.540.1260.3397.6258.83
GPT-4o-mini81.9125.2141.9543.8397.0257.98

MarkItDown:Reading Order高め。Heading、Formula、Table厳しい。構造復元を期待する用途には不向き。
Docling:HeadingとTableが強い。Formula弱い。見出し構造が分かりやすいPDFに強いが数式中心用途では注意。
GPT-4o-mini:Formula強い。 他はDoclingに届かず特にHeadingが低い。他ツール全般に言えるが、文書全体を俯瞰して階層的な目次(ToC)を構築することは2025年でも依然として難しい課題


GitHubデータセットの評価結果

GitHubは、表や数式を含まないREADMEが中心で、文書構造の複雑さが低い分Text、Heading、Reading Orderの品質が主要な差分になるデータセットです。

出典: READoc, Table 4 を基に著者作成
MethodText AvgHeading AvgReading Order AvgAverage
MarkItDown85.461.3699.4162.08
Docling47.6331.4970.4849.87
GPT-4o-mini87.2452.3598.9379.51

MarkItDown:TextとReading Order良し。Headingほぼ拾えず。Markdown風の壊れにくい取り込みに寄せた選択。
Docling:Text、Reading Orderが特に低い。少なくともREADocの設定条件下では、構造の手がかりが薄い文書では有効に働かない可能性。(構造復元を強く狙うほど、手がかり不足時に推定のブレが出やすいと考えられる)
GPT-4o-mini:全般的に強い。ラフな文書での解釈に優位。軽量ドキュメントの意味の整え直しが上手い。Headingは相対的に高いが、数値としては52.35と低く課題が残存。

 RAGの前処理の使い分け考察

前提としてRAGでは少なくとも次のような要求があります。
・チャンク分割しやすい構造化テキストが欲しい
・とにかく壊れないテキストが欲しい

この2つはしばしばトレードオフ関係になります。構造情報を取りにいくほど誤検出や変換揺れのリスクが増え、逆に壊れにくさを重視するほど、見出し階層や表構造を諦める判断が必要になります。

MarkItDown

長所:とにかく軽い、手軽、テキスト壊れにくい
短所:見出し、表、数式の構造表現はほぼ期待できない
ポジション:Markdown風テキスト抽出器として割り切る

おすすめシーン
・まず全体を高速に取り込みたい
・構造情報は使わない もしくは後段で別ロジックにより補う
・コストや運用負荷を抑えたシンプルRAGを作りたい

Docling

長所:見出し階層と表構造に強い。学術系や構造が明確なPDFで有利。
短所:ラフなドキュメントでは破綻しやすい傾向。数式復元は弱い。
ポジション:構造化が重要なRAG向けで利用。ただし数式が重要なPDFは注意。

おすすめシーン
・見出し階層ベースでチャンク設計したい

注意シーン
・数式が価値の中心になるPDF
・READMEのように構造が薄い文書

GPT-4o-mini(マルチページ+プロンプト制御)

長所:見出しの階層化、ラフなレイアウトの解釈が得意。文書タイプに対する汎用性が高い。
短所:コスト、レイテンシ、再現性の管理が難しい。
ポジション:予算と運用設計が許せば、幅広い文書に対応可能な選択肢

おすすめシーン
・READMEや社内Wikiのように構造が薄い文書を、見出し階層やセクションを整えたい。
・構造が崩れたファイル(図・表・本文が雑多に配置)で、一定の構造化を狙いたい。
・多様な文書タイプを同じパイプラインで捌きたい。

注意シーン
・厳密な再現性や監査が求められる領域(契約・法務・規程など)
・プロンプトや画像化手順が標準化されていない状態でのチーム展開
・文章が長い場合での精度悪化の懸念

プレーンテキスト抽出(Markdown化しない)

長所:最も壊れにくい、高速、実装容易。
短所:見出しや表構造が失われ構造ベースのチャンク設計が難しい
ポジション:構造は捨てて、テキストの正確性と運用容易性で勝つ選択肢

おすすめシーン
・規程、法務系、契約関連など文字の正確性を最優先したい

まとめ

・文書構造が明確なPDF × 構造が重要 → Docling
・幅広いPDF × 構造が重要  → GPT-4o-mini(LLM/VLM)
・とにかく壊さず低コスト → MarkItDown / プレーン抽出

参考文献

READoc: A Unified Benchmark for Realistic Document Structured Extraction(arXiv 2024)
https://arxiv.org/abs/2409.05137

READoc(HTML版)
https://arxiv.org/html/2409.05137v3

READoc evaluation code(GitHub)
https://github.com/icip-cas/READoc

Docling(公式GitHub)
https://github.com/docling-project/docling

MarkItDown(公式GitHub)
https://github.com/microsoft/markitdown

OpenAI GPT-4o mini(公式モデル概要)
https://platform.openai.com/docs/models/gpt-4o-mini