PDFファイルを参照するRAGシステムを構築する場合、PDFの前処理は重要です。その後のチャンク設計や検索品質に直結します。
一方でドキュメントの前処理の選択肢は急速に増えています。テキスト抽出、Doclingのような変換ツール、さらにLLMやVLMがPDFを直接解釈し、Markdownに変換するパターンも現実的な選択肢になっています。
そこで本記事では、READocの論文を参考に、RAG用途のPDF前処理の視点で代表的なツールを比較し、2025年時点での使い分けの指針を整理します。
続きを読む
