RAGの実装において、「検索精度の頭打ち」と「情報の鮮度・権限管理」は大きな課題です。
単一のベクトル検索だけでは、文脈が不足したチャンクを取り違えたり、権限外のドキュメントを参照したりするリスクがあります。
続きを読む
単一のベクトル検索だけでは、文脈が不足したチャンクを取り違えたり、権限外のドキュメントを参照したりするリスクがあります。
本記事では、この課題を解決するためのデータ構造設計(メタデータ設計)を解説します。
そこで、メタデータ設計です。文書本文とは別に付与する、検索制御用の属性情報を指します。具体的には、会社名、年月、ドキュメント種別などです。メタデータで検索対象となる文書群を限定することで、検索精度を高める狙いです。
なぜメタデータ設計が必要なのか
RAGはドキュメントをチャンク分割して、ベクトル検索することが基本ですが、そもそも検索対象のドキュメントに新版と旧版が混ざっていたり、似たようなドキュメントがあると、ベクトル検索で意味の近いチャンクをとってきたときに、正しい検索結果にならないケースがあります。そのため、メタデータを利用して、検索前に事前に検索対象のドキュメントを絞り込んでしまいたいというモチベーションがあります。そこで、メタデータ設計です。文書本文とは別に付与する、検索制御用の属性情報を指します。具体的には、会社名、年月、ドキュメント種別などです。メタデータで検索対象となる文書群を限定することで、検索精度を高める狙いです。
続きを読む