RAGの評価フレームワークであるRAGASについて解説します。
RAGシステムの評価は人間の目視評価が主流
従来のRAG(Retrieval-Augmented Generation)システムの評価は、人間の目視評価が主流でした。生成された回答の品質を人間が個別に評価する手法です。しかし、このアプローチにはいくつかの課題があります。
目視評価の課題
・時間とコスト:大量のデータを評価するには多くの時間とコストがかかる
・一貫性の欠如:評価者間の主観的な違いにより、一貫した評価が難しい
これらの課題を解決するために、RAGを自動評価できるRagas(Retrieval augmented generation assessment)が登場しました。
RAGASの指標

RAGASによるRAGパイプラインの評価には、4つのデータが必要です。
・質問文 question: ユーザーの質問文
・文脈 context: 質問にマッチするテキストチャンク
・回答 answer: 質問に対してRAGが生成した回答
・真実の答え ground truth: 正解の回答
次に、RAGASの評価指標を説明します。
次に、RAGASの評価指標を説明します。
・Context Precision:検索したコンテキストのうち、どれだけが実際に有用・適切であったかを測る指標。questionとcontextから関連度をYes/Noで判定。関連度がYesのcontext数を全context数で割る。
・Context Recall:ground truthを文単位に分割し、contextとの関連度をYes/Noで判定。関連度がYesのground truth文数を全ground truth文数で割る。
・Faithfulness:questionとanswerから、回答に用いられた文章をLLMで生成。生成した文書とcontextの関連をYes/Noで判定。
・Answer Relevancy:answerとcontextから複数の擬似質問をLLMで生成。複数の疑似質問とquestionの類似度を計算して平均を算出。
・Answer correctness:answerとground truthを、両者に含まれるもの(TP)、回答には含まれるがGround Truthにはないもの(FP)、Ground Truthには含まれるが回答にはないもの(FN)にLLMで分類。分類を基にF1値を算出。
さらに、answerとground truthのコサイン類似度を算出し、F1値とコサイン類似度の加重平均を算出。
また、pipでインストールできるため、手軽に利用することができます。
参考記事:
RAGの評価:RAGの計算指標とRagasでの計算方法
LangChainとRAGで実現する先進的なAIチャットボットの開発