新規事業のつくり方

新しいことを学ぶことが好きです。今は機械学習や自然言語処理に興味があります。

カテゴリ: 生成AI

生成AIは、時々間違った情報を作り出してしまうことがあります。これを「ハルシネーション」と呼びます。この記事では、ハルシネーションがどうして起こるのか、そしてそれを防ぐ方法を説明します。

ハルシネーションが起こる理由

ハルシネーションは、大きく3つの原因で起こります。

1. LLMの学習データが原因

LLMの学習データが、ハルシネーションの大きな原因になります。

誤情報の含有: LLMが学習するデータに古い情報や誤った情報が含まれている場合、モデルはその情報を学習し、誤った答えを生成することがあります。LLMはデータ内のパターンを学習するため、誤情報であってもそれを再現してしまう可能性があります。

知識の限界: LLMが学習するデータに特定分野の知識が十分に含まれていない場合、正確な答えを出せないことがあります。この場合、モデルは他の類似した情報に基づいて推測するため、誤った情報を生成するリスクが高まります。
続きを読む

RAG (Retrieval Augmented Generation) システムの設計における失敗ポイントと、ケーススタディから得られた教訓を報告されている論文を紹介します。

タイトル:Seven Failure Points When Engineering a Retrieval Augmented Generation System

RAGシステムが失敗する理由

一般的にRAGシステムの精度が低い原因は、検索に起因する部分が大きいと言われています。RAGは、ユーザーのクエリから検索するわけですが、クエリが曖昧だと解釈が難しいですし、一方複雑なクエリも、それはそれで正確に回答するのは難しいです。

また、参照するドキュメントも様々な落とし穴があります。ドキュメントが章ごとに分かれており、内容が正しく、明確な文章で記載されていれば問題ありません。しかし、情報が古かったり、ドキュメントの形式がばらばらだったり、ページ構成が複雑だと、検索で引っ掛けるのが難しくなります。
続きを読む

Azure OpenAI Service上のGPT-4を、Pythonから利用する方法を解説します。

Azure OpenAI Serviceは、OpenAIのChatGPTやGPT-4などのモデルを、Microsoft Azure環境で利用できるサービスです。

開発者は、GPTモデルをREST APIとして利用できます。タスクとしては、テキスト生成、質問応答、文章要約、感情分析などが実現できます。また、Azureの拡張性とセキュリティ機能を利用することで、企業向けの開発が可能です。

Azure OpenAI Serviceを利用するためには、Azureサブスクリプションの登録に加え、「Azure OpenAI Serviceのアクセス申請」が必要になります。
(追記:2023年9月に、GPT-4のWaiting Listの申請が不要になりました)続きを読む

「GPT-4」という高性能な言語モデルが登場しました。
質問を投げると、人間のように問題解決してくれます。

「LLM(Large Language Models)」と言われる大規模言語モデルは、大量のテキストデータを使ってトレーニングされています。回答では大量に覚えたテキストデータから引っ張って来るわけですが、上手く汎化されており、新たなステージに入ったことを感じます。なぜあんなに自然な文章を書けるのが不思議です。今更ながらですが、LLMの記事を書いてみました。

続きを読む

↑このページのトップヘ