新規事業のつくり方

新しいことを学ぶことが好きです。今は機械学習や自然言語処理に興味があります。

カテゴリ: 人工知能

OpenAIのRAG(Retrieval Augmented Generation、検索拡張生成)を紹介します。
RAGの手法により、企業の社内文書や最新ニュースなど、GPTが学習していない独自の知識を元に、回答することが可能です。

RAG(Retrieval Augmented Generation)とは

質問文に対し、検索した参考情報(Context)を付けてLLMに質問する仕組みがRAGです。RAGは質問タスクを、Contextの要約タスクに変換していると言えます。

RAGは、「DB登録」「検索」「生成」の3つのステップを経て、質問に対する答えを生成します。
「DB登録」では、社内文書を分割(チャンク)してベクトルDBに格納します。ベクトル化にはLLMが用いられることが多いです。
「検索」では、質問文との類似度を検索(Retrieval)し、関連文書を抽出します。
「生成」では、取得したチャンクを元に、LLMが自然な回答文章を作ります。
続きを読む

書籍「レジリエンスの心理学」を読みました。本書の内容から受けた示唆を元に、人間の心理をデータサイエンスの観点から考察を試みました。

レジリエンスの心理学
金子書房
2022-10-14





続きを読む

Azure OpenAI Service上のGPT-4を、Pythonから利用する方法を解説します。

Azure OpenAI Serviceは、OpenAIのChatGPTやGPT-4などのモデルを、Microsoft Azure環境で利用できるサービスです。

開発者は、GPTモデルをREST APIとして利用できます。タスクとしては、テキスト生成、質問応答、文章要約、感情分析などが実現できます。また、Azureの拡張性とセキュリティ機能を利用することで、企業向けの開発が可能です。

Azure OpenAI Serviceを利用するためには、Azureサブスクリプションの登録に加え、「Azure OpenAI Serviceのアクセス申請」が必要になります。
(追記:2023年9月に、GPT-4のWaiting Listの申請が不要になりました)続きを読む

「GPT-4」という高性能な言語モデルが登場しました。
質問を投げると、人間のように問題解決してくれます。

「LLM(Large Language Models)」と言われる大規模言語モデルは、大量のテキストデータを使ってトレーニングされています。回答では大量に覚えたテキストデータから引っ張って来るわけですが、上手く汎化されており、新たなステージに入ったことを感じます。なぜあんなに自然な文章を書けるのが不思議です。今更ながらですが、LLMの記事を書いてみました。

続きを読む

機械学習界隈で、最強アルゴリズムの一角を占めていたランダムフォレスト。ディープラーニングが登場した後急速に存在感をなくすものの、その利便性と強力さから多くのデータサイエンティストが現役利用中。

scikit-learnでのランダムフォレスト、分類モデルと重要度評価の実装方法まとめました。

決定木の問題点

決定木は、上から順に条件分岐を作って分類モデルを作る手法です。ルールが可視化できる、正規化や標準化などのデータ加工が不要など、素晴らしいアルゴリズムです。
しかし、決定木は過学習を起こしやすいという問題点がありました。

前の記事:Pythonの決定木分析できのこ派とたけのこ派を予測する続きを読む

↑このページのトップヘ