生成AIエンジニアLab

生成AIの最新技術を、ハンズオンで解き明かす実践ラボです。
次の一歩を描きながらAI時代のキャリアを模索する羅針盤を目指します。

PDFファイルを参照するRAGシステムを構築する場合、PDFの前処理は重要です。その後のチャンク設計や検索品質に直結します。

一方でドキュメントの前処理の選択肢は急速に増えています。テキスト抽出、Doclingのような変換ツール、さらにLLMやVLMがPDFを直接解釈し、Markdownに変換するパターンも現実的な選択肢になっています。

そこで本記事では、READocの論文を参考に、RAG用途のPDF前処理の視点で代表的なツールを比較し、2025年時点での使い分けの指針を整理します。
続きを読む

RAGは、LLMに外部ドキュメントを参照させることで、精度と信頼性を高める代表的なアーキテクチャです。その中核にあるのが「Embeddingモデルを使ったベクトル検索」です。
しかし、Embedding検索は構造的にできない領域があります。

この記事では、OpenAIの最新Embeddingを前提に、RAGにおけるEmbedding検索のできることとできないことを整理します。この記事を読み終えると、Embeddingでどこまで頑張れるのかがイメージできるようになるはずです。

※OpenAI の最新 Embedding(embedding-3 系)は詳細なアーキテクチャ非公開ですが、代表的な研究として、MSMARCOで23.4%改善したcpt-textというモデルがあります。続きを読む

LangGraphは、複数の LLM呼び出しをグラフ構造で管理するためのライブラリです。ノード(関数)とエッジ(遷移条件)を組み合わせて、エージェントの思考フローを明示的に書けるのが特徴です。

Ollamaは、Gemma3などのLLMをローカル環境で簡単に実行できるツールです。従来はOpenAI APIなどのクラウドサービスに依存していたLLMを、完全にオフライン環境で動作させることが可能です。

本記事では、Ollamaで動かすローカルLLMとLangGraphを連携させ、「質問に応じて情報源を選び、最終回答を生成するミニAgent」を作ります。

続きを読む

この記事はパソコンだけで動くAI同士の会話アプリを作りたい人に向けたハンズオン解説です。

関連記事:VOICEVOXをPythonから音声合成する方法(Windows/Mac)

1. どんなアプリを作るの?

キングダムで有名な秦王嬴政と楚の使者の AI が、交互にセリフを言い合います。画面には吹き出しが出て、VoiceVox でセリフが読み上げられます。AI同士で会話をさせ、その様子を見て聞くイメージです。完成した画面は以下になります。
スクリーンショット 2025-04-22 200729続きを読む

「AIを使って稼ぎたい。でも何をやればいいのか分からない…」
そんな悩みを持つあなたに向けて、ローカルLLMを利用した“副業アイデア製造機”を作ってみました。

ローカルLLMには、Gemma3を採用しました。Gemma3は軽量なローカルLLMでありながら、Chatbot Arenaでo1-previewモデルより上位の評価を受けています。人間の評価において、最新のクラウド型モデルと遜色ない会話ができます。また、短いトークン数での文章理解や知識蒸留で工夫されており、メモリ効率が極めて高いことが特徴です。

本アプリは、あなたのパソコン上で、Gemma3モデル2機が、Streamlit上で自動対話させることで、【ひらめき → 深掘り → 要約】をループしながら、アイデアを連続で生み出します

・ネット接続もAPI代も不要。
・自分のPC上で、好きなだけ回せる。
・“副業のタネ”を見つけたら、あとは行動するだけ。

この記事では、副業アイデア製造機の使い方を解説します。

続きを読む

AIエージェント設計とは何か

AIエージェントとは、複雑なタスクや目標を達成するために、「必要な行動を自ら決定し、自ら実行する」システムのことを指します。

たとえばChatGPTも、必要に応じてネット検索を行って回答を生成しますが、企業でAIエージェントを活用する場合には、企業固有の情報を活用できなければ意味がありません。 業務マニュアルを検索したり、データベースを参照したり、業務的な観点で判断して回答することが求められます。

つまり、LLM(大規模言語モデル)を業務用途に特化した応答ができるように設計することがAIエージェントの設計業務です。

続きを読む

RAGの評価フレームワークであるRAGASについて解説します。

RAGシステムの評価は人間の目視評価が主流

従来のRAG(Retrieval-Augmented Generation)システムの評価は、人間の目視評価が主流でした。生成された回答の品質を人間が個別に評価する手法です。しかし、このアプローチにはいくつかの課題があります。

目視評価の課題
・時間とコスト:大量のデータを評価するには多くの時間とコストがかかる
・一貫性の欠如:評価者間の主観的な違いにより、一貫した評価が難しい

これらの課題を解決するために、RAGを自動評価できるRagas(Retrieval augmented generation assessment)が登場しました。
続きを読む

本記事では、Azure AI Document IntelligenceとLangChainを活用したRAG(Retrieval-Augmented Generation)の構築手順を解説します。
特に、AI Document IntelligenceによるドキュメントのMarkdown変換と、LangChainを用いたチャンク分割の方法をご紹介します。

Azure AI Document Intelligenceとは

Azure Document Inteligenceとは、pdf や画像ファイルから情報抽出するOCRサービスです。取得可能な情報として、テキスト、テーブル、段落、座標、レイアウト情報を抽出できます。一般的な文章の文字起こしや、領収書や請求書などの読み取りなど様々なデータの処理が可能です。

様々な事前学習済みのモデルが提供されており、例えばLayoutモデルを用いると、文書構造(レイアウト情報)を保ったまま、Markdown の形式で抽出することが可能です。
Markdown の形式で抽出し、#、##等の見出しで分割することで、セマンティックチャンキングが可能となります。

続きを読む

本記事では、Azure AI SearchとLangChainを使用して、RAGシステムを構築する方法を解説します。

RAGは生成AIの精度を向上させるための有力な技術であり、Azure AI Searchの強力な検索機能とLangChainを組み合わせることで、効率的で高精度な情報検索と生成が可能になります。

前の記事:Azure AI Document IntelligenceとLangChainを活用したRAGの実装

Azure AI Searchとは

Azure AI Searchはクラウド型の検索サービスです。キーワード検索、ベクトル検索、ハイブリッド検索、セマンティック検索(意味的な再ランク付け)を利用できます。

Azure AI Searchでは、インデックス内に複数のJSON形式のドキュメントを格納する形式でデータを保存します。インデックスは、フィールド名、データ型(String, Int, Double等)、フィールド属性(検索可能,フィルター可能,ソート可能,キー等)を設定して作成します。 
続きを読む

本記事は、IT業界未経験で転職を考えている人向けの記事です。

最近のChatGPTなどの生成AIの発展を見て、IT業界に興味を持ち、転職を考えられている方もいらっしゃるかと思います。

ただ、IT業界の仕事について、「そもそも自分に向いてるのかな?」と不安に思うこともあるかもしれません。ここでは、これからIT業界で活躍できるかどうかの判断軸を、整理してみました。転職を考える際の判断の参考にしてください。

参考記事:未経験から生成AIエンジニアになる方法
続きを読む

↑このページのトップヘ