生成AIエンジニアLab

生成AIの最新技術を、ハンズオンで解き明かす実践ラボです。
次の一歩を描きながらAI時代のキャリアを模索する羅針盤を目指します。

カテゴリ: ローカルLLM

この記事はパソコンで動くAI同士の会話アプリを作りたい人に向けたハンズオン解説です。

前の記事:OllamaでローカルLLM同士で宗教間対話させてみた(llama3.2/gemma)

1. どんなアプリを作るの?

キングダムで有名な秦王嬴政と楚の使者の AI が、交互にセリフを言い合います。画面には吹き出しが出て、VoiceVox でセリフが読み上げられます。AI同士で会話をさせ、その様子を見て聞くイメージです。完成した画面は以下になります。
スクリーンショット 2025-04-22 200729続きを読む

Windows環境で、OllamaでローカルLLMを動かす方法を解説します。

1. Ollamaとは

Ollamaは、ローカルLLMを動作・管理するソフトウェアです。

推論処理が高速:LLMの推論を高速に行うllama.cpp を実行基盤に動作。
インストールが簡単:Ollamaのインストーラは、パソコンのGPU環境を自動的に判別。
幅広いローカルLLMを選べる:Ollamaでサポートするモデルに加え、Hugging FaceのLLMモデルも容易に動かせる。

GGUF形式のモデルに対応しており、量子化にも対応しています。
メモリ要件の目安として、8GB RAM なら7Bパラメータのモデルを動かせますが、14Bパラメータのモデルの場合は 16GB 以上が推奨されます。
続きを読む

ローカルLLM(Ollama)とPythonを使って、イエス・キリストと釈迦の宗教間対話させてみました。本記事では、コードの主要な部分を解説していきます。

動作環境

・Windows11 メモリ32GB
・Ollama

※ollamaのインストール方法と使い方は以下の記事をご参考ください。
OllamaをPythonから操作:WindowsでローカルLLM入門

続きを読む

DeepSeek-R1-Distill(ローカルLLM)を用いたRAGの実装方法を解説します。

参考書籍:


3つの基礎知識

ローカルLLMとは

ローカル LLMとは、クラウド環境ではなく、PCなどのローカル環境で稼働するLLMを指します。
推論時のインターネット接続が不要で、外部への情報漏洩リスクが少なく、API使用料がありません。小型モデルの場合、GPUと一定以上のメモリを持つPC(もしくはColab環境)を利用すれば無料で動かせます。
動作に必要なメモリ量は、7Bパラメータで8GB、14Bパラメータで16GBがざっくりの目安です。
続きを読む

DeepSeek-R1は、中国のAI企業DeepSeekが開発した大規模言語モデルです。オープンソースですが、数学やコーディングのタスクで、OpenAI-o1と同等の性能を達成しています。

DeepSeek-R1には、蒸留された小型モデルがいくつか提供されてます。サイバーエージェントやLightblue社が、それぞれ日本語でファインチューニングを行い、Hugging Faceで公開してくれています。

今回は日本語でファインチューニングされたDeepSeek-R1の蒸留モデルのうち、パラメータ数が7B・14B・32Bのモデルについて、日本語の出力を比較しました。

利用環境:Google Colab(Python3, A100 GPU)

①7Bモデル(DeepSeek-R1-Distill-Qwen-7B-Japanese)

モデル概要

続きを読む

↑このページのトップヘ