Windows環境で、OllamaでローカルLLMを動かす方法を解説します。

1. Ollamaとは

Ollamaは、ローカル環境でLLMを動作・管理するソフトウェアです。無料のOSSでMITライセンスです。インターネット接続のないオフライン環境で動作可能です。ただし、LLMモデルをローカルにダウンロードする際は、インターネット接続が必要です。

推論処理が高速:LLMの推論を高速に行うllama.cpp を実行基盤に動作。
インストールが簡単:Ollamaのインストーラは、パソコンのGPU環境を自動的に判別。
幅広いローカルLLMを選べる:Ollamaでサポートするモデルに加え、Hugging FaceのLLMモデル(GGUF形式のファイルのみ)も容易に動かせる。

GGUF形式のモデルに対応しており、量子化にも対応しています。
メモリ要件の目安として、8GB RAM なら7Bパラメータのモデルを動かせますが、14Bパラメータのモデルの場合は 16GB 以上が推奨されます。

2. Ollamaのインストールと利用方法

ここでは、Ollamaのインストール方法と利用方法を紹介します。

2.1 Ollamaのインストール

まず公式のURL にアクセスし、インストーラーをダウンロードします。


ダウンロードしたOllamaSetup.exeをダブルクリックして起動し、右下の[Install]ボタンを押下してインストールしてください。

インストールが完了したら、[Windows]キーを押下してメニューを開くと、Ollamaのアイコンが表示されます。見つからない場合は、検索画面で「ollama」と入力して探してください。

Ollamaアイコンが見つかったら、アイコンをクリックしてollamaを起動します。Ollamaは画面を持たないコマンドラインツールです。右下のシステムトレイにollamaが常駐するので、それで起動しているかどうかを確認できます。

ollamaが起動したら、コマンドプロンプトを起動し、以下のコマンドを実行してください。
ollama --version
バージョンが表示されていればインストール成功です。

2.2 Ollamaの利用方法

コマンドプロンプトからOllamaを利用します。

2.2.1 モデルを選ぶ
Ollamaのレジストリから、利用したいモデルを探します。今回はgoogle社のgemma3のモデルを選びます。
スクリーンショット 2025-06-20 201820



2.2.2 モデルをダウンロードする (pull)
ollama pull gemma3 
gemma3をローカルにダウンロードします。既にダウンロード済みの場合、モデルの最新版との差分のみ更新されます。

ollama pull gemma3:1b
公式ページを見ると、gemma3は、1B、4B、12B、27B の 4 つのサイズのパラメータがあります。何も指定しないとデフォルトの4bモデルがダウンロードされますが、例えば小さい1bモデルのパラメータのモデルをダウンロードしたい場合は、コマンドの末尾に「:1b」とパラメータ数を指定します。

2.2.3 モデルを実行する (run)
ollama run gemma3
モデルを実行します。コマンドプロンプトに、「>>>」と表示されたら、LLMモデルとチャット形式で会話できます。
チャット中は「/bye」で対話モードが終了します。「/clear」で、セッションの会話履歴をクリアできます。

2.2.4 Hugging Face Hub上のモデルを実行する (run)
ollama run hf.co/{ユーザー名}/{リポジトリ名}
Hugging Face Hub 上にある GGUF 形式のモデルも利用できます。Ollamaのレジストリで管理していないモデルを利用できます。
参考:Use Ollama with any GGUF Model on Hugging Face Hub

モデルを削除する (rm)
ollama rm gemma3
ダウンロードしたモデルを削除します。

ダウンロード済みモデルを一覧表示する (list)
ollama list
ダウンロード済みのモデル一覧を表示します。

実行中のモデル一覧を確認する (ps)
ollama ps
現在実行中のモデルが一覧表示されます。

モデルを停止する (stop)
ollama stop gemma3
現在実行中のモデルを停止します。

3. PythonからOllamaを動かす

OllamaをPythonから利用する方法を紹介します。

3.1 Pythonのインストール

Python 3.8 以降のpythonをインストールします。
公式ページにアクセスし、画像を参考に画面左上の「Downloads」にカーソルを合わせると「Python3.12.2」というボタンが出てくるのでクリックします。
「python-3.13.5-amd64.exe」というインストーラーがダウンロードされますので、インストーラーをクリックしてインストールを行います。

3.2 Ollama-pythonのインストール

コマンドプロンプトから、下記のpipコマンドを実行して、Ollama Python Libraryライブラリをインストールします。
pip install ollama

Ollama本体は、HTTPサーバとして実装されており、ローカルで起動すると11434ポートでエンドポイントを公開します。Ollama Python Libraryは、ollamaサーバへのリクエストを包んだラッパーです。1-2行のコードで簡単にリクエストできます。

3.3 Ollamaを動かすPythonコードを作成する

以下のPythonコードをテキストエディタにコピペして、ollama_python.pyで保存してください。
from ollama import chat
from ollama import ChatResponse

response: ChatResponse = chat(
    model='gemma3',
    messages=[
        {'role': 'user', 'content': 'なぜ空は青いのですか?'},
    ]
)

print(response['message']['content'])
コードの中身を解説すると、まずOllamaのLLMへ問い合わせを行うchatと、応答結果を格納するオブジェクトChatResponseをOllama Python Libraryからインポートします。

次に、chat APIで gemma3' モデルを指定し、ユーザのメッセージを渡します。モデルから返ってきた応答は、responseに格納されます。なおChatResponseの型アノテーションは、ollama のchat関数を使った際に返される応答の型になります。

3.4 PythonからOllamaを動かす

コマンドプロンプトで、3.3で作成したPythonコードがあるフォルダに移動し、以下のコマンドを実行すると、Ollamaサーバにリクエストしてgemma3が処理した回答が表示されます。
python ollama_python.py

gemma3から以下のような回答が返ってきます。
空が青く見える理由は、主に「レイリー散乱」という現象によるものです。詳しくご説明します。

1. **太陽光のスペクトル:** 太陽光は、実際には様々な色の光が混ざり合ってできています。虹の色(赤、橙、黄、緑、青、藍
、紫)と同じような色の光が含まれています。

2. **大気中の分子との衝突:** 太陽光が大気中の分子(主に窒素や酸素)に当たると、光は四方八方に散らばります。これを「
散乱」と呼びます。

3. **レイリー散乱:** 光の散乱にはいくつかの種類がありますが、太陽光の波長が短い青い光ほど、長い赤い光よりも強く散乱
されます。これは、散乱の強さは波長の逆数に反比例するためです。(波長が短いほど散乱されやすい)

4. **青い光の拡散:** したがって、太陽光が大気中を通過する際に、青い光が他の色よりもずっと強く散乱され、空全体に広ま
ってしまいます。そのため、私たちの目には空が青く見えるのです。

**なぜ夕焼けは赤いのか?**

夕焼けや日の出の時は、太陽光が大気中を通過する距離が長くなります。その間に、青い光はさらに散乱されてしまい、私たちの
目に届きにくくなります。一方、波長の長い赤い光は散乱されにくいため、比較的まっすぐ進むことができます。そのため、赤い
光が私たちの目に届きやすくなり、空が赤く見えるのです。

**まとめ**

空が青いのは、太陽光に含まれる青い光が、大気中の分子によって強く散乱される「レイリー散乱」という現象によるものです。

まとめ

PythonからOllamaを使うことで、チャットボットやキャラクターになりきった対話など、様々なユースケースで利用できます。ローカルLLMは、クローズな環境で利用でき、API費用が掛からないため、自由気ままに遊べるところが利点です。

関連記事:Ollama×Streamlit×VoiceVoxで作るローカルLLM音声対話アプリ【完全ハンズオン】

【PR】電子書籍を出版しました

ローカルLLMの環境構築から音声対話までを最短で通したい方へ。
拙著[ゼロから始めるローカルLLM  Pythonで動かすOllamaとVOICEVOX]では、ローカルLLMの入門書として、Ollama導入、VOICEVOXでの読み上げ、チャットアプリ完成までを、つまずきやすい点まで具体的に解説しました。