Windows環境で、OllamaでローカルLLMを動かす方法を解説します。
①推論処理が高速:LLMの推論を高速に行うllama.cpp を実行基盤に動作。
②インストールが簡単:Ollamaのインストーラは、パソコンのGPU環境を自動的に判別。
③幅広いローカルLLMを選べる:Ollamaでサポートするモデルに加え、Hugging FaceのLLMモデル(GGUF形式のファイルのみ)も容易に動かせる。
GGUF形式のモデルに対応しており、量子化にも対応しています。
メモリ要件の目安として、8GB RAM なら7Bパラメータのモデルを動かせますが、14Bパラメータのモデルの場合は 16GB 以上が推奨されます。
続きを読む
1. Ollamaとは
Ollamaは、ローカル環境でLLMを動作・管理するソフトウェアです。無料のOSSでです。インターネット接続のないオフライン環境で動作可能です。ただし、LLMモデルをローカルにダウンロードする際は、インターネット接続が必要です。①推論処理が高速:LLMの推論を高速に行うllama.cpp を実行基盤に動作。
②インストールが簡単:Ollamaのインストーラは、パソコンのGPU環境を自動的に判別。
③幅広いローカルLLMを選べる:Ollamaでサポートするモデルに加え、Hugging FaceのLLMモデル(GGUF形式のファイルのみ)も容易に動かせる。
GGUF形式のモデルに対応しており、量子化にも対応しています。
メモリ要件の目安として、8GB RAM なら7Bパラメータのモデルを動かせますが、14Bパラメータのモデルの場合は 16GB 以上が推奨されます。
続きを読む
