Ollama・LM Studio導入前に — ローカルAIとクラウドAIの違い

「ローカルAI」とは、ChatGPTやClaude.aiのようなクラウドサービスを使わず、自分のMacの中でLLM(大規模言語モデル)を動かすことです。インターネット接続なしで動作し、入力したデータは一切外部に送信されません。

クラウドAIとの主な違いは以下の通りです。

比較項目クラウドAI(ChatGPT等)ローカルAI
プライバシーデータがサーバーに送信される完全にローカル処理
コストAPI利用料(月数千〜数万円)電気代のみ(月数百円)
速度ネットワーク遅延ありハードウェア依存、遅延なし
カスタマイズ制限ありモデル・パラメーター自由
オフライン不可可能

Apple SiliconのMac miniやMac Studioは、Unified MemoryアーキテクチャによりCPUとGPUがメモリを共有します。これにより、NvidiaのGPUがなくても効率的にLLMを動かせるため、ローカルAI用途に非常に向いています。

Ollamaインストール手順と使い方 — Mac編

Ollamaはコマンドライン操作でローカルLLMを管理・実行するツールです。Docker感覚でモデルをpull・runでき、エンジニアに特に人気があります。APIサーバーとしても動作するため、自作アプリとの連携も簡単です。

Ollamaのインストール

Homebrewを使う方法と公式サイトからダウンロードする方法があります。

方法1: Homebrewを使う(推奨)

# Homebrewが未インストールの場合は先にインストール
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

# Ollamaインストール
brew install ollama

方法2: 公式サイトからダウンロード

ollama.com にアクセスし「Download for Mac」をクリック。.dmgファイルをダウンロードしてインストールします。

インストール後、メニューバーにラマのアイコンが表示されれば成功です。

最初のモデルを動かす

ターミナルを開いて以下のコマンドを実行します。初回はモデルのダウンロードが始まります(数分かかります)。

# Llama 3.2 3Bを動かす(メモリ8GB以上で動作)
ollama run llama3.2

# メモリ16GB以上なら7Bモデルも試せる
ollama run llama3.2:7b

# 動作速度を確認するオプション
ollama run llama3.2 --verbose

プロンプトが表示されたら日本語で話しかけてみましょう。/bye で終了します。

便利なコマンド一覧

  • ollama list:インストール済みモデルの一覧
  • ollama pull mistral:モデルをダウンロード
  • ollama rm llama3.2:モデルを削除
  • ollama serve:APIサーバーをバックグラウンド起動(ポート11434)
Unified Memoryおすすめモデル用途速度目安
8GBllama3.2:3b, phi3:mini軽いQ&A、コード補完20〜40 tok/s
16GBllama3.1:8b, mistral:7b汎用チャット、文書要約25〜45 tok/s
32GBllama3.1:8b (q8), gemma2:9b高品質チャット30〜55 tok/s
64GBllama3.1:70b (q4), mixtral:8x7b高精度推論、コード生成10〜25 tok/s
96GB以上llama3.1:70b (q8), llama3.3:70bほぼGPT-4相当の品質15〜35 tok/s

LM Studioインストール手順と使い方 — Mac編

LM StudioはGUIベースでローカルLLMを管理・チャットできるアプリです。Hugging Faceからモデルを直接ダウンロードして、ブラウザのようなチャット画面で使えます。コマンドラインが苦手な方に特に向いています。

LM Studioのインストール

  1. lmstudio.ai にアクセスして「Download for Mac」をクリック
  2. ダウンロードした .dmg ファイルを開き、アプリケーションフォルダにドラッグ
  3. 初回起動時にAppleが「開発元を確認できない」と表示する場合は、「システム設定」→「プライバシーとセキュリティ」から「このまま開く」を選択

起動すると洗練されたUIが表示されます。左サイドバーからモデルの検索・ダウンロード・チャットなどの機能を切り替えられます。

モデルのダウンロードとチャット

  1. 左サイドバーの「Discover(双眼鏡アイコン)」をクリック
  2. 検索バーに「llama」「mistral」「gemma」などと入力
  3. モデルをクリックして詳細画面を開き、「Download」ボタンを押す(サイズに注意:Q4量子化で4〜8GB程度が多い)
  4. ダウンロード完了後、左サイドバーの「Chat(吹き出しアイコン)」をクリック
  5. 上部のドロップダウンでダウンロードしたモデルを選択して「Load」
  6. チャット入力欄が表示されたら使用開始。日本語で話しかけてOK

Ollama vs LM Studio 比較 — どちらを選ぶべきか

特徴Ollama向きLM Studio向き
操作方法コマンドライン派GUI派(操作が視覚的)
連携API経由で自作アプリと連携したい単体で快適にチャットしたい
モデル管理シンプルなCLIコマンドで完結HuggingFaceのモデルを直感的に選べる
自動化シェルスクリプトやPythonからAPI呼び出し可主にインタラクティブ利用
Web UIOpen WebUI等を別途インストールアプリ内に内蔵

どちらも同時インストールして使い分けることが可能です。日常のチャットはLM Studio、開発・自動化にはOllama APIを使う、という組み合わせが最も実用的です。

数百種類のオープンソースモデルの中から、Mac Clawユーザーに特におすすめのモデルを3つ紹介します。

  • Llama 3.2 3B(Meta)ollama run llama3.2 で即試せる入門モデル。8GBメモリでも快適に動作し、日本語もそこそこ理解します。まず「ローカルAIが動く」体験をするのに最適。
  • Mistral 7B Instruct(Mistral AI):7Bクラスで最もバランスが良いモデルの一つ。英語コードの生成・説明能力が高く、エンジニア用途に向いています。16GB以上のメモリを持つMacでの第一候補。
  • Llama 3.1 70B(Meta):64GB以上のメモリがあれば動かせる高性能モデル。Q4量子化版なら40GBほどのメモリで動作します。実用レベルの推論・コード生成・文書処理が可能で、GPT-3.5相当以上の品質を体感できます。

Ollama・LM Studio トラブルシューティング

ローカルLLMでよく起きる問題と対処法をまとめます。

エラー:「out of memory」「model too large」

選択したモデルがMacのUnified Memoryに収まりきらない場合に発生します。解決策は以下の通りです。

  • より小さいモデルを選ぶ(例:70B → 8B → 3B)
  • より高い量子化レベル(低精度)のモデルを使う(q8 → q4 → q2)
  • 実行中の他のアプリを終了してメモリを解放する
  • モデルのパラメーター数 × 0.6 GB がおおよその必要メモリ量の目安

モデルの生成速度が非常に遅い(1 tok/s以下)

通常、Apple SiliconのMacでは3B〜7Bクラスのモデルが15〜50 tok/sで動作します。極端に遅い場合は以下を確認してください。

  • OllamaがGPU(Metal)を使っているか確認:ollama run llama3.2 --verboseeval rate を確認
  • Activity Monitorを開き「GPU」タブでGPU使用率が上がっているか確認
  • モデルがRAMではなくスワップ(SSD)にロードされていないか確認:vm_stat コマンドでページングが多い場合はモデルが大きすぎる
  • Ollamaのバージョンを最新にアップデート:brew upgrade ollama

Ollama Web UI導入 — ブラウザからローカルAIを使う方法

Ollamaはコマンドラインツールですが、ブラウザベースのWeb UIを追加することでChatGPTのような操作感でローカルAIを使えるようになります。

Open WebUI(旧Ollama WebUI)

最も人気のあるOllama用Web UIです。チャット履歴の保存、複数モデルの切り替え、RAG(文書検索)機能などを備えています。

# Dockerを使った導入(推奨)
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui --restart always \
  ghcr.io/open-webui/open-webui:main

起動後、ブラウザで http://localhost:3000 を開くとChatGPT風のインターフェースが表示されます。OllamaのAPIサーバー(localhost:11434)に自動接続されます。

その他のWeb UI選択肢

  • Enchanted:macOS/iOS向けネイティブアプリ。App Storeから無料でダウンロード可能。iPhoneからも自宅のOllamaに接続できる
  • Chatbot Ollama:シンプルなHTML/JSベースのUI。Dockerなしで動作し、ファイルを1つ開くだけで使える

LM Studioには最初からGUIが内蔵されているため、Web UIの追加は不要です。CLI操作に慣れていない方はLM Studioから始めるのも良い選択です。

Ollama API活用 — PythonやCurlからローカルLLMを呼び出す

Ollamaは起動するだけで http://localhost:11434 にOpenAI互換のREST APIを公開します。外部アプリや自作スクリプトから簡単に利用できます。

# curlでの呼び出し例
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Pythonでフィボナッチ数列を出力するコードを書いて",
  "stream": false
}'
# Pythonでの呼び出し例(openaiライブラリ使用)
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="unused"  # Ollamaは認証不要
)

response = client.chat.completions.create(
    model="llama3.2",
    messages=[{"role": "user", "content": "Hello!"}]
)
print(response.choices[0].message.content)

OpenAI互換APIのため、既存のChatGPT/OpenAIアプリのエンドポイントをlocalhostに切り替えるだけで、多くのアプリがそのままローカルLLMで動作します。

セットアップ後の活用に役立つ関連記事です。