ローカルAIとは(クラウドAPIとの違い、プライバシーメリット)

「ローカルAI」とは、ChatGPTやClaude.aiのようなクラウドサービスを使わず、自分のMacの中でLLM(大規模言語モデル)を動かすことです。インターネット接続なしで動作し、入力したデータは一切外部に送信されません。

クラウドAIとの主な違いは以下の通りです。

比較項目クラウドAI(ChatGPT等)ローカルAI
プライバシーデータがサーバーに送信される完全にローカル処理
コストAPI利用料(月数千〜数万円)電気代のみ(月数百円)
速度ネットワーク遅延ありハードウェア依存、遅延なし
カスタマイズ制限ありモデル・パラメーター自由
オフライン不可可能

Apple SiliconのMac miniやMac Studioは、Unified MemoryアーキテクチャによりCPUとGPUがメモリを共有します。これにより、NvidiaのGPUがなくても効率的にLLMを動かせるため、ローカルAI用途に非常に向いています。

Ollamaのインストールと使い方

Ollamaはコマンドライン操作でローカルLLMを管理・実行するツールです。Docker感覚でモデルをpull・runでき、エンジニアに特に人気があります。APIサーバーとしても動作するため、自作アプリとの連携も簡単です。

Ollamaのインストール

Homebrewを使う方法と公式サイトからダウンロードする方法があります。

方法1: Homebrewを使う(推奨)

# Homebrewが未インストールの場合は先にインストール
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

# Ollamaインストール
brew install ollama

方法2: 公式サイトからダウンロード

ollama.com にアクセスし「Download for Mac」をクリック。.dmgファイルをダウンロードしてインストールします。

インストール後、メニューバーにラマのアイコンが表示されれば成功です。

最初のモデルを動かす

ターミナルを開いて以下のコマンドを実行します。初回はモデルのダウンロードが始まります(数分かかります)。

# Llama 3.2 3Bを動かす(メモリ8GB以上で動作)
ollama run llama3.2

# メモリ16GB以上なら7Bモデルも試せる
ollama run llama3.2:7b

# 動作速度を確認するオプション
ollama run llama3.2 --verbose

プロンプトが表示されたら日本語で話しかけてみましょう。/bye で終了します。

便利なコマンド一覧

  • ollama list:インストール済みモデルの一覧
  • ollama pull mistral:モデルをダウンロード
  • ollama rm llama3.2:モデルを削除
  • ollama serve:APIサーバーをバックグラウンド起動(ポート11434)
Unified Memoryおすすめモデル用途速度目安
8GBllama3.2:3b, phi3:mini軽いQ&A、コード補完20〜40 tok/s
16GBllama3.1:8b, mistral:7b汎用チャット、文書要約25〜45 tok/s
32GBllama3.1:8b (q8), gemma2:9b高品質チャット30〜55 tok/s
64GBllama3.1:70b (q4), mixtral:8x7b高精度推論、コード生成10〜25 tok/s
96GB以上llama3.1:70b (q8), llama3.3:70bほぼGPT-4相当の品質15〜35 tok/s

LM Studioのインストールと使い方

LM StudioはGUIベースでローカルLLMを管理・チャットできるアプリです。Hugging Faceからモデルを直接ダウンロードして、ブラウザのようなチャット画面で使えます。コマンドラインが苦手な方に特に向いています。

LM Studioのインストール

  1. lmstudio.ai にアクセスして「Download for Mac」をクリック
  2. ダウンロードした .dmg ファイルを開き、アプリケーションフォルダにドラッグ
  3. 初回起動時にAppleが「開発元を確認できない」と表示する場合は、「システム設定」→「プライバシーとセキュリティ」から「このまま開く」を選択

起動すると洗練されたUIが表示されます。左サイドバーからモデルの検索・ダウンロード・チャットなどの機能を切り替えられます。

モデルのダウンロードとチャット

  1. 左サイドバーの「Discover(双眼鏡アイコン)」をクリック
  2. 検索バーに「llama」「mistral」「gemma」などと入力
  3. モデルをクリックして詳細画面を開き、「Download」ボタンを押す(サイズに注意:Q4量子化で4〜8GB程度が多い)
  4. ダウンロード完了後、左サイドバーの「Chat(吹き出しアイコン)」をクリック
  5. 上部のドロップダウンでダウンロードしたモデルを選択して「Load」
  6. チャット入力欄が表示されたら使用開始。日本語で話しかけてOK

Ollamaが向く人 vs LM Studioが向く人

特徴Ollama向きLM Studio向き
操作方法コマンドライン派GUI派(操作が視覚的)
連携API経由で自作アプリと連携したい単体で快適にチャットしたい
モデル管理シンプルなCLIコマンドで完結HuggingFaceのモデルを直感的に選べる
自動化シェルスクリプトやPythonからAPI呼び出し可主にインタラクティブ利用
Web UIOpen WebUI等を別途インストールアプリ内に内蔵

どちらも同時インストールして使い分けることが可能です。日常のチャットはLM Studio、開発・自動化にはOllama APIを使う、という組み合わせが最も実用的です。

数百種類のオープンソースモデルの中から、Mac Clawユーザーに特におすすめのモデルを3つ紹介します。

  • Llama 3.2 3B(Meta)ollama run llama3.2 で即試せる入門モデル。8GBメモリでも快適に動作し、日本語もそこそこ理解します。まず「ローカルAIが動く」体験をするのに最適。
  • Mistral 7B Instruct(Mistral AI):7Bクラスで最もバランスが良いモデルの一つ。英語コードの生成・説明能力が高く、エンジニア用途に向いています。16GB以上のメモリを持つMacでの第一候補。
  • Llama 3.1 70B(Meta):64GB以上のメモリがあれば動かせる高性能モデル。Q4量子化版なら40GBほどのメモリで動作します。実用レベルの推論・コード生成・文書処理が可能で、GPT-3.5相当以上の品質を体感できます。

トラブルシューティング(メモリ不足、モデルが遅い)

ローカルLLMでよく起きる問題と対処法をまとめます。

エラー:「out of memory」「model too large」

選択したモデルがMacのUnified Memoryに収まりきらない場合に発生します。解決策は以下の通りです。

  • より小さいモデルを選ぶ(例:70B → 8B → 3B)
  • より高い量子化レベル(低精度)のモデルを使う(q8 → q4 → q2)
  • 実行中の他のアプリを終了してメモリを解放する
  • モデルのパラメーター数 × 0.6 GB がおおよその必要メモリ量の目安

モデルの生成速度が非常に遅い(1 tok/s以下)

通常、Apple SiliconのMacでは3B〜7Bクラスのモデルが15〜50 tok/sで動作します。極端に遅い場合は以下を確認してください。

  • OllamaがGPU(Metal)を使っているか確認:ollama run llama3.2 --verboseeval rate を確認
  • Activity Monitorを開き「GPU」タブでGPU使用率が上がっているか確認
  • モデルがRAMではなくスワップ(SSD)にロードされていないか確認:vm_stat コマンドでページングが多い場合はモデルが大きすぎる
  • Ollamaのバージョンを最新にアップデート:brew upgrade ollama