買ったその日にローカルAIを動かす！Ollama / LM Studioの超簡単・導入手順

Q: Ollamaで動かしたモデルをアプリやツールから使うにはどうすればいいですか？

Ollamaは http://localhost:11434 でOpenAI互換のREST APIを公開しています。PythonのopenaiライブラリやLangChain、Open WebUI等から接続できます。ollama serve でAPIサーバーを起動し、エンドポイント /api/chat または /api/generate にリクエストを送ります。OpenAI APIの base_url を http://localhost:11434/v1 に変更するだけで既存のコードがそのまま動くケースがほとんどです。

Q: モデルのアップデートはどうすればいいですか？

Ollamaの場合は ollama pull モデル名 を再実行すると最新版がダウンロードされます。既存のモデルは自動的に上書きされます。LM Studioの場合はDiscoverタブで同じモデルの新しいバージョンが公開されていないか確認し、手動でダウンロードしてください。

AI活用 2026/03/05 12分で読める

Ollama・LM Studio導入前に — ローカルAIとクラウドAIの違い

「ローカルAI」とは、ChatGPTやClaude.aiのようなクラウドサービスを使わず、自分のMacの中でLLM（大規模言語モデル）を動かすことです。インターネット接続なしで動作し、入力したデータは一切外部に送信されません。

クラウドAIとの主な違いは以下の通りです。

比較項目	クラウドAI（ChatGPT等）	ローカルAI
プライバシー	データがサーバーに送信される	完全にローカル処理
コスト	API利用料（月数千〜数万円）	電気代のみ（月数百円）
速度	ネットワーク遅延あり	ハードウェア依存、遅延なし
カスタマイズ	制限あり	モデル・パラメーター自由
オフライン	不可	可能

Apple SiliconのMac miniやMac Studioは、Unified MemoryアーキテクチャによりCPUとGPUがメモリを共有します。これにより、NvidiaのGPUがなくても効率的にLLMを動かせるため、ローカルAI用途に非常に向いています。

Ollamaインストール手順と使い方 — Mac編

Ollamaはコマンドライン操作でローカルLLMを管理・実行するツールです。Docker感覚でモデルをpull・runでき、エンジニアに特に人気があります。APIサーバーとしても動作するため、自作アプリとの連携も簡単です。

Ollamaのインストール

Homebrewを使う方法と公式サイトからダウンロードする方法があります。

方法1: Homebrewを使う（推奨）

# Homebrewが未インストールの場合は先にインストール
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

# Ollamaインストール
brew install ollama

方法2: 公式サイトからダウンロード

ollama.com にアクセスし「Download for Mac」をクリック。.dmgファイルをダウンロードしてインストールします。

インストール後、メニューバーにラマのアイコンが表示されれば成功です。

最初のモデルを動かす

ターミナルを開いて以下のコマンドを実行します。初回はモデルのダウンロードが始まります（数分かかります）。

# Llama 3.2 3Bを動かす（メモリ8GB以上で動作）
ollama run llama3.2

# メモリ16GB以上なら7Bモデルも試せる
ollama run llama3.2:7b

# 動作速度を確認するオプション
ollama run llama3.2 --verbose

プロンプトが表示されたら日本語で話しかけてみましょう。/bye で終了します。

便利なコマンド一覧

ollama list：インストール済みモデルの一覧
ollama pull mistral：モデルをダウンロード
ollama rm llama3.2：モデルを削除
ollama serve：APIサーバーをバックグラウンド起動（ポート11434）

メモリ容量別おすすめモデル一覧

Unified Memory	おすすめモデル	用途	速度目安
8GB	llama3.2:3b, phi3:mini	軽いQ&A、コード補完	20〜40 tok/s
16GB	llama3.1:8b, mistral:7b	汎用チャット、文書要約	25〜45 tok/s
32GB	llama3.1:8b (q8), gemma2:9b	高品質チャット	30〜55 tok/s
64GB	llama3.1:70b (q4), mixtral:8x7b	高精度推論、コード生成	10〜25 tok/s
96GB以上	llama3.1:70b (q8), llama3.3:70b	ほぼGPT-4相当の品質	15〜35 tok/s

LM Studioインストール手順と使い方 — Mac編

LM StudioはGUIベースでローカルLLMを管理・チャットできるアプリです。Hugging Faceからモデルを直接ダウンロードして、ブラウザのようなチャット画面で使えます。コマンドラインが苦手な方に特に向いています。

LM Studioのインストール

lmstudio.ai にアクセスして「Download for Mac」をクリック
ダウンロードした .dmg ファイルを開き、アプリケーションフォルダにドラッグ
初回起動時にAppleが「開発元を確認できない」と表示する場合は、「システム設定」→「プライバシーとセキュリティ」から「このまま開く」を選択

起動すると洗練されたUIが表示されます。左サイドバーからモデルの検索・ダウンロード・チャットなどの機能を切り替えられます。

モデルのダウンロードとチャット

左サイドバーの「Discover（双眼鏡アイコン）」をクリック
検索バーに「llama」「mistral」「gemma」などと入力
モデルをクリックして詳細画面を開き、「Download」ボタンを押す（サイズに注意：Q4量子化で4〜8GB程度が多い）
ダウンロード完了後、左サイドバーの「Chat（吹き出しアイコン）」をクリック
上部のドロップダウンでダウンロードしたモデルを選択して「Load」
チャット入力欄が表示されたら使用開始。日本語で話しかけてOK

Ollama vs LM Studio 比較 — どちらを選ぶべきか

特徴	Ollama向き	LM Studio向き
操作方法	コマンドライン派	GUI派（操作が視覚的）
連携	API経由で自作アプリと連携したい	単体で快適にチャットしたい
モデル管理	シンプルなCLIコマンドで完結	HuggingFaceのモデルを直感的に選べる
自動化	シェルスクリプトやPythonからAPI呼び出し可	主にインタラクティブ利用
Web UI	Open WebUI等を別途インストール	アプリ内に内蔵

どちらも同時インストールして使い分けることが可能です。日常のチャットはLM Studio、開発・自動化にはOllama APIを使う、という組み合わせが最も実用的です。

Ollama・LM Studio おすすめモデル3選

数百種類のオープンソースモデルの中から、Mac Clawユーザーに特におすすめのモデルを3つ紹介します。

Llama 3.2 3B（Meta）：ollama run llama3.2 で即試せる入門モデル。8GBメモリでも快適に動作し、日本語もそこそこ理解します。まず「ローカルAIが動く」体験をするのに最適。
Mistral 7B Instruct（Mistral AI）：7Bクラスで最もバランスが良いモデルの一つ。英語コードの生成・説明能力が高く、エンジニア用途に向いています。16GB以上のメモリを持つMacでの第一候補。
Llama 3.1 70B（Meta）：64GB以上のメモリがあれば動かせる高性能モデル。Q4量子化版なら40GBほどのメモリで動作します。実用レベルの推論・コード生成・文書処理が可能で、GPT-3.5相当以上の品質を体感できます。

Ollama・LM Studio トラブルシューティング

ローカルLLMでよく起きる問題と対処法をまとめます。

エラー：「out of memory」「model too large」

選択したモデルがMacのUnified Memoryに収まりきらない場合に発生します。解決策は以下の通りです。

より小さいモデルを選ぶ（例：70B → 8B → 3B）
より高い量子化レベル（低精度）のモデルを使う（q8 → q4 → q2）
実行中の他のアプリを終了してメモリを解放する
モデルのパラメーター数 × 0.6 GB がおおよその必要メモリ量の目安

モデルの生成速度が非常に遅い（1 tok/s以下）

通常、Apple SiliconのMacでは3B〜7Bクラスのモデルが15〜50 tok/sで動作します。極端に遅い場合は以下を確認してください。

OllamaがGPU（Metal）を使っているか確認：ollama run llama3.2 --verbose で eval rate を確認
Activity Monitorを開き「GPU」タブでGPU使用率が上がっているか確認
モデルがRAMではなくスワップ（SSD）にロードされていないか確認：vm_stat コマンドでページングが多い場合はモデルが大きすぎる
Ollamaのバージョンを最新にアップデート：brew upgrade ollama

Ollama Web UI導入 — ブラウザからローカルAIを使う方法

Ollamaはコマンドラインツールですが、ブラウザベースのWeb UIを追加することでChatGPTのような操作感でローカルAIを使えるようになります。

Open WebUI（旧Ollama WebUI）

最も人気のあるOllama用Web UIです。チャット履歴の保存、複数モデルの切り替え、RAG（文書検索）機能などを備えています。

# Dockerを使った導入（推奨）
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui --restart always \
  ghcr.io/open-webui/open-webui:main

起動後、ブラウザで http://localhost:3000 を開くとChatGPT風のインターフェースが表示されます。OllamaのAPIサーバー（localhost:11434）に自動接続されます。

その他のWeb UI選択肢

Enchanted：macOS/iOS向けネイティブアプリ。App Storeから無料でダウンロード可能。iPhoneからも自宅のOllamaに接続できる
Chatbot Ollama：シンプルなHTML/JSベースのUI。Dockerなしで動作し、ファイルを1つ開くだけで使える

LM Studioには最初からGUIが内蔵されているため、Web UIの追加は不要です。CLI操作に慣れていない方はLM Studioから始めるのも良い選択です。

Ollama API活用 — PythonやCurlからローカルLLMを呼び出す

Ollamaは起動するだけで http://localhost:11434 にOpenAI互換のREST APIを公開します。外部アプリや自作スクリプトから簡単に利用できます。

# curlでの呼び出し例
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Pythonでフィボナッチ数列を出力するコードを書いて",
  "stream": false
}'

# Pythonでの呼び出し例（openaiライブラリ使用）
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="unused"  # Ollamaは認証不要
)

response = client.chat.completions.create(
    model="llama3.2",
    messages=[{"role": "user", "content": "Hello!"}]
)
print(response.choices[0].message.content)

OpenAI互換APIのため、既存のChatGPT/OpenAIアプリのエンドポイントをlocalhostに切り替えるだけで、多くのアプリがそのままローカルLLMで動作します。

セットアップ後の活用に役立つ関連記事です。

ローカルAI向けMac推奨スペック — あなたのMacでどのモデルが動くか確認
ローカルLLMに必要なメモリ容量 — モデルサイズとメモリの関係
外付けSSDの選び方 — モデル保存用ストレージの準備
Mac mini消費電力と排熱 — 24時間稼働サーバーの実態
Nvidia GPU vs Apple Silicon比較 — 両プラットフォームの比較

よくある質問

Ollamaで動かしたモデルをアプリやツールから使うにはどうすればいいですか？

Ollamaは http://localhost:11434 でOpenAI互換のREST APIを公開しています。PythonのopenaiライブラリやLangChain、Open WebUI等から接続できます。ollama serve でAPIサーバーを起動し、エンドポイント /api/chat または /api/generate にリクエストを送ります。OpenAI APIの base_url を http://localhost:11434/v1 に変更するだけで既存のコードがそのまま動くケースがほとんどです。

日本語の応答品質が低い場合、どうすれば改善できますか？

日本語能力はモデルによって大きく異なります。日本語が得意なモデルとして「Llama 3.1（Metaが日本語学習データを含む）」「Qwen 2.5（Alibabaの多言語モデル）」などが評価されています。また、システムプロンプトに「必ず日本語で答えてください」と明示することも有効です。LM Studioのチャット設定から「System Prompt」を追加できます。

Ollamaと公式ChatGPTアプリを同時に使っても問題ありませんか？

まったく問題ありません。OllamaはローカルでAPIサーバーとして動作するため、ブラウザ上のChatGPTと共存できます。MacのリソースはOllamaが推論処理中に多く消費しますが、ChatGPTアプリはクラウド側で処理するため、Mac本体のリソースにほとんど影響しません。

OllamaとLM Studioを同時に起動しても問題ありませんか？

同時起動は可能ですが、両方でモデルをロードするとメモリを二重に消費します。メモリに余裕がある場合（64GB以上）は問題ありませんが、32GB以下の場合はどちらか一方を使用する方が安定します。どちらもAPI機能を持つため、ポートの競合には注意してください（Ollama: 11434、LM Studio: 1234がデフォルト）。

モデルのアップデートはどうすればいいですか？

Ollamaの場合は ollama pull モデル名 を再実行すると最新版がダウンロードされます。既存のモデルは自動的に上書きされます。LM Studioの場合はDiscoverタブで同じモデルの新しいバージョンが公開されていないか確認し、手動でダウンロードしてください。

Ollamaをバックグラウンドで常時起動しておくにはどうすればいいですか？

macOSのlaunchdを使う方法が最も安定します。以下の手順で設定できます。①Homebrewでインストールした場合は brew services start ollama で自動起動が設定されます。②公式サイトからインストールした場合はOllamaアプリがメニューバーに常駐し、Mac起動時に自動的にサーバーが起動します。どちらの場合も http://localhost:11434 で常にAPIが利用可能になります。

M1 Mac mini 8GBでもOllamaは使えますか？

使えます。ただし快適に動くのは3Bクラスのモデル（llama3.2:3b、phi3:miniなど）に限られます。7Bモデルはロードに時間がかかりスワップが発生する可能性が高いです。8GBでOllamaを試してみて「もっと大きなモデルを使いたい」と感じたら、メモリの大きいMacへのアップグレードを検討してください。

AI活用