AI活用

買ったその日にローカルAIを動かす！Ollama / LM Studioの超簡単・導入手順

Q: Ollamaで動かしたモデルをアプリやツールから使うにはどうすればいいですか？

Ollamaは http://localhost:11434 でOpenAI互換のREST APIを公開しています。PythonのopenaiライブラリやLangChain、Open WebUI等から接続できます。ollama serve でAPIサーバーを起動し、エンドポイント /api/chat または /api/generate にリクエストを送ります。OpenAI APIの base_url を http://localhost:11434/v1 に変更するだけで既存のコードがそのまま動くケースがほとんどです。

2026-02-20 8分で読める

ローカルAIとは（クラウドAPIとの違い、プライバシーメリット）

「ローカルAI」とは、ChatGPTやClaude.aiのようなクラウドサービスを使わず、自分のMacの中でLLM（大規模言語モデル）を動かすことです。インターネット接続なしで動作し、入力したデータは一切外部に送信されません。

クラウドAIとの主な違いは以下の通りです。

比較項目	クラウドAI（ChatGPT等）	ローカルAI
プライバシー	データがサーバーに送信される	完全にローカル処理
コスト	API利用料（月数千〜数万円）	電気代のみ（月数百円）
速度	ネットワーク遅延あり	ハードウェア依存、遅延なし
カスタマイズ	制限あり	モデル・パラメーター自由
オフライン	不可	可能

Apple SiliconのMac miniやMac Studioは、Unified MemoryアーキテクチャによりCPUとGPUがメモリを共有します。これにより、NvidiaのGPUがなくても効率的にLLMを動かせるため、ローカルAI用途に非常に向いています。

Ollamaのインストールと使い方

Ollamaはコマンドライン操作でローカルLLMを管理・実行するツールです。Docker感覚でモデルをpull・runでき、エンジニアに特に人気があります。APIサーバーとしても動作するため、自作アプリとの連携も簡単です。

Ollamaのインストール

Homebrewを使う方法と公式サイトからダウンロードする方法があります。

方法1: Homebrewを使う（推奨）

# Homebrewが未インストールの場合は先にインストール
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

# Ollamaインストール
brew install ollama

方法2: 公式サイトからダウンロード

ollama.com にアクセスし「Download for Mac」をクリック。.dmgファイルをダウンロードしてインストールします。

インストール後、メニューバーにラマのアイコンが表示されれば成功です。

最初のモデルを動かす

ターミナルを開いて以下のコマンドを実行します。初回はモデルのダウンロードが始まります（数分かかります）。

# Llama 3.2 3Bを動かす（メモリ8GB以上で動作）
ollama run llama3.2

# メモリ16GB以上なら7Bモデルも試せる
ollama run llama3.2:7b

# 動作速度を確認するオプション
ollama run llama3.2 --verbose

プロンプトが表示されたら日本語で話しかけてみましょう。/bye で終了します。

便利なコマンド一覧

ollama list：インストール済みモデルの一覧
ollama pull mistral：モデルをダウンロード
ollama rm llama3.2：モデルを削除
ollama serve：APIサーバーをバックグラウンド起動（ポート11434）

メモリ容量別おすすめモデル一覧

Unified Memory	おすすめモデル	用途	速度目安
8GB	llama3.2:3b, phi3:mini	軽いQ&A、コード補完	20〜40 tok/s
16GB	llama3.1:8b, mistral:7b	汎用チャット、文書要約	25〜45 tok/s
32GB	llama3.1:8b (q8), gemma2:9b	高品質チャット	30〜55 tok/s
64GB	llama3.1:70b (q4), mixtral:8x7b	高精度推論、コード生成	10〜25 tok/s
96GB以上	llama3.1:70b (q8), llama3.3:70b	ほぼGPT-4相当の品質	15〜35 tok/s

LM Studioのインストールと使い方

LM StudioはGUIベースでローカルLLMを管理・チャットできるアプリです。Hugging Faceからモデルを直接ダウンロードして、ブラウザのようなチャット画面で使えます。コマンドラインが苦手な方に特に向いています。

LM Studioのインストール

lmstudio.ai にアクセスして「Download for Mac」をクリック
ダウンロードした .dmg ファイルを開き、アプリケーションフォルダにドラッグ
初回起動時にAppleが「開発元を確認できない」と表示する場合は、「システム設定」→「プライバシーとセキュリティ」から「このまま開く」を選択

起動すると洗練されたUIが表示されます。左サイドバーからモデルの検索・ダウンロード・チャットなどの機能を切り替えられます。

モデルのダウンロードとチャット

左サイドバーの「Discover（双眼鏡アイコン）」をクリック
検索バーに「llama」「mistral」「gemma」などと入力
モデルをクリックして詳細画面を開き、「Download」ボタンを押す（サイズに注意：Q4量子化で4〜8GB程度が多い）
ダウンロード完了後、左サイドバーの「Chat（吹き出しアイコン）」をクリック
上部のドロップダウンでダウンロードしたモデルを選択して「Load」
チャット入力欄が表示されたら使用開始。日本語で話しかけてOK

Ollamaが向く人 vs LM Studioが向く人

特徴	Ollama向き	LM Studio向き
操作方法	コマンドライン派	GUI派（操作が視覚的）
連携	API経由で自作アプリと連携したい	単体で快適にチャットしたい
モデル管理	シンプルなCLIコマンドで完結	HuggingFaceのモデルを直感的に選べる
自動化	シェルスクリプトやPythonからAPI呼び出し可	主にインタラクティブ利用
Web UI	Open WebUI等を別途インストール	アプリ内に内蔵

どちらも同時インストールして使い分けることが可能です。日常のチャットはLM Studio、開発・自動化にはOllama APIを使う、という組み合わせが最も実用的です。

最初に試すべきおすすめモデル3選

数百種類のオープンソースモデルの中から、Mac Clawユーザーに特におすすめのモデルを3つ紹介します。

Llama 3.2 3B（Meta）：ollama run llama3.2 で即試せる入門モデル。8GBメモリでも快適に動作し、日本語もそこそこ理解します。まず「ローカルAIが動く」体験をするのに最適。
Mistral 7B Instruct（Mistral AI）：7Bクラスで最もバランスが良いモデルの一つ。英語コードの生成・説明能力が高く、エンジニア用途に向いています。16GB以上のメモリを持つMacでの第一候補。
Llama 3.1 70B（Meta）：64GB以上のメモリがあれば動かせる高性能モデル。Q4量子化版なら40GBほどのメモリで動作します。実用レベルの推論・コード生成・文書処理が可能で、GPT-3.5相当以上の品質を体感できます。

トラブルシューティング（メモリ不足、モデルが遅い）

ローカルLLMでよく起きる問題と対処法をまとめます。

エラー：「out of memory」「model too large」

選択したモデルがMacのUnified Memoryに収まりきらない場合に発生します。解決策は以下の通りです。

より小さいモデルを選ぶ（例：70B → 8B → 3B）
より高い量子化レベル（低精度）のモデルを使う（q8 → q4 → q2）
実行中の他のアプリを終了してメモリを解放する
モデルのパラメーター数 × 0.6 GB がおおよその必要メモリ量の目安

モデルの生成速度が非常に遅い（1 tok/s以下）

通常、Apple SiliconのMacでは3B〜7Bクラスのモデルが15〜50 tok/sで動作します。極端に遅い場合は以下を確認してください。

OllamaがGPU（Metal）を使っているか確認：ollama run llama3.2 --verbose で eval rate を確認
Activity Monitorを開き「GPU」タブでGPU使用率が上がっているか確認
モデルがRAMではなくスワップ（SSD）にロードされていないか確認：vm_stat コマンドでページングが多い場合はモデルが大きすぎる
Ollamaのバージョンを最新にアップデート：brew upgrade ollama

よくある質問

Ollamaで動かしたモデルをアプリやツールから使うにはどうすればいいですか？

Ollamaは http://localhost:11434 でOpenAI互換のREST APIを公開しています。PythonのopenaiライブラリやLangChain、Open WebUI等から接続できます。ollama serve でAPIサーバーを起動し、エンドポイント /api/chat または /api/generate にリクエストを送ります。OpenAI APIの base_url を http://localhost:11434/v1 に変更するだけで既存のコードがそのまま動くケースがほとんどです。

日本語の応答品質が低い場合、どうすれば改善できますか？

日本語能力はモデルによって大きく異なります。日本語が得意なモデルとして「Llama 3.1（Metaが日本語学習データを含む）」「Qwen 2.5（Alibabaの多言語モデル）」などが評価されています。また、システムプロンプトに「必ず日本語で答えてください」と明示することも有効です。LM Studioのチャット設定から「System Prompt」を追加できます。

Ollamaと公式ChatGPTアプリを同時に使っても問題ありませんか？

まったく問題ありません。OllamaはローカルでAPIサーバーとして動作するため、ブラウザ上のChatGPTと共存できます。MacのリソースはOllamaが推論処理中に多く消費しますが、ChatGPTアプリはクラウド側で処理するため、Mac本体のリソースにほとんど影響しません。

スペックを持て余したMac、次のギークへ。

AI環境構築に特化したマーケットプレイスで、あなたのMacの本当の価値を引き出しませんか？

今すぐ出品する商品を探す

今すぐ出品する

ローカルAIとは（クラウドAPIとの違い、プライバシーメリット）
Ollamaのインストールと使い方
LM Studioのインストールと使い方
Ollamaが向く人 vs LM Studioが向く人
最初に試すべきおすすめモデル3選
トラブルシューティング（メモリ不足、モデルが遅い）
よくある質問