購入ガイド

ローカルLLMに必須の「メモリ（RAM）」容量は結局どれくらい？

2026-02-20 8分で読める

ローカルLLMとメモリの基本 — なぜメモリが重要か

ローカルLLM（大規模言語モデル）を動かすにあたって、最も重要なハードウェアスペックのひとつがメモリ（RAM）です。LLMはテキストを生成するたびに、モデルの「重み（weights）」と呼ばれる巨大なデータを読み出す必要があります。この重みデータは全てメモリ上に展開されている必要があるため、モデルのサイズよりもメモリ容量が小さい場合、LLMはそもそも動作しません。

クラウドのAI API（OpenAI、Anthropicなど）を使う場合、メモリはサービス提供側のサーバーが持っているため、ユーザーは意識する必要がありません。しかし、OpenClawやOllamaでローカル実行する場合は、あなたのマシンのメモリが直接LLMの動作可否を決定します。

さらにApple Siliconでは、CPUとGPUが同一のメモリ（Unified Memory）を共有しています。これはWindowsのようにCPUメモリとGPUメモリが分離している構成とは根本的に異なります。Mac miniのメモリはそのままGPUメモリとして機能するため、MacのRAMはNvidiaのVRAMと等価に扱えます。これがApple Siliconがローカル推論に強い最大の理由です。

モデルサイズ別の必要メモリ量

モデルサイズと量子化レベルによって、必要なメモリ量は大きく変わります。以下の表で確認しましょう。

パラメータ数	代表モデル	Q4量子化（推奨）	Q8量子化	Float16（無圧縮）	最低推奨メモリ
3B	Gemma 3 3B、Phi-4-mini	約2GB	約3.5GB	約6GB	8GB
7B	Llama 3.1 8B、Mistral-7B、Qwen2.5-7B	約4.5GB	約8GB	約14GB	16GB
13B	Llama-2-13B、Phi-3-medium	約8GB	約14GB	約26GB	16〜24GB
30B	Mixtral-8x7B、Qwen2.5-32B	約20GB	約34GB	約60GB	32GB
70B	Llama 3.1 70B、Qwen2.5-72B	約40GB	約75GB	約140GB	64GB
405B	Llama 3.1 405B	約230GB	—	—	128GB以上

「最低推奨メモリ」はモデルを動かすだけでなく、OSや他のアプリが使うメモリ（通常4〜6GB程度）を含めた目安です。例えば7Bモデル（Q4）は4.5GBですが、OSが4GB使えば合計8.5GBになるため、8GBマシンではスワップ（ディスク上のメモリ代替）が発生し、速度が激遅になります。

Apple Silicon Unified Memoryの特殊性

Apple SiliconのUnified Memoryは、一般的なPCのメモリとは根本的に異なる設計です。理解しておくべきポイントを整理します。

メモリ帯域幅がボトルネックになる

LLM推論の速度を決定するのは、メモリ容量よりもメモリ帯域幅（GB/s）です。M1（68 GB/s）とM1 Max（400 GB/s）では、同じ16GBのメモリを積んでいても推論速度が約6倍異なります。これはM1 Maxの方がより速いペースでモデル重みを読み出せるためです。チップのグレード選びでは、Max/Ultra/Proの違いに注目してください。

Unified Memoryは全てのアプリが共有します。macOSは通常4〜6GBを使用し、Chrome（タブが多いと10GB以上）やXcodeなどの重いアプリが動いているとさらに消費します。LLMを動かす際は他のメモリ消費アプリをなるべく閉じることをお勧めします。特にメモリ16GBの場合は、LLM実行中はブラウザタブを最小限にしてください。

量子化（Q4/Q8）で必要メモリを減らす

量子化（Quantization）とは、モデルの重みデータを圧縮する技術です。元のFloat32データ（32ビット浮動小数点）をより少ないビット数に変換することで、ファイルサイズとメモリ使用量を削減します。

Q4（4ビット量子化）：元のサイズの約1/8。品質の低下は軽微で、実用上ほとんど差が感じられない。最もよく使われる
Q5：Q4とQ8の中間。Q4よりわずかに品質が高い
Q8（8ビット量子化）：元のサイズの約1/4。品質はほぼ無損失に近いが、メモリ消費が多い
Float16（fp16）：量子化なし。最高品質だが消費メモリが最大

Ollamaでモデルをダウンロードする場合、デフォルトでQ4_K_M（Q4の改良版）が選ばれます。実用上、Q4でほとんどのタスクは十分に対応できます。「クリエイティブな文章生成」や「コーディング」などの精度が重要なタスクにはQ8を使うという使い分けも有効です。

メモリ32GBと64GBの使用感の違い

「32GBで十分か、64GBにすべきか」はよく聞かれる質問です。用途によって判断が分かれます。

観点	32GB	64GB
7B〜13Bモデル	快適に動作	快適に動作（余裕あり）
30B〜34Bモデル（Q4）	動作可能（余裕なし）	快適に動作
70Bモデル（Q4）	動作不可	動作可能（ギリギリ）
複数モデル並列	1〜2モデルのみ	2〜3モデル同時
OpenClaw マルチエージェント	軽量構成のみ	本格的な構成が可能
将来のモデル対応	3年程度	5年以上

結論として、日常的なAI作業（コーディング補助、文章生成）には32GBで十分です。しかし、70Bクラスの高性能モデルを試したい、OpenClawのマルチエージェント構成を本格運用したい、将来にわたって最新モデルに対応したい、という方には64GB以上を強くお勧めします。

結論：何GB買えばいいか

用途別の推奨メモリをまとめます。

AIを試してみたいだけ（入門）：16GB。7Bモデルが動き、Ollamaの基本的な使い方が学べる
日常的にローカルAIを使いたい：32GB。13〜30BモデルをQ4で動かせる。OpenClawの基本的な使用に十分
本格的なAI開発・マルチエージェント構成：64GB。70Bモデルも動き、複数モデルの並列処理が可能
AI研究・フル品質での推論・商用サーバー：96〜192GB。量子化なしのモデルや超大規模モデルに対応

Mac Clawでは、メモリ容量を絞って商品を検索できます。商品一覧で条件を指定して理想のMacを探してみてください。

よくある質問

メモリ8GBのMac miniでローカルLLMは動きますか？

動作しますが、非常に限られた用途に限られます。3Bクラスの小さなモデル（Phi-4-mini等）であればQ4量子化で動作しますが、OSとのメモリ競合でスワップが発生すると速度が激遅になります。快適に使うには最低16GB、できれば24GB以上を推奨します。

メモリは後から増やせますか？

Apple Silicon搭載のMac mini / Mac Studioはメモリを後付けで増設することができません。購入時のメモリ容量が最終的な容量になります。これがMacの大きな制約のひとつです。将来的な使用を見越して、最初から余裕のあるメモリ容量を選ぶことを強くお勧めします。

Windowsに同じ容量のメモリを積めばMacと同じ性能が出ますか？

残念ながらそうはなりません。WindowsのDDR5 RAMはCPUメモリとGPUメモリが分離しており、LLM推論ではGPUのVRAMしか使えません。RTX 4090のVRAM 24GBに対し、MacのUnified Memoryは最大192GBまで拡張できます。さらに帯域幅もApple Siliconの方が広い場合が多く、LLM推論の効率性という点ではApple Siliconが現時点で有利です。

スペックを持て余したMac、次のギークへ。

AI環境構築に特化したマーケットプレイスで、あなたのMacの本当の価値を引き出しませんか？

今すぐ出品する商品を探す

今すぐ出品する

ローカルLLMとメモリの基本 — なぜメモリが重要か
モデルサイズ別の必要メモリ量
Apple Silicon Unified Memoryの特殊性
量子化（Q4/Q8）で必要メモリを減らす
メモリ32GBと64GBの使用感の違い
結論：何GB買えばいいか
よくある質問

ローカルLLMとメモリの基本 — なぜメモリが重要か

モデルサイズ別の必要メモリ量

Apple Silicon Unified Memoryの特殊性

メモリ帯域幅がボトルネックになる

OSとLLMがメモリを共有する

量子化（Q4/Q8）で必要メモリを減らす

メモリ32GBと64GBの使用感の違い

結論：何GB買えばいいか

よくある質問

関連記事

M1, M2, M4チップ徹底比較！AI用途でコスパ最強のMac選び

個人間売買で中古Macを買うときの「絶対に確認すべき」チェックポイント

Macの内蔵ストレージは高すぎる？AIモデル保存用「外付けSSD」の選び方

OpenClawを快適に動かす！ローカルAI向けMac miniの推奨スペック完全ガイド

スペックを持て余したMac、次のギークへ。