Whisperのローカル環境への導入手順や他ツールとの比較をわかりやすく解説しています。

Whisperって、本当にタダで使えるのか。しかも自分のPCの中だけで完結するのか。音声の文字起こしを調べていると、たいていここでつまずきます。答えを先に言うと、できます。OpenAIが公開している音声認識モデルWhisperを、ローカルで無料で動かす方法を、2026年時点の情報で整理しました。Pythonと聞いて身構えた人も、やることは意外とシンプルなので、まず最後まで読んでみてください。

※本記事にはアフィリエイトリンクが含まれます。

そもそもWhisperって何ができる？
料金と機能：どこまでが無料なのか
ローカルでのWhisper導入手順
つまずきやすいポイント
他の選択肢との違い
結局、どんな人に向いている？
よくある質問
まとめ

そもそもWhisperって何ができる？

Whisperは、OpenAIが2022年に公開したオープンソースの音声認識モデルです。ざっくり言うと、音声ファイルを放り込むと文字に書き起こしてくれるAI。MITライセンスなので、個人でも商用でも無料で使えます。ここが一番おいしいところ。

対応言語は日本語を含む約100言語。会議の録音、インタビュー、動画の字幕作成あたりで使われています。

モデルにはtiny・base・small・medium・large（large-v3など）とサイズの段階があって、小さいほど速く、大きいほど正確、というトレードオフ。手元のPCに合わせて選べるのは、ローカルで動かすからこその自由度です。

2026年現在も公式GitHubは更新が続いていて、faster-whisperやWhisper.cppといった派生ツールのコミュニティも元気。1回公開されて放置、というよくあるパターンとは違うのが安心材料です。

料金と機能：どこまでが無料なのか

ここが地味に混乱しやすいので先に整理します。

Whisper本体（GitHubで公開されているソフト）は、ダウンロードも利用も完全無料。一方、OpenAIが提供する「Whisper API」は別物で、音声1分あたりの従量課金です（料金は変わることがあるので、使う前に公式サイトで確認を）。

つまり、ローカルで動かすぶんにはAPI料金は一切かかりません。必要なのはPythonの環境と、モデルファイルを落とすためのストレージと通信量だけ。財布は痛みません。

主な機能はこのあたりです。

音声ファイルの文字起こし（mp3・wav・m4aなど対応）
話している言語の自動検出
タイムスタンプ付き出力（字幕ファイル形式にも対応）
英語への翻訳

コマンド1行で実行できるので、GUIの設定画面をあれこれ触るのが苦手な人にはむしろ向いています。慣れの問題、というやつです。

ローカルでのWhisper導入手順

公式リポジトリの流れをもとに、基本の手順をまとめます。細かいコマンドは公式GitHubで確認してください。

1. Pythonをインストールする
Python 3.8以上が必要です。公式サイト（python.org）からインストーラーを落とせます。

2. Whisperをインストールする
ターミナル（コマンドプロンプト）で以下を実行します。

pip install openai-whisper

3. ffmpegをインストールする
音声ファイルの変換に使うツールです。OSによって入れ方が違うので、公式ドキュメントを見るのが早いです。

4. 文字起こしを実行する
音声ファイルを用意して、こんなコマンドで動きます。

whisper 音声ファイル名.mp3 –language Japanese

初回はモデルファイルの自動ダウンロードが走るので、少し待たされます。モデルサイズはオプションで指定できるので、PCのスペックと相談しながら調整する感じです。

つまずきやすいポイント

導入自体は素直なんですが、初めての人が引っかかりやすい箇所がいくつかあります。先に潰しておきます。

一つ目は、ffmpegの入れ忘れ。Whisper本体は入ったのに音声が読めない、というときはだいたいこれです。地味だけど必須。

二つ目は、largeモデルをGPUなしで回そうとして固まるパターン。GPUなしのPCでlargeを動かすのは、軽自動車で長い峠を越えるようなものです。登れはするけど、時間はそれなりにかかる。最初はsmallかbaseで様子を見るのが無難だと思います。

三つ目は、精度への期待値。large-v3を使えば日本語もかなり実用的ですが、専門用語・方言・音質の悪い録音では普通に誤認識します。完璧を期待すると肩透かしを食らうので、「手直し前提のたたき台が一瞬で出てくる」くらいの温度で構えておくとちょうどいいです。

他の選択肢との違い

Whisperと同じくローカルや無料で使える音声認識ツールは、ほかにもあります。横に並べてみます。

ツール名	月額	主な機能	おすすめの人	学習難易度
Whisper（ローカル）	無料	文字起こし・翻訳・字幕生成	プライバシーを重視したい人・コストゼロで使いたい人	中（Python環境が必要）
faster-whisper	無料	Whisperより高速な処理・同等の精度	処理速度を重視したい人・低スペックPCユーザー	中（Pythonに慣れていれば低）
Whisper.cpp	無料	C++実装・CPUのみでも動作	GPUなしのPCで使いたい人・Apple Siliconユーザー	中〜高（コンパイルが必要）
Notta	無料プランあり（有料は月額課金）	ブラウザで完結・話者分離・要約	手軽に使いたい人・チームで共有したい人	低（アカウント作成のみ）
Google Speech-to-Text	一定量まで無料（API従量課金）	リアルタイム認識・多言語対応	クラウド連携・アプリ開発したい人	中（APIキー設定が必要）

Whisper（ローカル版）

公式リポジトリをそのまま自分のPCで動かす王道構成。精度と機能のバランスがよく、large-v3なら日本語もしっかり実用域です。音声データを一切クラウドに出さずに済むのが、ほかにない強み。気になるのは、GPUなしでlargeを回すと処理がもたつくところ。守秘義務のある音声を扱う人や、コストを完全にゼリにしたい人にはここが本命です。

faster-whisper

Whisperを高速化したサードパーティ実装。同じ精度を、より少ないメモリと短い時間でこなしてくれる傾向があります。Pythonで動かす点は本家と同じなので、すでにWhisperを使っている人ならほぼそのまま乗り換えられます。弱点らしい弱点は少ないですが、本家ほど情報量が多くないので、トラブル時に自力で調べる場面はやや増えるかも。「Whisperは入れたけど遅い」と感じたら、次の一手はこれです。

Whisper.cpp

WhisperをC++で書き直したプロジェクト。GPUなしのCPUだけのマシンでも動くのが看板で、Apple SiliconのMacではCore MLで高速化もできます。ただし、使い始めるのにコンパイルが必要で、ここだけは正直、初心者には壁です。動作環境の柔軟さと引き換えに、入口の難易度が上がる立ち位置。Macで快適に回したい人には有力です。

Notta

ブラウザで動くクラウド型。アカウントを作ればすぐ使えるので、Pythonに一切触りたくない人にとっては最短ルートです。話者分離や要約まで付くのも便利。ただし無料プランは利用時間に制限があって、長時間の録音を頻繁に扱うなら有料が見えてきます。そして音声をクラウドに送る前提なので、「データを外に出したくない」という今回の目的とは方向が逆。手軽さ最優先の人向け、と割り切るのが正確です。

Google Speech-to-Text

GoogleのAPIベースの音声認識。リアルタイム認識や多言語対応など機能は豊富ですが、使った量だけ課金されるので、個人で大量に回すとコストがじわじわ膨らみます。どちらかというと、自分のアプリやサービスに音声認識を組み込みたいエンジニア向け。手元で文字起こししたいだけの人には、ちょっとオーバースペックかなと思います。

結局、どんな人に向いている？

Whisperのローカル利用がハマるのは、こういうケースです。

会議やインタビューの録音を、あとでまとめて文字起こししたい
音声をクラウドに送りたくない（守秘義務のある業務など）
字幕ファイル（.srt形式など）を自分で作りたい
API課金を使わず、コストをゼロに抑えたい

逆に、「とにかく手軽がいい」「Pythonは見たこともない」という人は、NottaのようなGUIで完結するツールから入るほうが幸せだと思います。無理にローカルから始める必要はありません。

GPUがないなら、選択肢はWhisper.cpp。Apple SiliconのMacを持っているなら、ここはかなり相性がいいです。

用途・PC環境・技術的なハードルの3つを見比べて選ぶと、入れたあとで「やっぱり合わなかった」が減ります。

よくある質問

GPUがないPCでも使えますか？

使えます。ただしGPUなし（CPU処理）でlargeモデルを動かすと、処理にかなり時間がかかります。速度がほしいならsmallやbaseを選ぶか、CPU向けに最適化されたWhisper.cppを使う手もあります。

日本語の認識精度はどの程度ですか？

モデルサイズ次第です。公式サイトによると、largeモデルは多言語での高精度を想定して作られていて、日本語でも比較的良い精度が出るとされています。とはいえ専門用語や方言、音質の悪い録音だと誤認識は増えます。たたき台として使う前提が現実的です。

商用利用はできますか？

Whisper本体はMITライセンスのオープンソースなので、商用利用も可能です。ただし派生ツール（faster-whisperなど）はライセンスが異なる場合があります。商用で使う前に、使うリポジトリのライセンス表記を一度確認しておくのが安全です。

まとめ

WhisperはOpenAIが公開したオープンソースの音声認識モデルで、ローカルなら完全無料で使える
速度や動作環境に応じて、faster-whisperやWhisper.cppという派生ツールも選択肢になる
Pythonに不慣れなら、NottaなどのGUIツールから始めるほうがハードルは低い

音声を外に出さず、お金もかけず、自分のPCの中だけで文字起こしが回る。この身軽さは、一度味わうとなかなか手放せません。まずはsmallモデルで一本、手元の音声を流してみるところから。

ちなみにこのブログはMake.comで記事生成を自動化しています。興味がある方はこちら→Make.com（※アフィリエイトリンクです）

Whisper ローカルで無料使用！2026年版かんたん導入ガイド