Macで簡単！Voicy音声をAIで文字起こし・効率化する方法

(※2025年4月22日更新)

「Voicyの音声、文字起こししてまとめたいけど、どうやればいいの？」
そんなふうに感じたこと、ありませんか？自分だけの備忘録を作ったり、議事録代わりに活用したり、耳で聴くだけでなく“文字”でも残したい。そう思ったあなたに向けた記事です。

音声コンテンツの文字起こし
高品質な音声録音環境を作る：BlackHoleとAudio MIDI設定
QuickTime Playerで音声付き画面録画を設定
音声を流しながら画面収録
Google AI Studioで文字起こし（非エンジニア版）
Whisperを使って音声を文字起こし：エンジニア向け
まとめ：録音とAI文字起こしで情報活用をレベルアップ
商材の紹介

音声コンテンツの文字起こし

本記事では、Macユーザー向けに、Voicyなどの音声を高精度に文字起こしする方法を紹介します。録音環境の整え方から、AIを使った文字起こしの実践まで、詳しく解説していきます。

高品質な音声録音環境を作る：BlackHoleとAudio MIDI設定

「Voicyをそのまま録音したいけど、どうすれば？」と悩む方、多いのではないでしょうか。録音した音声の質が悪いと、文字起こしの精度にも影響してしまいます。

まずMacで音声録音するためには、BlackHoleという仮想オーディオデバイスをインストールします。64chバージョンを選択しましょう。BlackHoleは、内部の音声をキャプチャできる便利なツールです。これがあることで、Voicyなどの再生音声を高品質に録音できます。

その次に、MacのAudio MIDI設定を開いて、複数出力装置を作成します。ここでBlackHoleを選択し、スピーカーやイヤホンと併用できるように設定します。これにより、自分で聴きながら録音が可能になります。

QuickTime Playerで音声付き画面録画を設定

「音声を録音しながら、画面も記録したい！」そんなニーズにも対応できます。Macに標準で搭載されているQuickTime Playerを使えば、簡単に画面録画ができます。

画面収録時のオーディオ設定で、BlackHoleを選択します。これでVoicyなどの音声を含めた画面録画が可能になります。ここまでで、録音の準備はバッチリです。

音声を流しながら画面収録

QuickTime Playerでvoicyを流しながら画面録画します。これでvoicyの音声が画面収録に乗ります。収録後は、QuickTime Playerのファイル→書き出し　で音声として書き出します。これでma4ファイルができあがります。

Google AI Studioで文字起こし（非エンジニア版）

google AI Studioで音声ファイルをアップロード。最新のGemini2.5 Flash Preview 04-17 を使います。
アップロード後に、下のプロンプトを打ち込みます。

以下の心理学に関するポッドキャスト音声を文字起こししてください

Whisperを使って音声を文字起こし：エンジニア向け

「録音はできた。でも、文字起こしってどうするの？」ここからが本番です。AIの力を使って、録音した音声を文字に起こしていきます。

ここでは、OpenAIのWhisperモデルを再実装したfaster-whisperを使います。これならGoogle Colab上で動かせて、APIキーも必要ありません。エンジニア向けではありますが、やってみる価値は大いにあります。

Colabで以下のコマンドを実行して必要なライブラリをインストールします。

!pip install faster-whisper
!apt-get install -y ffmpeg
!pip install ctranslate2==4.3.1

録音したMP4ファイルから音声だけを抽出するには、次のコマンドを使います。

!ffmpeg -i input_video_name.mp4 -vn -acodec pcm_s16le -ar 16000 -ac 1 output_audio_name.wav

これで音声データが16kHzのモノラルWAV形式で保存されます。あとは、以下のPythonコードで文字起こしを実行します。

from faster_whisper import WhisperModel

model = WhisperModel("base", device="cuda")  # GPUを使用する場合は "cuda"、CPUの場合は "cpu"

segments, info = model.transcribe("output_audio.wav", beam_size=5, language="ja")

transcript = ""
for segment in segments:
    transcript += f"[{segment.start:.2f}s - {segment.end:.2f}s] {segment.text}\n"

print(transcript)

この流れで、Voicyの音声を高精度に文字起こしできます。

with open("transcript.txt", "w", encoding="utf-8") as f:
    f.write(transcript)

まとめ：録音とAI文字起こしで情報活用をレベルアップ

Voicyなどの音声配信を、耳だけでなく“文字”として残せると、情報の振り返りや共有が格段にスムーズになります。Macユーザーなら、BlackHoleとQuickTimeで高品質な録音環境を整え、さらにfaster-whisperを使えばAIでの文字起こしが可能です。

このプロセスを知っているだけで、日々のインプットがより深まり、効率よく知識を整理できるようになります。あなたもぜひ、音声コンテンツの文字起こしに挑戦してみてください。

商材の紹介

この記事で紹介したBlackHoleは、以下のリンクからダウンロードできます。
参考：https://ovaldesign.jp/2023/09/09/blackhole/

また、Audio MIDI設定の詳しい手順は、こちらが参考になります。
参考：https://xyk.hatenablog.com/entry/2024/01/19/124325

文字起こしで使用するfaster-whisperは、Google Colab上で手軽に試せます。コーディングが初めてでも、この記事の手順を参考にすれば安心です。