きっかけ
動画制作で使うナレーション音声、どのTTSエンジンを使うのが正解なのか。
最近はAI音声の品質が急速に上がっていて選択肢も増えてきたので、実際に3つのエンジンで同じテキストを読ませて比較してみることにした。
比較対象
| エンジン | 方式 | 特徴 |
|---|---|---|
| Gemini 2.5 Flash TTS | クラウドAPI(Google) | Geminiモデルベース。従量課金 |
| ElevenLabs v3 | クラウドAPI | 高品質で知名度が高いTTSサービス。月額プラン制 |
| AivisSpeech | ローカル実行 | 無料のオープンソースTTS。PCで動作 |
ボイスの選び方
各エンジンとも、ボイスの選定はAI(Claude)に調査させて行った。
- Gemini: 公式ドキュメントのボイス一覧から、役割に合う特性(Informative、Breathy、Breezy等)のものを選定
- ElevenLabs: 共有ボイスライブラリ(Shared Voice Library)から、日本語対応のボイスを人気順(trending)で検索し、上位に表示されるものの中から役割に適したものを選定
- AivisSpeech: AivisHubで公開されているモデルから、声質の説明を基に選定
ElevenLabsは共有ボイスだけでも膨大な数のモデルが存在する。今回は上位モデルからの選定なので、探せばより高品質なボイスが見つかる可能性はある。一方、Geminiは公式プリセットボイス(30種程度)から選ぶだけで済み、選定の手間をかけずに安定して高品質な結果が得られるのは大きな強みだと感じた。
テスト設計
動画ナレーションの用途を想定し、4つの役割でテキストを用意した。
- M(男性ナレーター): NHKドキュメンタリー風。重厚・淡々
- F(女性ナレーター): 情報番組風。明瞭・親しみやすい
- E(専門家): 研究者や有識者の解説口調
- S(スポーツ選手): 試合後インタビュー風の口語
それぞれ短文(M-1, F-1, E-1, S-1)と長文(M-2, F-2, E-2)を用意し、各エンジンの複数ボイスで生成した。合計 62パターン の音声を作成している。
Geminiではスタイル制御プロンプトをテキストの前に付与して送信し、ElevenLabsとAivisSpeechではテキストのみを送信してパラメータで制御した。
Gemini TTSに使用したスタイル制御プロンプト
M(男性ナレーター)用:
以下のテキストを、NHKドキュメンタリー番組のナレーターのように、落ち着いた重厚なトーンで読み上げてください。体言止めの部分では適切に間を取り、淡々としつつも存在感のある読み方をしてください。
F(女性ナレーター)用:
以下のテキストを、テレビの情報番組ナレーターのように、明るく親しみやすいトーンで読み上げてください。視聴者に語りかけるような自然な口調で、情報が聞き取りやすいように丁寧に読んでください。
E(専門家)用:
以下のテキストを、大学教授がテレビ番組でインタビューに答えているように読み上げてください。専門用語は明確に発音し、聞き手にわかりやすく説明する口調で、自然な話し言葉のリズムを保ってください。
S(スポーツ選手)用:
以下のテキストを、試合後のインタビューに答えるスポーツ選手のように読み上げてください。息が少し上がった感じで、率直で飾らない口調で、嬉しさや悔しさといった感情が自然ににじみ出るように読んでください。
ElevenLabs v3のパラメータ
{
"model_id": "eleven_v3",
"voice_settings": {
"stability": 0.6,
"similarity_boost": 0.75,
"style": 0
}
}
テキストのみ送信し、スタイル制御プロンプトは使用していない。
AivisSpeechのパラメータ(役割別)
M(男性ナレーター):
{ "speedScale": 0.85, "intonationScale": 0.7, "tempoDynamicsScale": 0.8, "prePhonemeLength": 0.15, "postPhonemeLength": 0.2 }
F(女性ナレーター):
{ "speedScale": 1.05, "intonationScale": 0.9, "tempoDynamicsScale": 1.1, "prePhonemeLength": 0.1, "postPhonemeLength": 0.12 }
E(専門家):
{ "speedScale": 0.95, "intonationScale": 1.0, "tempoDynamicsScale": 1.0, "prePhonemeLength": 0.1, "postPhonemeLength": 0.15 }
S(スポーツ選手):
{ "speedScale": 1.05, "intonationScale": 1.2, "tempoDynamicsScale": 1.2, "prePhonemeLength": 0.08, "postPhonemeLength": 0.1 }
音声サンプル比較
以下、役割×テキストごとにエンジンを並べている。実際に聴き比べてみてほしい。
ElevenLabsのボイスで品質上の気になる点があったものには、各カードに注記を付けている。
男性ナレーター
M-1: 短文(体言止め・畳みかけ)
街は静まり返っている。だが、一つのビルだけは違った。
光が漏れる窓の奥で、ある男が画面を見つめていた。
迷いはない。ためらいもない。ただ、前へ。
Gemini 2.5 Flash TTS
ElevenLabs v3
AivisSpeech
M-2: 長文(問いかけ・展開)
量子コンピュータの実用化。それは、長年「夢物語」と呼ばれてきた技術だった。
なぜ、この男はたった一人で挑み続けたのか。
周囲は口を揃えて言った。「不可能だ」と。
だが、彼は止まらなかった。
15年の歳月が、一つの答えを導き出す。
今日も、研究室の明かりは消えない。
Gemini 2.5 Flash TTS
ElevenLabs v3
AivisSpeech
女性ナレーター
F-1: 短文(情報伝達・導入)
味噌、醤油、納豆。日本人にとって、これほど身近な食品はありません。
でも実は、その歴史には驚くべき秘密が隠されているんです。
Gemini 2.5 Flash TTS
ElevenLabs v3
AivisSpeech
F-2: 長文(解説・展開)
特に注目されているのが、日本の伝統的な味噌づくりです。
大豆に含まれるイソフラボンが、発酵の過程で分子構造を変え、体内への吸収率が3倍に向上するんだそうです。
一体、先人たちはどうやってこの製法にたどり着いたのでしょうか。
その答えは、意外にも偶然の産物でした。
Gemini 2.5 Flash TTS
ElevenLabs v3
AivisSpeech
専門家
E-1: 短文(端的な解説)
古代メソポタミア文明の粘土板に、すでに類似の記述が見つかっています。
つまり、私たちは3000年前の知恵を、現代のテクノロジーで再発見しているということになります。
Gemini 2.5 Flash TTS
ElevenLabs v3
AivisSpeech
E-2: 長文(詳細な解説・専門用語含む)
アインシュタインはこれを「不気味な遠隔作用」と呼んで否定しましたが、1982年のアスペの実験で、量子力学の予測が正しいことが証明されました。
重要なのはですね、これが単なる物理学の問題ではなく、情報通信、暗号技術、そして人工知能の基盤を根本から変え得るという点です。
現在、世界中の研究機関がこの技術に注目しているのは、そういう理由があるわけです。
Gemini 2.5 Flash TTS
ElevenLabs v3
AivisSpeech
スポーツ選手
S-1: 短文(試合後インタビュー)
正直、途中で厳しいかなって思った場面もあったんですけど、最後まで諦めずにやり切れたのが大きかったですね。
チームのみんなに感謝しかないです。
Gemini 2.5 Flash TTS
ElevenLabs v3
AivisSpeech
品質の所感
Gemini 2.5 Flash TTS
全ボイスで安定して高品質だった。抑揚や感情の表現が自然で、ドキュメンタリーのナレーションとして十分に使えるレベル。体言止めの「間」や問いかけのイントネーションも違和感なく処理できている。
テキスト内容に応じてトーンが微妙に変化するあたり、LLMベースのTTSの強みを感じる。プロンプトで「NHKドキュメンタリー風」「試合後インタビュー風」などと指示するだけで、それらしい読み方をしてくれるのも便利。
ElevenLabs v3
ボイスによって品質にバラつきがある。Hatake Kohei(男性)やHarune(女性)は安定して高品質だったが、一部のボイスでは電子音っぽいノイズや読み間違い、音質の劣化が見られた。気になった点は上の音声サンプルの各カードに注記している。
全体的に、Geminiと比べると読み上げが均一で抑揚に乏しい印象。テキストの内容や感情にかかわらず同じテンションで読む傾向がある。ElevenLabsにはスタイル制御プロンプトの仕組みがないため、Geminiのように「ドキュメンタリー風に」といった指示ができない点も影響しているかもしれない。
なお、ElevenLabsのStarterプランではWAV形式での出力ができず、MP3のみとなる点にも注意が必要。
ElevenLabsのタイムスタンプ機能
ElevenLabsにはGeminiやAivisSpeechにはないユニークな機能がある。/v1/text-to-speech/{voice_id}/with-timestamps エンドポイントを使うと、文字単位の発話タイミング(開始・終了時刻) を取得できる。
実際に検証してみたところ、以下のようなデータが返ってきた。
タイムスタンプAPIのレスポンス例
入力テキスト: 「テスト音声です。タイムスタンプの検証用テキストです。」
{
"alignment": {
"characters": ["テ", "ス", "ト", "音", "声", "で", "す", "。", ...],
"character_start_times_seconds": [0.0, 0.08, 0.2, 0.32, 0.48, 0.64, 0.96, 1.28, ...],
"character_end_times_seconds": [0.08, 0.2, 0.32, 0.48, 0.64, 0.96, 1.28, 1.4, ...]
}
}
この機能は動画制作における字幕の自動生成に活用できる。音声に合わせた正確なタイミングで字幕を表示させたい場合、このタイムスタンプデータがあれば手動での調整が不要になる。他のエンジンでは別途音声認識を挟む必要があるため、字幕付き動画の制作効率を重視するならElevenLabsの優位点になりうる。
AivisSpeech
無料のローカル実行ソフトとしては十分に高品質。単純な解説動画や読み上げ用途であれば実用的。
ただし、クラウドAPIの2エンジンと比較すると機械的な読み上げ感が強い。今回のテスト目的である「ドキュメンタリー風の動画ナレーション」には、抑揚や感情表現の面で物足りなさがあり、採用は見送りとなった。
コスト比較
料金体系の違い
| 項目 | Gemini 2.5 Flash TTS | ElevenLabs v3 | AivisSpeech |
|---|---|---|---|
| 課金方式 | 従量課金 | 月額プラン+クレジット制 | 無料(ローカル実行) |
| 料金 | 入力 $0.50/100万トークン、出力 $10.00/100万トークン | Starter $5/月(30,000文字)〜 | $0 |
| 無料枠 | あり(レート制限付き) | Free 10,000文字/月 | 全て無料 |
1秒あたり・1文字あたりのコスト
具体的な数字で比較すると、感覚がつかみやすい。
| エンジン | 1秒の音声コスト | 1,000文字のコスト | 算出根拠 |
|---|---|---|---|
| Gemini | 約0.05円 | 約9円 | 32トークン/秒 × $10/100万トークン。入力コストは全体の3%未満 |
| ElevenLabs(Starter) | — | 約25円 | $5/月で30,000文字。按分単価 |
| ElevenLabs(Pro) | — | 約30円 | $99/月で500,000文字。按分単価 |
| AivisSpeech | 0円 | 0円 | ローカル実行のためAPI料金なし |
ElevenLabsはGeminiの約3倍のコスト。月額を使い切らなくても固定費が発生する一方、クレジット内なら追加コストはかからない。
月間コストの比較
動画1本で約1,000文字(3分のナレーション相当)を生成する場合。
| 月間本数 | Gemini | ElevenLabs最安 | 差額 |
|---|---|---|---|
| 5本 | 45円 | 750円(Starter) | 17倍 |
| 10本 | 90円 | 750円(Starter) | 8倍 |
| 30本 | 270円 | 750円(Starter) | 3倍 |
| 100本 | 900円 | 3,300円(Creator) | 4倍 |
どの制作量でもGeminiが圧倒的に安い。Geminiは完全従量課金なので使わない月はゼロ円になるのも大きい。
今回のテストで消費したコスト
| エンジン | パターン数 | 消費量 | コスト |
|---|---|---|---|
| Gemini | 20 | 16,113 音声トークン | 約20円(実測) |
| ElevenLabs | 19 | 2,600クレジット | 約65円(Starter換算) |
| AivisSpeech | 23 | — | 0円 |
まとめ
今回の検証では、Gemini 2.5 Flash TTSが品質・コスト・手軽さの全てで最も優れているという結果になった。
- 品質: 全ボイスで安定。抑揚と感情表現が自然で、ドキュメンタリー風のナレーションに最適
- コスト: 1,000文字あたり約9円。ElevenLabsの約1/3
- 手軽さ: 公式プリセットボイスから選ぶだけで高品質。膨大なボイスライブラリの中から探し回る必要がない
- 柔軟性: 完全従量課金で、使わない月はゼロ。無料枠もあり
ElevenLabsはボイスの選択肢が豊富で、安定しているボイス(Hatake Kohei、Haruneなど)は十分に高品質。タイムスタンプAPIによる字幕生成の自動化は他にないユニークな強み。ただし電子音ノイズの問題がいくつかのボイスで見られたのと、コスト面でGeminiに大きく差をつけられている。
AivisSpeechは無料ソフトとしては驚異的な品質だが、感情表現を求められるナレーション用途には向かない。シンプルな読み上げや、コストをゼロにしたい場合には有力な選択肢。
結論として、動画ナレーション用途ではGemini 2.5 Flash TTSを採用することにした。