音声生成AIを3つ比較してみた
——Gemini・ElevenLabs・AivisSpeech

開発TTSAI音声生成検証

きっかけ

動画制作で使うナレーション音声、どのTTSエンジンを使うのが正解なのか。

最近はAI音声の品質が急速に上がっていて選択肢も増えてきたので、実際に3つのエンジンで同じテキストを読ませて比較してみることにした。

比較対象

エンジン方式特徴
Gemini 2.5 Flash TTSクラウドAPI(Google)Geminiモデルベース。従量課金
ElevenLabs v3クラウドAPI高品質で知名度が高いTTSサービス。月額プラン制
AivisSpeechローカル実行無料のオープンソースTTS。PCで動作

ボイスの選び方

各エンジンとも、ボイスの選定はAI(Claude)に調査させて行った。

  • Gemini: 公式ドキュメントのボイス一覧から、役割に合う特性(Informative、Breathy、Breezy等)のものを選定
  • ElevenLabs: 共有ボイスライブラリ(Shared Voice Library)から、日本語対応のボイスを人気順(trending)で検索し、上位に表示されるものの中から役割に適したものを選定
  • AivisSpeech: AivisHubで公開されているモデルから、声質の説明を基に選定

ElevenLabsは共有ボイスだけでも膨大な数のモデルが存在する。今回は上位モデルからの選定なので、探せばより高品質なボイスが見つかる可能性はある。一方、Geminiは公式プリセットボイス(30種程度)から選ぶだけで済み、選定の手間をかけずに安定して高品質な結果が得られるのは大きな強みだと感じた。

テスト設計

動画ナレーションの用途を想定し、4つの役割でテキストを用意した。

  • M(男性ナレーター): NHKドキュメンタリー風。重厚・淡々
  • F(女性ナレーター): 情報番組風。明瞭・親しみやすい
  • E(専門家): 研究者や有識者の解説口調
  • S(スポーツ選手): 試合後インタビュー風の口語

それぞれ短文(M-1, F-1, E-1, S-1)と長文(M-2, F-2, E-2)を用意し、各エンジンの複数ボイスで生成した。合計 62パターン の音声を作成している。

Geminiではスタイル制御プロンプトをテキストの前に付与して送信し、ElevenLabsとAivisSpeechではテキストのみを送信してパラメータで制御した。

Gemini TTSに使用したスタイル制御プロンプト

M(男性ナレーター)用:

以下のテキストを、NHKドキュメンタリー番組のナレーターのように、落ち着いた重厚なトーンで読み上げてください。体言止めの部分では適切に間を取り、淡々としつつも存在感のある読み方をしてください。

F(女性ナレーター)用:

以下のテキストを、テレビの情報番組ナレーターのように、明るく親しみやすいトーンで読み上げてください。視聴者に語りかけるような自然な口調で、情報が聞き取りやすいように丁寧に読んでください。

E(専門家)用:

以下のテキストを、大学教授がテレビ番組でインタビューに答えているように読み上げてください。専門用語は明確に発音し、聞き手にわかりやすく説明する口調で、自然な話し言葉のリズムを保ってください。

S(スポーツ選手)用:

以下のテキストを、試合後のインタビューに答えるスポーツ選手のように読み上げてください。息が少し上がった感じで、率直で飾らない口調で、嬉しさや悔しさといった感情が自然ににじみ出るように読んでください。

ElevenLabs v3のパラメータ
{
  "model_id": "eleven_v3",
  "voice_settings": {
    "stability": 0.6,
    "similarity_boost": 0.75,
    "style": 0
  }
}

テキストのみ送信し、スタイル制御プロンプトは使用していない。

AivisSpeechのパラメータ(役割別)

M(男性ナレーター):

{ "speedScale": 0.85, "intonationScale": 0.7, "tempoDynamicsScale": 0.8, "prePhonemeLength": 0.15, "postPhonemeLength": 0.2 }

F(女性ナレーター):

{ "speedScale": 1.05, "intonationScale": 0.9, "tempoDynamicsScale": 1.1, "prePhonemeLength": 0.1, "postPhonemeLength": 0.12 }

E(専門家):

{ "speedScale": 0.95, "intonationScale": 1.0, "tempoDynamicsScale": 1.0, "prePhonemeLength": 0.1, "postPhonemeLength": 0.15 }

S(スポーツ選手):

{ "speedScale": 1.05, "intonationScale": 1.2, "tempoDynamicsScale": 1.2, "prePhonemeLength": 0.08, "postPhonemeLength": 0.1 }

音声サンプル比較

以下、役割×テキストごとにエンジンを並べている。実際に聴き比べてみてほしい。

ElevenLabsのボイスで品質上の気になる点があったものには、各カードに注記を付けている。


男性ナレーター

M-1: 短文(体言止め・畳みかけ)

東京・渋谷。午前3時。
街は静まり返っている。だが、一つのビルだけは違った。
光が漏れる窓の奥で、ある男が画面を見つめていた。
迷いはない。ためらいもない。ただ、前へ。

Gemini 2.5 Flash TTS

GeminiCharon
Informative — 落ち着いた低音
GeminiEnceladus
Breathy — 深みのある声

ElevenLabs v3

ElevenLabsKosuke
Deep & Clear — 落ち着いた深い声
読み間違いあり。雑音っぽいノイズが混入
ElevenLabsHatake Kohei
Warm & Husky — 温かみのあるプロナレーター

AivisSpeech

AivisSpeech阿井田茂 Heavy
重厚なナレーション
AivisSpeech阿井田茂 Calm
落ち着いたナレーション

M-2: 長文(問いかけ・展開)

2024年、世界を揺るがす発見があった。
量子コンピュータの実用化。それは、長年「夢物語」と呼ばれてきた技術だった。
なぜ、この男はたった一人で挑み続けたのか。
周囲は口を揃えて言った。「不可能だ」と。
だが、彼は止まらなかった。
15年の歳月が、一つの答えを導き出す。
今日も、研究室の明かりは消えない。

Gemini 2.5 Flash TTS

GeminiCharon
Informative — 落ち着いた低音
GeminiEnceladus
Breathy — 深みのある声

ElevenLabs v3

ElevenLabsKosuke
Deep & Clear — 落ち着いた深い声
ややアクセントが不自然
ElevenLabsHatake Kohei
Warm & Husky — 温かみのあるプロナレーター

AivisSpeech

AivisSpeech阿井田茂 Heavy
重厚なナレーション
AivisSpeech阿井田茂 Calm
落ち着いたナレーション

女性ナレーター

F-1: 短文(情報伝達・導入)

皆さんは「発酵食品」と聞いて、何を思い浮かべますか。
味噌、醤油、納豆。日本人にとって、これほど身近な食品はありません。
でも実は、その歴史には驚くべき秘密が隠されているんです。

Gemini 2.5 Flash TTS

GeminiAoede
Breezy — 柔らかく優しい声
GeminiKore
Firm — 堅実な解説トーン

ElevenLabs v3

ElevenLabsKonoha
Professional Explainer — 明瞭なリズム感
ElevenLabsHarune
Professional Narration — 落ち着いた明瞭さ

AivisSpeech

AivisSpeechみちのくあいり
情報番組風ナレーション

F-2: 長文(解説・展開)

世界保健機関の最新レポートによると、発酵食品を日常的に摂取している地域では、平均寿命が5年以上長いという結果が出ています。
特に注目されているのが、日本の伝統的な味噌づくりです。
大豆に含まれるイソフラボンが、発酵の過程で分子構造を変え、体内への吸収率が3倍に向上するんだそうです。
一体、先人たちはどうやってこの製法にたどり着いたのでしょうか。
その答えは、意外にも偶然の産物でした。

Gemini 2.5 Flash TTS

GeminiAoede
Breezy — 柔らかく優しい声
GeminiKore
Firm — 堅実な解説トーン

ElevenLabs v3

ElevenLabsKonoha
Professional Explainer — 明瞭なリズム感
やや電子音っぽさあり
ElevenLabsHarune
Professional Narration — 落ち着いた明瞭さ

AivisSpeech

AivisSpeechみちのくあいり
情報番組風ナレーション

専門家

E-1: 短文(端的な解説)

実はですね、この技術の起源は紀元前にまで遡るんです。
古代メソポタミア文明の粘土板に、すでに類似の記述が見つかっています。
つまり、私たちは3000年前の知恵を、現代のテクノロジーで再発見しているということになります。

Gemini 2.5 Flash TTS

GeminiSadaltager
Knowledgeable — 権威的な男性
GeminiRasalgethi
Informative — プロフェッショナルな男性
GeminiGacrux
Mature — 成熟した知的な女性
GeminiErinome
Clear — 明瞭で論理的な女性

ElevenLabs v3

ElevenLabsHajime
Business & Narration — クリアなビジネス口調の男性
やや早口で一般的な印象
ElevenLabsJun
Calm & Husky — 落ち着いた中高年の男性
ElevenLabsHijiri
Calm & Deep — 落ち着いた深い女性
早口で、やや気弱な印象
ElevenLabsMio Yuki
Calm & Natural — 自然で落ち着いた若い女性
やや電子音っぽさあり

AivisSpeech

AivisSpeechfumifumi
壮年男性・研究者系
AivisSpeechろてじん
熟年男性・教授系
AivisSpeechにせ
若い男性
AivisSpeechmorioki
壮年女性・研究者系
AivisSpeech凛音エル
若い女性
AivisSpeechるな
自然な女性声

E-2: 長文(詳細な解説・専門用語含む)

量子もつれの状態にある2つの粒子は、たとえ何光年離れていても、一方の状態を観測した瞬間に、もう一方の状態が確定します。
アインシュタインはこれを「不気味な遠隔作用」と呼んで否定しましたが、1982年のアスペの実験で、量子力学の予測が正しいことが証明されました。
重要なのはですね、これが単なる物理学の問題ではなく、情報通信、暗号技術、そして人工知能の基盤を根本から変え得るという点です。
現在、世界中の研究機関がこの技術に注目しているのは、そういう理由があるわけです。

Gemini 2.5 Flash TTS

GeminiSadaltager
Knowledgeable — 権威的な男性
GeminiRasalgethi
Informative — プロフェッショナルな男性
GeminiGacrux
Mature — 成熟した知的な女性
GeminiErinome
Clear — 明瞭で論理的な女性

ElevenLabs v3

ElevenLabsHajime
Business & Narration — クリアなビジネス口調の男性
ElevenLabsJun
Calm & Husky — 落ち着いた中高年の男性
音質が悪い
ElevenLabsHijiri
Calm & Deep — 落ち着いた深い女性
ElevenLabsMio Yuki
Calm & Natural — 自然で落ち着いた若い女性
やや電子音っぽさあり

AivisSpeech

AivisSpeechfumifumi
壮年男性・研究者系
AivisSpeechろてじん
熟年男性・教授系
AivisSpeechにせ
若い男性
AivisSpeechmorioki
壮年女性・研究者系
AivisSpeech凛音エル
若い女性
AivisSpeechるな
自然な女性声

スポーツ選手

S-1: 短文(試合後インタビュー)

いやあ、もう本当に嬉しいです。
正直、途中で厳しいかなって思った場面もあったんですけど、最後まで諦めずにやり切れたのが大きかったですね。
チームのみんなに感謝しかないです。

Gemini 2.5 Flash TTS

GeminiSadaltager
Knowledgeable — 権威的な男性
GeminiRasalgethi
Informative — プロフェッショナルな男性
GeminiGacrux
Mature — 成熟した知的な女性
GeminiErinome
Clear — 明瞭で論理的な女性

ElevenLabs v3

ElevenLabsHajime
Business & Narration — クリアなビジネス口調の男性
ElevenLabsHijiri
Calm & Deep — 落ち着いた深い女性
やや電子音っぽさあり
ElevenLabsMio Yuki
Calm & Natural — 自然で落ち着いた若い女性
やや電子音っぽさあり

AivisSpeech

AivisSpeechfumifumi
壮年男性・研究者系
AivisSpeechにせ
若い男性
AivisSpeechmorioki
壮年女性・研究者系
AivisSpeech凛音エル
若い女性
AivisSpeechるな
自然な女性声

品質の所感

Gemini 2.5 Flash TTS

全ボイスで安定して高品質だった。抑揚や感情の表現が自然で、ドキュメンタリーのナレーションとして十分に使えるレベル。体言止めの「間」や問いかけのイントネーションも違和感なく処理できている。

テキスト内容に応じてトーンが微妙に変化するあたり、LLMベースのTTSの強みを感じる。プロンプトで「NHKドキュメンタリー風」「試合後インタビュー風」などと指示するだけで、それらしい読み方をしてくれるのも便利。

ElevenLabs v3

ボイスによって品質にバラつきがある。Hatake Kohei(男性)やHarune(女性)は安定して高品質だったが、一部のボイスでは電子音っぽいノイズや読み間違い、音質の劣化が見られた。気になった点は上の音声サンプルの各カードに注記している。

全体的に、Geminiと比べると読み上げが均一で抑揚に乏しい印象。テキストの内容や感情にかかわらず同じテンションで読む傾向がある。ElevenLabsにはスタイル制御プロンプトの仕組みがないため、Geminiのように「ドキュメンタリー風に」といった指示ができない点も影響しているかもしれない。

なお、ElevenLabsのStarterプランではWAV形式での出力ができず、MP3のみとなる点にも注意が必要。

ElevenLabsのタイムスタンプ機能

ElevenLabsにはGeminiやAivisSpeechにはないユニークな機能がある。/v1/text-to-speech/{voice_id}/with-timestamps エンドポイントを使うと、文字単位の発話タイミング(開始・終了時刻) を取得できる。

実際に検証してみたところ、以下のようなデータが返ってきた。

タイムスタンプAPIのレスポンス例

入力テキスト: 「テスト音声です。タイムスタンプの検証用テキストです。」

{
  "alignment": {
    "characters": ["テ", "ス", "ト", "音", "声", "で", "す", "。", ...],
    "character_start_times_seconds": [0.0, 0.08, 0.2, 0.32, 0.48, 0.64, 0.96, 1.28, ...],
    "character_end_times_seconds": [0.08, 0.2, 0.32, 0.48, 0.64, 0.96, 1.28, 1.4, ...]
  }
}

この機能は動画制作における字幕の自動生成に活用できる。音声に合わせた正確なタイミングで字幕を表示させたい場合、このタイムスタンプデータがあれば手動での調整が不要になる。他のエンジンでは別途音声認識を挟む必要があるため、字幕付き動画の制作効率を重視するならElevenLabsの優位点になりうる。

AivisSpeech

無料のローカル実行ソフトとしては十分に高品質。単純な解説動画や読み上げ用途であれば実用的。

ただし、クラウドAPIの2エンジンと比較すると機械的な読み上げ感が強い。今回のテスト目的である「ドキュメンタリー風の動画ナレーション」には、抑揚や感情表現の面で物足りなさがあり、採用は見送りとなった。


コスト比較

料金体系の違い

項目Gemini 2.5 Flash TTSElevenLabs v3AivisSpeech
課金方式従量課金月額プラン+クレジット制無料(ローカル実行)
料金入力 $0.50/100万トークン、出力 $10.00/100万トークンStarter $5/月(30,000文字)〜$0
無料枠あり(レート制限付き)Free 10,000文字/月全て無料

1秒あたり・1文字あたりのコスト

具体的な数字で比較すると、感覚がつかみやすい。

エンジン1秒の音声コスト1,000文字のコスト算出根拠
Gemini約0.05円約9円32トークン/秒 × $10/100万トークン。入力コストは全体の3%未満
ElevenLabs(Starter)約25円$5/月で30,000文字。按分単価
ElevenLabs(Pro)約30円$99/月で500,000文字。按分単価
AivisSpeech0円0円ローカル実行のためAPI料金なし

ElevenLabsはGeminiの約3倍のコスト。月額を使い切らなくても固定費が発生する一方、クレジット内なら追加コストはかからない。

月間コストの比較

動画1本で約1,000文字(3分のナレーション相当)を生成する場合。

月間本数GeminiElevenLabs最安差額
5本45円750円(Starter)17倍
10本90円750円(Starter)8倍
30本270円750円(Starter)3倍
100本900円3,300円(Creator)4倍

どの制作量でもGeminiが圧倒的に安い。Geminiは完全従量課金なので使わない月はゼロ円になるのも大きい。

今回のテストで消費したコスト

エンジンパターン数消費量コスト
Gemini2016,113 音声トークン約20円(実測)
ElevenLabs192,600クレジット約65円(Starter換算)
AivisSpeech230円

まとめ

今回の検証では、Gemini 2.5 Flash TTSが品質・コスト・手軽さの全てで最も優れているという結果になった。

  • 品質: 全ボイスで安定。抑揚と感情表現が自然で、ドキュメンタリー風のナレーションに最適
  • コスト: 1,000文字あたり約9円。ElevenLabsの約1/3
  • 手軽さ: 公式プリセットボイスから選ぶだけで高品質。膨大なボイスライブラリの中から探し回る必要がない
  • 柔軟性: 完全従量課金で、使わない月はゼロ。無料枠もあり

ElevenLabsはボイスの選択肢が豊富で、安定しているボイス(Hatake Kohei、Haruneなど)は十分に高品質。タイムスタンプAPIによる字幕生成の自動化は他にないユニークな強み。ただし電子音ノイズの問題がいくつかのボイスで見られたのと、コスト面でGeminiに大きく差をつけられている。

AivisSpeechは無料ソフトとしては驚異的な品質だが、感情表現を求められるナレーション用途には向かない。シンプルな読み上げや、コストをゼロにしたい場合には有力な選択肢。

結論として、動画ナレーション用途ではGemini 2.5 Flash TTSを採用することにした。

← ブログ一覧に戻る