Google Cloud Text-to-Speechの特徴・料金・使い方を徹底解説【2026年最新】

| AIサービス紹介
#Google Cloud #Text-to-Speech #音声生成AI #TTS #AI #API #従量課金 #WaveNet #Neural2

この記事の要約

Google Cloud Text-to-SpeechはGoogle CloudのAI音声合成API。WaveNet音声で高品質、従量課金制で無料枠あり。日本語はStandard/WaveNetのみ対応。使い方と料金を初心者向けに解説します。

この記事でわかること

  • Google Cloud Text-to-Speechの特徴とWaveNet音声の品質
  • 従量課金制の料金体系と無料枠の内容
  • 日本語対応状況(Neural2は非対応)

Google Cloud Text-to-Speechってなに?

Google Cloud Text-to-Speech(グーグル・クラウド・テキスト・トゥ・スピーチ)は、Google Cloudが提供する AI 人間のように考えたり判断したりできるコンピュータの仕組み。人工知能とも呼ばれる もっと詳しく → 音声合成サービスです。テキストを音声に変換するAPI(アプリケーション・プログラミング・インターフェース)として提供されており、主に 開発者向け のサービスです。

Google翻訳やGoogle Assistantにも使われている技術で、高品質な音声生成が特徴です。特に WaveNet音声 は、DeepMindが開発した深層学習技術を使っており、極めて自然な音声を生成できます。

💡 初心者向けではない: APIを使ってプログラムから呼び出す必要があるため、プログラミング知識が必要です。


日本語対応状況

StandardとWaveNetのみ対応(Neural2は非対応)

Google Cloud Text-to-Speechは日本語に対応していますが、最新のNeural2音声エンジンは日本語に非対応 です(2026年2月時点)。日本語で利用できるのは以下の2つのみです。

  • Standard音声 — 基本的な音声品質
  • WaveNet音声 — 高品質、より自然な音声

💡 Neural2が使えない: 英語などではNeural2(より高品質な音声エンジン)が利用できますが、日本語ではStandardとWaveNetのみです。

対応言語は 40以上 で、英語、スペイン語、ドイツ語、フランス語、中国語、韓国語、日本語など、グローバルなコンテンツ制作に対応しています。

💡 日本語の文字 課金 サービスの有料機能を使うためにお金を払うこと もっと詳しく → : 日本語(ja-JP)の文字はUTF-8で複数バイトを要しますが、課金は1文字単位です(バイト単位ではない)。


料金体系

無料枠(毎月)

  • 期間: 無期限(毎月リセット)
  • 月間文字数: 100万文字(0〜100万文字は無料)
  • 対象: Standard音声、WaveNet音声、Neural2音声すべて対象

💡 毎月無料: Amazon Pollyと違い、12ヶ月限定ではなく、毎月100万文字まで無料です。

従量課金(無料枠超過後)

Standard音声

  • 料金: $4.00 / 100万文字
  • 特徴: 基本的な音声品質

WaveNet音声

  • 料金: $16.00 / 100万文字
  • 特徴: 高品質、より自然な音声
  • 対応言語: 主要言語(日本語含む)

Neural2音声

  • 料金: $16.00 / 100万文字
  • 特徴: WaveNetと同価格、より高品質
  • 対応言語: 主要言語(日本語は非対応

💡 コスト例: 月10万文字生成する場合(無料枠内なので0円)

  • Standard音声: 無料
  • WaveNet音声: 無料

月150万文字生成する場合(50万文字が有料)

  • Standard音声: 約$2.00(約300円)
  • WaveNet音声: 約$8.00(約1,200円)

※ 2026年2月時点の情報です。最新情報は Google Cloud Text-to-Speech公式サイト をご確認ください。


利用開始~初回使用の手順

ステップ1: Google Cloudアカウント作成

  1. Google Cloud公式サイト(cloud.google.com)に アクセス ウェブページを訪れること。ネット上のページに「行く」こと もっと詳しく →
  2. 「無料で始める」を クリック パソコンのマウスのボタンを押すこと。「これを選ぶ!」という操作 もっと詳しく →
  3. Google アカウント サービスを使うための自分専用の入場券みたいなもの。名前(メールアドレス)と合言葉(パスワード)のセット もっと詳しく → ログイン 自分の入場券(アカウント)を見せて、サービスの中に入ること もっと詳しく → (または新規作成)
  4. 支払い情報(クレジットカード)を登録

💡 GoogleアカウントについてはGoogleアカウントとはを参考にしてください。

💡 注意: クレジットカード登録が必須ですが、無料枠内なら課金されません。また、初回登録時に$300分の無料クレジットがもらえます。

[画像: Google Cloudアカウント作成画面]

ステップ2: プロジェクト作成とAPI有効化

  1. Google Cloudコンソールにログイン
  2. 新しいプロジェクトを作成
  3. 「APIとサービス」→「ライブラリ」に移動
  4. 「Cloud Text-to-Speech API」を検索
  5. 「有効にする」をクリック

[画像: API有効化画面]

ステップ3: APIキーを取得

  1. 「APIとサービス」→「認証情報」に移動
  2. 「認証情報を作成」→「APIキー」をクリック
  3. 生成されたAPIキーをコピーして保存

💡 セキュリティ: APIキーは公開しないでください。GitHubなどにアップロードしないよう注意しましょう。

[画像: APIキー取得画面]

ステップ4: APIから使う(開発者向け)

プログラムから使う場合は、Google Cloud Client Libraryを使用します。

Python例:

from google.cloud import texttospeech

# クライアント作成
client = texttospeech.TextToSpeechClient()

# 音声合成リクエスト
synthesis_input = texttospeech.SynthesisInput(text="こんにちは。私はGoogle Cloud Text-to-Speechです。")
voice = texttospeech.VoiceSelectionParams(
    language_code="ja-JP",
    name="ja-JP-Wavenet-A"
)
audio_config = texttospeech.AudioConfig(
    audio_encoding=texttospeech.AudioEncoding.MP3
)

# 音声生成
response = client.synthesize_speech(
    input=synthesis_input,
    voice=voice,
    audio_config=audio_config
)

# 音声ファイル保存
with open('output.mp3', 'wb') as file:
    file.write(response.audio_content)

💡 SDKは多言語対応: Python、JavaScript、Java、Ruby、PHPなど、主要言語に対応しています。

[画像: コード例]


主要機能

1. テキスト読み上げ(TTS)

テキストを音声に変換します。Standard音声、WaveNet音声、Neural2音声(日本語は非対応)から選択可能です。

2. WaveNet音声

DeepMindが開発した深層学習技術を使った高品質音声です。Standard音声よりも自然で、人間らしい音声が生成できます。

3. SSML対応

SSML(Speech Synthesis Markup Language)を使えば、読み方の細かい調整ができます。

:

  • 一時停止: <break time="1s"/>
  • 強調: <emphasis level="strong">重要</emphasis>
  • 速度変更: <prosody rate="slow">ゆっくり</prosody>

4. タイムポイント

音声と同期して、どの単語がいつ発音されるかのタイムスタンプを取得できます。字幕生成やリップシンクに使えます。

5. 音声効果プロファイル

ヘッドフォン、スピーカー、電話など、再生デバイスに最適化された音声を生成できます。

6. 多言語対応

40以上の言語に対応しています。

7. カスタム音声(ベータ版)

企業向けに、独自のブランド音声を作成することも可能です(別途契約が必要)。

8. Google Cloud連携

他のGoogle Cloudサービス(Cloud Storage、Cloud Functions、Cloud Runなど)と連携して、大規模な音声生成システムを構築できます。


メリット・デメリット

メリット

  • 毎月無料枠あり — 月100万文字まで無料(無期限)
  • WaveNet音声 — 高品質、DeepMind技術を使用
  • 従量課金 — 使った分だけ課金、無駄がない
  • SSML対応 — 読み方を細かく制御できる
  • Google Cloud連携 — 大規模システムに組み込みやすい
  • 信頼性 — Googleの高い信頼性とスケーラビリティ

デメリット

  • ⚠️ 開発者向け — プログラミング知識が必要
  • ⚠️ GUIなし — 初心者には使いにくい
  • ⚠️ Google Cloudアカウント必須 — クレジットカード登録が必要
  • ⚠️ 日本語はNeural2非対応 — 最新音声エンジンが使えない
  • ⚠️ 音声クローニング不可 — 自分の声をAI化する機能はない

まとめ・おすすめ度

Google Cloud Text-to-Speechは、開発者やエンジニア に最適です。

こんな人におすすめ

  • 👨‍💻 開発者・エンジニア — Web アプリ スマホやパソコンで使う道具(ソフト)のこと。LINEもYouTubeもアプリの一つ もっと詳しく → やモバイルアプリに音声機能を組み込みたい
  • 🏢 企業のシステム担当者 — 大規模な音声生成システムを構築したい
  • 🤖 AIアシスタント開発者 — Google Assistantのようなサービスを作りたい
  • 📚 オーディオブック制作者 — 大量の文章を音声化したい

向いていない人

  • プログラミング初心者 — APIの知識がないと使えない
  • GUIが欲しい人 — ブラウザで手軽に使いたい人にはVOICEVOXやCoeFontがおすすめ

おすすめ度: ★★★★☆(5点満点中4点、開発者向けとして)

開発者にとっては非常に優れた選択肢。毎月無料枠があり、WaveNet音声は高品質。ただし、日本語はNeural2非対応なのが残念。


関連記事

※ 2026年2月時点の情報です。最新情報は公式サイトをご確認ください。

関連記事