Amazon Pollyの特徴・料金・使い方を徹底解説【2026年最新】

| AIサービス紹介
#Amazon Polly #音声生成AI #TTS #AI #AWS #API #従量課金 #SSML #ニューラル音声

この記事の要約

Amazon PollyはAWS上のAI音声合成サービス。API利用メイン、従量課金制で無料枠あり。SSML対応、ニューラル音声も利用可能。使い方と料金を初心者向けに解説します。

この記事でわかること

  • Amazon Pollyの特徴とAWS連携のメリット
  • 従量 課金 サービスの有料機能を使うためにお金を払うこと もっと詳しく → 制の料金体系と無料枠の内容
  • API利用方法とSSML(音声制御言語)の使い方

Amazon Pollyってなに?

Amazon Polly(アマゾン・ポリー)は、AWS(Amazon Web Services)が提供する AI 人間のように考えたり判断したりできるコンピュータの仕組み。人工知能とも呼ばれる もっと詳しく → 音声合成サービスです。テキストを音声に変換するAPI(アプリケーション・プログラミング・インターフェース)として提供されており、主に 開発者向け のサービスです。

Web アプリ スマホやパソコンで使う道具(ソフト)のこと。LINEもYouTubeもアプリの一つ もっと詳しく → やモバイルアプリに音声機能を組み込む際に使われ、Alexa(アレクサ)などのAmazon製品にも利用されている技術です。

💡 初心者向けではない: GUI(グラフィカル・ユーザー・インターフェース)がなく、APIを使ってプログラムから呼び出す必要があるため、プログラミング知識が必要です。


日本語対応状況

完全対応

Amazon Pollyは日本語に完全対応しています。日本語の音声モデル(Standard、WaveNet、Neural)が用意されており、自然な日本語音声を生成できます。

対応言語は 30以上 で、英語、スペイン語、ドイツ語、フランス語、中国語、韓国語、日本語など、グローバルなコンテンツ制作に対応しています。

💡 日本語の文字課金: 日本語(ja-JP)の文字はUTF-8で複数バイトを要しますが、課金は1文字単位です(バイト単位ではない)。


料金体系

無料枠(12ヶ月間)

  • 期間: AWS アカウント サービスを使うための自分専用の入場券みたいなもの。名前(メールアドレス)と合言葉(パスワード)のセット もっと詳しく → 作成から12ヶ月間
  • 月間文字数: 100万文字(スピーチまたはスピーチマークリクエスト)
  • 対象: Standard音声、Neural音声いずれも対象

💡 12ヶ月限定: 無料枠は最初の12ヶ月のみ。13ヶ月目以降は従量課金になります。

従量課金(無料枠超過後)

Standard音声

  • 料金: $4.00 / 100万文字
  • 特徴: 基本的な音声品質

Neural音声(ニューラル音声)

  • 料金: $16.00 / 100万文字
  • 特徴: 高品質、より自然な音声
  • 対応言語: 主要言語(日本語含む)
💡 コスト例:月10万文字生成する場合
  • Standard音声: 約$0.40(約60円)
  • Neural音声: 約$1.60(約240円)

長文音声合成タスク

大量の文章を一度に音声化する場合、最大50%割引の料金が適用されます。

※ 2026年2月時点の情報です。最新情報は Amazon Polly公式サイト をご確認ください。


利用開始~初回使用の手順

ステップ1: AWSアカウント作成

  1. AWS公式サイト(aws.amazon.com)に アクセス ウェブページを訪れること。ネット上のページに「行く」こと もっと詳しく →
  2. 「アカウントを作成」を クリック パソコンのマウスのボタンを押すこと。「これを選ぶ!」という操作 もっと詳しく →
  3. メールアドレス インターネット上の自分の住所のようなもの。「○○@gmail.com」のような形をしている もっと詳しく → パスワード 自分だけが知っている合言葉。他の人にアカウントを使われないようにする鍵のようなもの もっと詳しく → 、支払い情報(クレジットカード)を登録

💡 メールアドレスをまだお持ちでない方はGmailの作り方を参考にしてください。パスワードの決め方はパスワードの作り方で解説しています。

💡 注意: クレジットカード登録が必須ですが、無料枠内なら課金されません。

[画像: AWSアカウント作成画面]

ステップ2: Amazon Pollyコンソールにアクセス

  1. AWSマネジメントコンソールに ログイン 自分の入場券(アカウント)を見せて、サービスの中に入ること もっと詳しく →
  2. 検索バーに「Polly」と入力
  3. 「Amazon Polly」をクリック

[画像: Amazon Pollyコンソール]

ステップ3: テスト音声を生成する(コンソール経由)

  1. 「Text-to-Speech」タブを選択
  2. テキスト入力欄に日本語テキストを入力 例: 「こんにちは。私はAmazon Pollyです。」
  3. 言語を「Japanese」、音声を選択(例: Mizuki、Takumi)
  4. エンジンを選択(Standard または Neural)
  5. 「Listen」ボタンをクリックして音声を確認
  6. 「Download MP3」で ダウンロード インターネット上にあるファイルやアプリを、自分のスマホやパソコンに取り込むこと もっと詳しく →

[画像: 音声生成画面]

ステップ4: APIから使う(開発者向け)

プログラムから使う場合は、AWS SDK(Software Development Kit)を使用します。

Python例:

import boto3

# Pollyクライアント作成
polly = boto3.client('polly', region_name='ap-northeast-1')

# 音声合成リクエスト
response = polly.synthesize_speech(
    Text='こんにちは。私はAmazon Pollyです。',
    OutputFormat='mp3',
    VoiceId='Mizuki',
    Engine='neural'
)

# 音声ファイル保存
with open('output.mp3', 'wb') as file:
    file.write(response['AudioStream'].read())

💡 SDKは多言語対応: Python、JavaScript、Java、Ruby、PHPなど、主要言語に対応しています。

[画像: コード例]


主要機能

1. テキスト読み上げ(TTS)

テキストを音声に変換します。Standard音声とNeural音声から選択可能です。

2. SSML対応

SSML(Speech Synthesis Markup Language)を使えば、読み方の細かい調整ができます。

:

  • 一時停止: <break time="1s"/>
  • 強調: <emphasis level="strong">重要</emphasis>
  • 速度変更: <prosody rate="slow">ゆっくり</prosody>

3. ニューラル音声

Neural音声エンジンを使うと、より自然な音声が生成できます。感情表現やイントネーションが改善されています。

4. スピーチマーク

音声と同期して、どの単語がいつ発音されるかのタイムスタンプを取得できます。字幕生成やリップシンクに使えます。

5. レキシコン(辞書)

固有名詞や専門用語の読み方を登録できます。

6. リアルタイムストリーミング

音声を生成しながらストリーミング配信することも可能です。

7. 多言語対応

30以上の言語に対応しています。

8. AWS連携

他のAWSサービス(S3、Lambda、CloudFrontなど)と連携して、大規模な音声生成システムを構築できます。


メリット・デメリット

メリット

  • 従量課金 — 使った分だけ課金、無駄がない
  • 無料枠が充実 — 月100万文字(12ヶ月間)
  • SSML対応 — 読み方を細かく制御できる
  • ニューラル音声 — 高品質な音声が利用可能
  • AWS連携 — 大規模システムに組み込みやすい
  • スピーチマーク — 字幕生成やリップシンクに対応
  • 信頼性 — AWSの高い信頼性とスケーラビリティ

デメリット

  • ⚠️ 開発者向け — プログラミング知識が必要
  • ⚠️ GUIなし — 初心者には使いにくい
  • ⚠️ AWSアカウント必須 — クレジットカード登録が必要
  • ⚠️ 無料枠は12ヶ月限定 — 13ヶ月目以降は従量課金
  • ⚠️ 音声クローニング不可 — 自分の声をAI化する機能はない

まとめ・おすすめ度

Amazon Pollyは、開発者やエンジニア に最適です。

こんな人におすすめ

  • 👨‍💻 開発者・エンジニア — Webアプリやモバイルアプリに音声機能を組み込みたい
  • 🏢 企業のシステム担当者 — 大規模な音声生成システムを構築したい
  • 🤖 AIアシスタント開発者 — AlexaやGoogle Assistantのようなサービスを作りたい
  • 📚 オーディオブック制作者 — 大量の文章を音声化したい

向いていない人

  • プログラミング初心者 — APIの知識がないと使えない
  • GUIが欲しい人 ブラウザ インターネットを見るためのアプリ。ChromeやSafari、Edgeのこと もっと詳しく → で手軽に使いたい人にはVOICEVOXやCoeFontがおすすめ

おすすめ度: ★★★★☆(5点満点中4点、開発者向けとして)

開発者にとっては非常に優れた選択肢。従量課金で無駄がなく、AWS連携も強力。ただし、初心者には向いていません。


関連記事

※ 2026年2月時点の情報です。最新情報は公式サイトをご確認ください。

関連記事