Amazon Pollyの特徴・料金・使い方を徹底解説【2026年最新】
この記事の要約
Amazon PollyはAWS上のAI音声合成サービス。API利用メイン、従量課金制で無料枠あり。SSML対応、ニューラル音声も利用可能。使い方と料金を初心者向けに解説します。
この記事でわかること
- Amazon Pollyの特徴とAWS連携のメリット
- 従量 課金 サービスの有料機能を使うためにお金を払うこと もっと詳しく → 制の料金体系と無料枠の内容
- API利用方法とSSML(音声制御言語)の使い方
Amazon Pollyってなに?
Amazon Polly(アマゾン・ポリー)は、AWS(Amazon Web Services)が提供する AI 人間のように考えたり判断したりできるコンピュータの仕組み。人工知能とも呼ばれる もっと詳しく → 音声合成サービスです。テキストを音声に変換するAPI(アプリケーション・プログラミング・インターフェース)として提供されており、主に 開発者向け のサービスです。
Web アプリ スマホやパソコンで使う道具(ソフト)のこと。LINEもYouTubeもアプリの一つ もっと詳しく → やモバイルアプリに音声機能を組み込む際に使われ、Alexa(アレクサ)などのAmazon製品にも利用されている技術です。
💡 初心者向けではない: GUI(グラフィカル・ユーザー・インターフェース)がなく、APIを使ってプログラムから呼び出す必要があるため、プログラミング知識が必要です。
日本語対応状況
✅ 完全対応
Amazon Pollyは日本語に完全対応しています。日本語の音声モデル(Standard、WaveNet、Neural)が用意されており、自然な日本語音声を生成できます。
対応言語は 30以上 で、英語、スペイン語、ドイツ語、フランス語、中国語、韓国語、日本語など、グローバルなコンテンツ制作に対応しています。
💡 日本語の文字課金: 日本語(ja-JP)の文字はUTF-8で複数バイトを要しますが、課金は1文字単位です(バイト単位ではない)。
料金体系
無料枠(12ヶ月間)
- 期間: AWS アカウント サービスを使うための自分専用の入場券みたいなもの。名前(メールアドレス)と合言葉(パスワード)のセット もっと詳しく → 作成から12ヶ月間
- 月間文字数: 100万文字(スピーチまたはスピーチマークリクエスト)
- 対象: Standard音声、Neural音声いずれも対象
💡 12ヶ月限定: 無料枠は最初の12ヶ月のみ。13ヶ月目以降は従量課金になります。
従量課金(無料枠超過後)
Standard音声
- 料金: $4.00 / 100万文字
- 特徴: 基本的な音声品質
Neural音声(ニューラル音声)
- 料金: $16.00 / 100万文字
- 特徴: 高品質、より自然な音声
- 対応言語: 主要言語(日本語含む)
💡 コスト例:月10万文字生成する場合
- Standard音声: 約$0.40(約60円)
- Neural音声: 約$1.60(約240円)
長文音声合成タスク
大量の文章を一度に音声化する場合、最大50%割引の料金が適用されます。
※ 2026年2月時点の情報です。最新情報は Amazon Polly公式サイト をご確認ください。
利用開始~初回使用の手順
ステップ1: AWSアカウント作成
- AWS公式サイト(aws.amazon.com)に アクセス ウェブページを訪れること。ネット上のページに「行く」こと もっと詳しく →
- 「アカウントを作成」を クリック パソコンのマウスのボタンを押すこと。「これを選ぶ!」という操作 もっと詳しく →
- メールアドレス インターネット上の自分の住所のようなもの。「○○@gmail.com」のような形をしている もっと詳しく → 、 パスワード 自分だけが知っている合言葉。他の人にアカウントを使われないようにする鍵のようなもの もっと詳しく → 、支払い情報(クレジットカード)を登録
💡 メールアドレスをまだお持ちでない方はGmailの作り方を参考にしてください。パスワードの決め方はパスワードの作り方で解説しています。
💡 注意: クレジットカード登録が必須ですが、無料枠内なら課金されません。
[画像: AWSアカウント作成画面]
ステップ2: Amazon Pollyコンソールにアクセス
- AWSマネジメントコンソールに ログイン 自分の入場券(アカウント)を見せて、サービスの中に入ること もっと詳しく →
- 検索バーに「Polly」と入力
- 「Amazon Polly」をクリック
[画像: Amazon Pollyコンソール]
ステップ3: テスト音声を生成する(コンソール経由)
- 「Text-to-Speech」タブを選択
- テキスト入力欄に日本語テキストを入力 例: 「こんにちは。私はAmazon Pollyです。」
- 言語を「Japanese」、音声を選択(例: Mizuki、Takumi)
- エンジンを選択(Standard または Neural)
- 「Listen」ボタンをクリックして音声を確認
- 「Download MP3」で ダウンロード インターネット上にあるファイルやアプリを、自分のスマホやパソコンに取り込むこと もっと詳しく →
[画像: 音声生成画面]
ステップ4: APIから使う(開発者向け)
プログラムから使う場合は、AWS SDK(Software Development Kit)を使用します。
Python例:
import boto3
# Pollyクライアント作成
polly = boto3.client('polly', region_name='ap-northeast-1')
# 音声合成リクエスト
response = polly.synthesize_speech(
Text='こんにちは。私はAmazon Pollyです。',
OutputFormat='mp3',
VoiceId='Mizuki',
Engine='neural'
)
# 音声ファイル保存
with open('output.mp3', 'wb') as file:
file.write(response['AudioStream'].read())
💡 SDKは多言語対応: Python、JavaScript、Java、Ruby、PHPなど、主要言語に対応しています。
[画像: コード例]
主要機能
1. テキスト読み上げ(TTS)
テキストを音声に変換します。Standard音声とNeural音声から選択可能です。
2. SSML対応
SSML(Speech Synthesis Markup Language)を使えば、読み方の細かい調整ができます。
例:
- 一時停止:
<break time="1s"/> - 強調:
<emphasis level="strong">重要</emphasis> - 速度変更:
<prosody rate="slow">ゆっくり</prosody>
3. ニューラル音声
Neural音声エンジンを使うと、より自然な音声が生成できます。感情表現やイントネーションが改善されています。
4. スピーチマーク
音声と同期して、どの単語がいつ発音されるかのタイムスタンプを取得できます。字幕生成やリップシンクに使えます。
5. レキシコン(辞書)
固有名詞や専門用語の読み方を登録できます。
6. リアルタイムストリーミング
音声を生成しながらストリーミング配信することも可能です。
7. 多言語対応
30以上の言語に対応しています。
8. AWS連携
他のAWSサービス(S3、Lambda、CloudFrontなど)と連携して、大規模な音声生成システムを構築できます。
メリット・デメリット
メリット
- ✅ 従量課金 — 使った分だけ課金、無駄がない
- ✅ 無料枠が充実 — 月100万文字(12ヶ月間)
- ✅ SSML対応 — 読み方を細かく制御できる
- ✅ ニューラル音声 — 高品質な音声が利用可能
- ✅ AWS連携 — 大規模システムに組み込みやすい
- ✅ スピーチマーク — 字幕生成やリップシンクに対応
- ✅ 信頼性 — AWSの高い信頼性とスケーラビリティ
デメリット
- ⚠️ 開発者向け — プログラミング知識が必要
- ⚠️ GUIなし — 初心者には使いにくい
- ⚠️ AWSアカウント必須 — クレジットカード登録が必要
- ⚠️ 無料枠は12ヶ月限定 — 13ヶ月目以降は従量課金
- ⚠️ 音声クローニング不可 — 自分の声をAI化する機能はない
まとめ・おすすめ度
Amazon Pollyは、開発者やエンジニア に最適です。
こんな人におすすめ
- 👨💻 開発者・エンジニア — Webアプリやモバイルアプリに音声機能を組み込みたい
- 🏢 企業のシステム担当者 — 大規模な音声生成システムを構築したい
- 🤖 AIアシスタント開発者 — AlexaやGoogle Assistantのようなサービスを作りたい
- 📚 オーディオブック制作者 — 大量の文章を音声化したい
向いていない人
- ❌ プログラミング初心者 — APIの知識がないと使えない
- ❌ GUIが欲しい人 — ブラウザ インターネットを見るためのアプリ。ChromeやSafari、Edgeのこと もっと詳しく → で手軽に使いたい人にはVOICEVOXやCoeFontがおすすめ
おすすめ度: ★★★★☆(5点満点中4点、開発者向けとして)
開発者にとっては非常に優れた選択肢。従量課金で無駄がなく、AWS連携も強力。ただし、初心者には向いていません。
関連記事
- 音声生成AIサービス比較まとめ — 他サービスとの比較
- Google Cloud Text-to-Speech:Google版音声合成API — Googleのクラウド音声サービス
- VOICEVOX:無料の日本語音声合成ソフト — 初心者向けの無料ソフト
※ 2026年2月時点の情報です。最新情報は公式サイトをご確認ください。
関連記事
ChatGPT vs Claude vs Gemini:初心者向け徹底比較【2026年最新】
「AIを使いたいけど、どれを選べばいい?」という方へ。ChatGPT・Claude・Geminiの3サービスを、専門用語を使わずにやさしく比較します。
Adobe Fireflyの特徴・料金・使い方を徹底解説【2026年最新】
Adobe Creative Cloudと統合された画像生成AI「Adobe Firefly」の商用利用の安全性、料金プラン、使い方を初心者向けに解説します。
Canva AI画像生成の特徴・料金・使い方を徹底解説【2026年最新】
デザインツールCanvaに内蔵されたAI画像生成機能の使い方、無料プランと有料プランの違い、デザインへの活用方法を初心者向けに解説します。