Amazon Pollyの特徴・料金・使い方を徹底解説【2026年最新】

この記事でわかること

Amazon Pollyの特徴とAWS連携のメリット
従量制の料金体系と無料枠の内容
API利用方法とSSML（音声制御言語）の使い方

Amazon Pollyってなに？

Amazon Polly（アマゾン・ポリー）は、AWS（Amazon Web Services）が提供する音声合成サービスです。テキストを音声に変換するAPI（アプリケーション・プログラミング・インターフェース）として提供されており、主に 開発者向け のサービスです。

Web やモバイルアプリに音声機能を組み込む際に使われ、Alexa（アレクサ）などのAmazon製品にも利用されている技術です。

💡 初心者向けではない: GUI（グラフィカル・ユーザー・インターフェース）がなく、APIを使ってプログラムから呼び出す必要があるため、プログラミング知識が必要です。

日本語対応状況

✅ 完全対応

Amazon Pollyは日本語に完全対応しています。日本語の音声モデル（Standard、WaveNet、Neural）が用意されており、自然な日本語音声を生成できます。

対応言語は 30以上 で、英語、スペイン語、ドイツ語、フランス語、中国語、韓国語、日本語など、グローバルなコンテンツ制作に対応しています。

💡 日本語の文字課金: 日本語（ja-JP）の文字はUTF-8で複数バイトを要しますが、課金は1文字単位です（バイト単位ではない）。

料金体系

無料枠（12ヶ月間）

期間: AWS 作成から12ヶ月間
月間文字数: 100万文字（スピーチまたはスピーチマークリクエスト）
対象: Standard音声、Neural音声いずれも対象

💡 12ヶ月限定: 無料枠は最初の12ヶ月のみ。13ヶ月目以降は従量課金になります。

従量課金（無料枠超過後）

Standard音声

料金: $4.00 / 100万文字
特徴: 基本的な音声品質

Neural音声（ニューラル音声）

料金: $16.00 / 100万文字
特徴: 高品質、より自然な音声
対応言語: 主要言語（日本語含む）

💡 コスト例：月10万文字生成する場合

Standard音声: 約$0.40（約60円）
Neural音声: 約$1.60（約240円）

長文音声合成タスク

大量の文章を一度に音声化する場合、最大50%割引の料金が適用されます。

※ 2026年2月時点の情報です。最新情報は Amazon Polly公式サイトをご確認ください。

利用開始～初回使用の手順

ステップ1: AWSアカウント作成

💡 メールアドレスをまだお持ちでない方はGmailの作り方を参考にしてください。パスワードの決め方はパスワードの作り方で解説しています。

💡 注意: クレジットカード登録が必須ですが、無料枠内なら課金されません。

[画像: AWSアカウント作成画面]

ステップ2: Amazon Pollyコンソールにアクセス

AWSマネジメントコンソールに
検索バーに「Polly」と入力
「Amazon Polly」をクリック

[画像: Amazon Pollyコンソール]

ステップ3: テスト音声を生成する（コンソール経由）

「Text-to-Speech」タブを選択
テキスト入力欄に日本語テキストを入力例: 「こんにちは。私はAmazon Pollyです。」
言語を「Japanese」、音声を選択（例: Mizuki、Takumi）
エンジンを選択（Standard または Neural）
「Listen」ボタンをクリックして音声を確認
「Download MP3」で

[画像: 音声生成画面]

ステップ4: APIから使う（開発者向け）

プログラムから使う場合は、AWS SDK（Software Development Kit）を使用します。

Python例:

import boto3

# Pollyクライアント作成
polly = boto3.client('polly', region_name='ap-northeast-1')

# 音声合成リクエスト
response = polly.synthesize_speech(
    Text='こんにちは。私はAmazon Pollyです。',
    OutputFormat='mp3',
    VoiceId='Mizuki',
    Engine='neural'
)

# 音声ファイル保存
with open('output.mp3', 'wb') as file:
    file.write(response['AudioStream'].read())

💡 SDKは多言語対応: Python、JavaScript、Java、Ruby、PHPなど、主要言語に対応しています。

[画像: コード例]

主要機能

1. テキスト読み上げ（TTS）

テキストを音声に変換します。Standard音声とNeural音声から選択可能です。

2. SSML対応

SSML（Speech Synthesis Markup Language）を使えば、読み方の細かい調整ができます。

例:

一時停止: <break time="1s"/>
強調: <emphasis level="strong">重要</emphasis>
速度変更: <prosody rate="slow">ゆっくり</prosody>

3. ニューラル音声

Neural音声エンジンを使うと、より自然な音声が生成できます。感情表現やイントネーションが改善されています。

4. スピーチマーク

音声と同期して、どの単語がいつ発音されるかのタイムスタンプを取得できます。字幕生成やリップシンクに使えます。

5. レキシコン（辞書）

固有名詞や専門用語の読み方を登録できます。

6. リアルタイムストリーミング

音声を生成しながらストリーミング配信することも可能です。

7. 多言語対応

30以上の言語に対応しています。

8. AWS連携

他のAWSサービス（S3、Lambda、CloudFrontなど）と連携して、大規模な音声生成システムを構築できます。

メリット・デメリット

メリット

✅ 従量課金 — 使った分だけ課金、無駄がない
✅ 無料枠が充実 — 月100万文字（12ヶ月間）
✅ SSML対応 — 読み方を細かく制御できる
✅ ニューラル音声 — 高品質な音声が利用可能
✅ AWS連携 — 大規模システムに組み込みやすい
✅ スピーチマーク — 字幕生成やリップシンクに対応
✅ 信頼性 — AWSの高い信頼性とスケーラビリティ

デメリット

⚠️ 開発者向け — プログラミング知識が必要
⚠️ GUIなし — 初心者には使いにくい
⚠️ AWSアカウント必須 — クレジットカード登録が必要
⚠️ 無料枠は12ヶ月限定 — 13ヶ月目以降は従量課金
⚠️ 音声クローニング不可 — 自分の声をAI化する機能はない

まとめ・おすすめ度

Amazon Pollyは、開発者やエンジニア に最適です。

こんな人におすすめ

👨‍💻 開発者・エンジニア — Webアプリやモバイルアプリに音声機能を組み込みたい
🏢 企業のシステム担当者 — 大規模な音声生成システムを構築したい
🤖 AIアシスタント開発者 — AlexaやGoogle Assistantのようなサービスを作りたい
📚 オーディオブック制作者 — 大量の文章を音声化したい

向いていない人

❌ プログラミング初心者 — APIの知識がないと使えない
❌ GUIが欲しい人 — で手軽に使いたい人にはVOICEVOXやCoeFontがおすすめ

おすすめ度: ★★★★☆（5点満点中4点、開発者向けとして）

開発者にとっては非常に優れた選択肢。従量課金で無駄がなく、AWS連携も強力。ただし、初心者には向いていません。

音声生成AIサービス比較まとめ — 他サービスとの比較
Google Cloud Text-to-Speech：Google版音声合成API — Googleのクラウド音声サービス
VOICEVOX：無料の日本語音声合成ソフト — 初心者向けの無料ソフト

※ 2026年2月時点の情報です。最新情報は公式サイトをご確認ください。