Amazon Polly is a cloud TTS service with neural voices tightly integrated into the AWS ecosystem.
✓ メリット
- AWS IAM と S3 のシームレスな統合
- リップシンクとハイライト用の音声マーク (メタデータ)
- 12 か月の無料利用枠を備えた従量課金制の価格設定
- 低レイテンシのストリーミング合成
✗ デメリット
- Google Cloud TTS よりも小さい音声カタログ
- 特定の言語に限定されたニューラル音声
- 新しいディープラーニングのライバルと比較して韻律が自然ではない
| 無料プランあり | ✓ 無料プランあり |
| 料金モデル | usage |
| 価格 (Standard) | varies USD |
| 機能 | |
| 対応言語 | en, ja |
| 音声数 | 80 |
| API | ✓ 利用可能 ドキュメント ↗ |
| 料金プラン | Free Tier$05M standard chars/mo for 12 months Standard voices$4/1M charsAfter free tier Neural voices$16/1M charsAfter free tier |
| 対応環境 | |
| 連携 | AWS Lambda, Amazon Lex, S3, Amazon Connect, SDK (Python, JS, Java) |
| 公式サイト | https://aws.amazon.com/polly/ |
AI解説
Amazon Pollyは、特にAmazon LexチャットボットやAmazon Connectコンタクトセンターを使用するAWSネイティブアーキテクチャに最適なTTSの選択肢です。単語とビジームのタイムスタンプ付きメタデータであるSpeech Marksは、リップシンクアニメーションやカラオケスタイルのハイライトを可能にします。音声の自然さは実用的なアプリケーションには十分ですが、表現力豊かなコンテンツではGoogle Neural2やElevenLabsに及びません。