【Next Tokyo ’24】生成 AI を中心とした Google Cloud からのプロダクト アップデートや顧客事例を、基調講演のアーカイブで振り返りましょう。
移動
Text-to-Speech

Text-to-Speech AI

Google の最先端 AI テクノロジーを活用した API を利用して、テキストを自然な音声に変換できます。

新規のお客様には、Text-to-Speech や他の Google Cloud プロダクトをお試しいただける無料クレジットを最大 $300 分差し上げます。

  • 自然でスマートな応答で顧客対応を改善

  • デバイスやアプリケーションの音声ユーザー インターフェースでユーザーを引き付ける

  • ユーザーが選ぶ音声と言語に基づいてコミュニケーションをパーソナライズ

利点

忠実度の高い音声

Google の画期的なテクノロジーを導入すれば、人間のような自然なイントネーションの音声を生成できます。DeepMind の専門的な音声合成技術をベースに構築された API が、人間にかなり近い音声を実現します。

豊富な音声の種類

中国語(北京語)、ヒンディー語、スペイン語、アラビア語、ロシア語など、50 以上の言語と言語変種、380 種類以上の音声から選択できます。ユーザーとアプリケーションに最適な音声を選ぶことができます。

独自の音声

他の企業も使用している一般的な音声の代わりに、貴社のブランドを代表するオリジナルの音声を作成して、顧客とのあらゆるタッチポイントに使用できます。

デモ

Text-to-Speech を試してみましょう

テキストを入力し、言語を選択して [Speak It] をクリックすれば、すぐに読み上げられます。

主な機能

主な機能

ジャーニー音声(試験運用版)

AudioLM に基づく最新の自然な会話音声を使用して、魅力的なエージェントを構築します。

スタジオ音声

スタジオ品質の環境で録音された、プロフェッショナルなナレーションのコンテンツでリスナーの注意を引き付けます。ぜひヘッドホンでお試しください。

Neural2 音声

カスタム音声の背後にある最新の研究に基づく音声を使用して、音声エクスペリエンスを多言語化できます。

カスタム音声

独自の音声録音を使用してカスタム音声モデルをトレーニングし、より自然なオリジナルの音声を作成します。自社に合う音声プロファイルを定義、選択でき、音声を変更する必要が生じたときにもすばやく調整可能です。新しくフレーズを録音する必要はありません。

テキストと SSML のサポート

SSML タグを使用すると、息つぎ、数字、日時���式、その他の発音上の指示を追加して発話をカスタマイズできます。

すべての機能を表示

ドキュメント

ドキュメント

Google Cloud Basics

Text-to-Speech の基本

Text-to-Speech API の使用に関する基本的なコンセプトのガイドです。
Quickstart

クイックスタート: コマンドラインの使用

Google Cloud プロジェクトと認証情報を設定し、テキストから音声を生成するよう Text-to-Speech にリクエストを送信します。
Google Cloud Basics

サポートされている音声と言語

このプロダクトに関するガイドとリソースをご覧ください。
Google Cloud Basics

カスタム音声(ベータ版)の概要

カスタム音声機能を使用して、独自のスタジオ品質の音声録音をベースに、より自然なオリジナルの音声を作成する方法をご確認ください。
Tutorial

WaveNet とその他の合成音声

プレミアム WaveNet 音声など、Text-to-Speech で使用できるさまざまな合成音声について学習します。
Tutorial

SSML で住所を読み上げる

このチュートリアルでは、音声合成マークアップ言語(SSML)を使用して、いくつかの住所を含むテキスト ファイルを読み上げる方法を説明します。

お探しのものが見つからない場合

ユースケース

ユースケース

使用例
コンタクト センターにおける音声 bot

あらかじめ録音された固定的な音声を再生するのではなく、動的に音声を生成する Dialogflow の音声 bot で、��スタマー サービスにおける音声エクスペリエンスを改善します。発信者に親近感とパーソナルな印象を与える高品質の合成音声で対応します。

コンタクト センターの音声 bot: リファレンス アーキテクチャ
使用例
デバイスでの音声生成

デバイスのテキスト リーダーで人間のような音声を使用することで、ユーザーとの自然なコミュニケーションが可能になります。Speech-to-TextNatural Language を取り入れてエンドツーエンドの音声ユーザー インターフェースを構築し、スムーズで魅力的なインタラクションでユーザー エクスペリエンスを改善します。

デバイスでの音声生成のリファレンス アーキテクチャ
使用例
ユーザー補助対応 EPG(電子番組ガイド)

EPG でテキストを読み上げることによって、ユーザー エクスペリエンスが向上するほか、サービスやアプリケーションのユーザー補助の要件も満たすことができます。EPG デモをお試しください

EPG のテキスト読み上げ機能は簡単に実装できます。

TTS API がユーザー補助対応 EPG を作成する仕組みを示すリファレンス アーキテクチャ

すべての機能

すべての機能

カスタム音声
独自の音声録音を使用してカスタム音声合成モデルをトレーニングし、より自然なオリジナルの音声を作成します。自社に合う音声プロファイルを定義、選択でき、音声を変更する必要が生じたときにもすばやく調整可能です。新しくフレーズを録音する必要はありません。詳細
長い音声合成
Long Audio Synthesis を使用して、最大 100 万バイトの入力を非同期的に合成します。
選択できる音声と言語
40 以上の言語と言語変種、220 種類以上の音声から選択できます(今後も順次追加予定)。
WaveNet 音声
DeepMind の音声生成に関する画期的な研究に基づいて開発された 90 以上の WaveNet 音声を利用すると、実際の人間による発話との差が大きく縮まります。
テキストと SSML のサポート
SSML タグを使用すると、息つぎ、数字、日時形式、その他の発音上の指示を追加して発話をカスタマイズできます。
声の高さのチュー��ング
選択した音声の高さ(ピッチ)を、デフォルトから上下 20 セミトーン(半音 20 個分)の幅で調整可能です。
発話速度のチューニング
発話の速度を通常の 4 倍まで速く、または遅くすることができます。
ボリュームのゲイン コントロール
出力のボリュームを最大 16 db、最小 -96 db の幅で調整可能です。
REST と gRPC API の統合
スマートフォン、PC、タブレット、IoT デバイス(例: 自動車、テレビ、スピーカー)など、REST または gRPC リクエストを送信できるすべてのアプリケーションやデバイスとの間で簡単に統合できます。
さまざまな音声形式に柔軟に対応
テキストを MP3、Linear16、OGG Opus、その他さまざまな音声形式に変換します。
音声プロファイル
スピーカーの種類(ヘッドホン、電話回線など)に応じて音声を最適化できます。

料金

料金

Text-to-Speech の料金は、音声への合成のためにサービスに送信された文字数に基づいて、月単位で請求されます。WaveNet 音声の最初の 100 万文字は、毎月無料です。WaveNet 以外の標準音声では、毎月最初の 400 万文字が無料です。Text-to-Speech は無料枠以降 100 万文字ごとに課金されます。

米ドル以外の通貨でお支払いの場合は、Google Cloud SKU に記載されている該当の通貨の料金が適用されます。

次のステップ

新規のお客様には、Text-to-Speech や他の Google Cloud プロダクトを試すための無料クレジット $300 分を差し上げます。

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
コンソール
Google Cloud