Research
Audio
研究テーマ
広告音声合成と音声対話システム
チームのミッション
Audioチームは、AIやCGで再現した人物動画にAIで音声をつけるプロジェクトがきっかけで誕生しました。読み上げやアナウンスとは異なり、広告音声には美味しさや爽快感など、喜怒哀楽のような純粋な感情では表現しきれない幅広い表現力ときめ細かな制御が必要となります。これらに対応するため、社内収録や大規模事前学習を活用し、音声合成や声質変換、自然言語処理を応用した様々な手法を開発しています。一方で、自動電話応対を始めとする音声対話システムのための音声合成・認識、音源分離、聴覚、そしてLLMの活用やアバター動作にも取り組んでいます。音声認識は汎用認識のほか、読み特化や固有名詞対応にも注力しています。また、対話体験向上のためにストリーミング認識や合成にも対応しています。実店舗などを想定した複数人音声の同時認識や、人にとっての認識しやすさの自動評価も扱っています。
プロジェクト
① 表現力の高い音声合成と声質変換
広告に使われる音声は、一般的なアナウンスと比べてアクセントやイントネーションの自然さに対する要件の水準が高い傾向があります。また、一つの発話中にも時々刻々ときめ細かく変化するような多様な表現が要求されます。これらを実現するため、より自然なピッチを予測したり、簡単かつ柔軟に制御したりできる手法の実現を目指しています。
一方で、著名人の音声をできるだけ負担をかけずに再現するために、より少ない収録データでもより自然に再現できるよう、極(きわみ)AIお台場スタジオでの音声収録や大規模事前学習を活用したり、学習データにない声質をさらに高品質に出せるようにしたりすることにも取り組んでいます。
② ドメイン特化の音声認識
電話音声や、店舗の騒音環境下など、特定の音響条件において汎用音声認識よりも頑健であることを目指した手法を開発しています。また、商品名や地名など、特定のユースケースで現れる固有名詞に対応しやすくする手法を研究しているほか、何と発音したかに注目する手法にも取り組んでいます。低遅延なストリーミング認識にも対応し、後段の処理に使う場合の性能向上も目指しています。音声合成のためのデータ作成にも音声認識を応用しています。
③ 音源分離・音声強調
騒音環境や複数人の声が混在している状況で、それぞれの人の声を個別に抽出したり、その人の声の方向を特定することができる手法を研究しています。店舗などの複数のマイクを使える設定と、電話などの複数のマイクを使えない設定をそれぞれ扱っています。音声認識と組み合わせて、複数人の発話内容を同時に認識することもできます。
一方で、広告等における声や音楽が含まれる音源に音源分離を適用し、音源中の音に関する分析にも挑戦しています。
④ 聴覚分析
人間の聴覚の仕組みを模擬したモデルを設計し、人によって異なる聞こえ方を再現したり、聞き取りやすさを自動的に評価できる手法を研究しています。異なる聞こえ方でも聞き取りやすい音声の実現を目指しているほか、人間の聴覚特性を考慮した音声分析を応用した音声合成の品質向上も目指しています。
⑤ 対話システム
音声や周辺の技術を統合し、言語モデルやモーション、アバターを含めた総合的な対話システムを開発しています。多様なモジュールを組み合わせた状態での遅延を減らしたり、断片的な情報を扱う工夫をしたりしています。対話システムを作る際に顕在化する課題の解決を通して、各モジュールの改善の方向性をフィードバックすることも視野に入れています。
研究領域
広告音声合成/ドメイン特化音声認識/音声強調・音源分離/音声了解度自動評価
所属メンバー
論文一覧
-
Exploring the Capability of Mamba in Speech Applications
音声認識
INTERSPEECH 2024
-
An Attribute Interpolation Method in Speech Synthesis by Model Merging
音声合成
INTERSPEECH 2024
-
Remixed2Remixed: Domain adaptation for speech enhancement by Noise2Noise learning with remixing
音声強調
ICASSP 2024
-
Structured State Space Decoder for Speech Recognition and Synthesis
音声認識
ICASSP 2023