国際音声言語生成技術研究所
Research
研究・産学官連携
参画機関
- エジンバラ大学
- 国立情報学研究所
- 名古屋大学
- 東京都立大学
- 愛知工業大学
- 株式会社テクノスピーチ
- rinna株式会社
設置期間
2022年4月1日~
2026年3月31日
代表研究者
徳田 恵一 教授
研究者一覧
- (所長)徳田 恵一 教授
- 李 晃伸 教授
- 南角 吉彦 准教授
- 山本 大介 准教授
- 酒向 慎司 准教授
- 橋本 佳 准教授
- 上乃 聖 助教
- 高木 信二 客員准教授
- 吉村 建慶 客員助教
- 法野 行哉 客員助教
- 戸田 智基 名古屋大学(客員教授)
- Steve Renals エジンバラ大学CSTR(客員教授)
- Simon King エジンバラ大学CSTR(客員教授)
- 山岸 順一 国立情報学研究所(客員教授)
- 全 炳河(客員教授)
- 塩田 さやか 東京都立大学(客員准教授)
- 玉森 聡 愛知工業大学(客員准教授)
- 大浦 圭一郎 株式会社テクノスピーチ(客員准教授)
- 中村 和寛 株式会社テクノスピーチ(客員准教授)
- 沢田 慶 rinna株式会社(客員助教)
研究テーマの概要
本研究では、超高品質な音声・オーディオ信号を自在に生成可能な「深層生成モデルに基づく音声・オーディオ信号生成技術の確立」を目的とする。従来型のデジタル信号処理理論は、音声・オーディオ信号処理関連の研究分野における最も根本的な考え方として広く普及・定着しているが、単純なモデル構造による制約のため、その性能には限界があった。ところが、近年、音声波形を直接扱うことのできるWaveNet等の深層学習技術が登場したことにより、この状況が一変しつつある。それまでの音声波形のモデル化手法は、主として離散時間線形時不変システムを前提としたデジタル信号処理理論に基づいて構成されていたが、それに対して高品質な音声波形を直接生成可能なWaveNet等の深層神経回路網(Deep Neural Network: 以下、DNN)は、非線形要素を含む信号生成モデルとなっており、これまでにないブレークスルーにつながる可能性がある。このような背景から、本研究では、近年急速に技術革新が進んでいる深層学習に基づいた、音声波形の直接モデル化手法を俯瞰・整理した上で、更に従来手法の長所をも併せもった、次世代の標準形となりうる音声波形生成手法の確立を目指すものである。
今後の展開
お問い合わせ先
お問い合わせ先 | 名古屋工業大学大学院 情報工学専攻 徳田 恵一 |
---|