国際音声言語生成技術研究所

参画機関

エジンバラ大学
国立情報学研究所
名古屋大学
東京都立大学
愛知工業大学
株式会社テクノスピーチ
rinna株式会社

設置期間

2022年4月1日～
2025年3月31日

代表研究者

徳田恵一教授

研究者一覧

（所長）徳田恵一教授
李晃伸教授
南角吉彦准教授
山本大介准教授
酒向慎司准教授
橋本佳准教授
上乃聖助教
高木信二客員准教授
吉村建慶客員助教
法野行哉客員助教
戸田智基名古屋大学（客員教授）
Steve Renals エジンバラ大学CSTR(客員教授）
Simon King エジンバラ大学CSTR(客員教授)
山岸順一国立情報学研究所(客員教授)
全炳河(客員教授)
塩田さやか東京都立大学(客員准教授)
玉森聡愛知工業大学(客員准教授)
大浦圭一郎株式会社テクノスピーチ（客員准教授）
中村和寛株式会社テクノスピーチ(客員准教授)
沢田慶 rinna株式会社（客員助教）

研究テーマの概要

本研究では、超高品質な音声・オーディオ信号を自在に生成可能な「深層生成モデルに基づく音声・オーディオ信号生成技術の確立」を目的とする。従来型のデジタル信号処理理論は、音声・オーディオ信号処理関連の研究分野における最も根本的な考え方として広く普及・定着しているが、単純なモデル構造による制約のため、その性能には限界があった。ところが、近年、音声波形を直接扱うことのできるWaveNet等の深層学習技術が登場したことにより、この状況が一変しつつある。それまでの音声波形のモデル化手法は、主として離散時間線形時不変システムを前提としたデジタル信号処理理論に基づいて構成されていたが、それに対して高品質な音声波形を直接生成可能なWaveNet等の深層神経回路網（Deep Neural Network: 以下、DNN）は、非線形要素を含む信号生成モデルとなっており、これまでにないブレークスルーにつながる可能性がある。このような背景から、本研究では、近年急速に技術革新が進んでいる深層学習に基づいた、音声波形の直接モデル化手法を俯瞰・整理した上で、更に従来手法の長所をも併せもった、次世代の標準形となりうる音声波形生成手法の確立を目指すものである。

お問い合わせ先

お問い合わせ先	名古屋工業大学大学院情報工学専攻徳田恵一

プロジェクト研究所へ戻る

ページトップへ戻る