オープンソースソフトウェア MMDAgent-EX を公開~ AI時代のマルチモーダル対話・アバターコミュニケーションの学際的研究を促進~
News&Topics
カテゴリ:プレスリリース|2023年12月25日掲載
発表のポイント
〇 AI x CGアバターの研究開発プラットフォームとしてMMDAgent-EXをオープンソースで公開
〇 音声認識・合成・対話が軽量・高速に動作、高精度なアバター表示、外部連携、高い拡張性
〇 多彩な表現が可能な対話用CGアバター「ジェネ」「うか」も同時に公開
〇 機械と人の知的インタフェースの実践的研究の促進に期待
概要
名古屋工業大学大学院工学研究科工学専攻(情報工学領域)の李晃伸教授らの研究グループは、音声対話・CGアバターの研究開発プラットフォーム MMDAgent-EXを開発し、オープンソースで公開しました。MMDAgent-EXは、2011年4月から2022年9月まで本学正門付近に設置されていた双方向音声案内デジタルサイネージやJST 戦略的創造研究推進事業(CREST)等を通じて開発され、音声インタラクション構築ツールキットとして活用されてきたMMDAgentを研究・開発向けに改良・拡張したものです。音声認識・音声合成・対話の各種エンジンがノートPC単体で軽量・高速に動作するほか、ChatGPTやセンサー情報の組み込み、外部連携、他アプリからの操作等が自在に行える、高い拡張性を持ちます。
同時に、2体の対話用CGアバター「ジェネ」「うか」も無償公開しました。これらはJSTムーンショット型研究開発事業 目標1 アバター共生社会プロジェクト(※1)において制作されたCG-CA (Cybernetic Avatar)(※2)で、対話のための高生命感・高存在感を持ったアニメ調キャラクターです。多様な表情表現や身体表現を持ち、CGとしてリアルで感情豊かなインタラクションが可能であり、ツールとともに用いることで統合された高度なCGアバターシステムを構築できます。
CG-CA 「ジェネ」 CG-CA「うか」
いずれもオープンソースライセンスで、日本語および英語の関連文書とともにMMDAgent-EXの公式ウェブサイトおよび GitHubで公開しました。動作環境はWindows、macOS、Linuxです。本ツールの公開により、人工知能、音声、自然言語、対話、バーチャルリアリティ、声だけでなく見た目やしぐさ、ふるまいを統合したマルチモーダル対話やアバターコミュニケーションなど、国内外で今後ますます発展する機械と人のインタフェースの実践的研究プラットフォームとして広く活用されることが期待されます。
研究の背景
本研究グループは長年にわたり、音声言語処理・音声対話システム・人型インタフェース・音声インタラクションの研究を行ってきました。ChatGPTをはじめとした大規模言語モデル(LLM)の登場もあり、音声UIや自然言語UIはAIをバックエンドとする次世代の知的インタフェースとして大きな注目を集めていますが、人に近い自然なやり取りを実現するには、音声・ことば・表情・しぐさなど多様なマルチモーダル情報を統合的に扱う必要があります。また、人型のインタフェースでは見た目やデザイン、ステレオタイプなどの要素が絡むため、技術のみならずデザイン面でも課題が多いと言えます。実践的な研究を行うには多岐にわたる専門技術を統合したシステムが必要であり、単一の研究機関が技術からデザインまですべてを含めて開発するには大きなコストが必要です。
音声対話やインタラクションの統合的プラットフォームとしてはROS (Robot Operating System)などが挙げられますが、CGアバターの表示制御機構も含め総合的に扱う研究開発環境は他に存在しません。本研究グループは、2011年4月から2022年9月まで本学正門付近に設置されていた双方向音声案内デジタルサイネージ「メイ&タクミ」プロジェクトおよびJST 戦略的創造研究推進事業(CREST)等と関連しながら、音声対話とCGキャラクターに着目した研究を行ってきました。2010年に公開したMMDAgentはこれまで100件以上の論文で引用されるなど広く利用されてきましたが、今回、研究グループで開発・拡張してきたツール群を、関連研究分野の多様な発展のためにオープンソースソフトウェアとして無償公開することとしました。
研究の内容・成果
MMDAgent-EXは、その前身である MMDAgent をベースに、研究開発および外部連携のための機能を強化したものです。高速でローカルに動作する軽量な音声認識エンジン・音声合成エンジンを内蔵したコンパクトなCGアバター表示用エンジンを持ちます。従来のMMDAgentに比べて、性能の向上、対話スクリプトの記述力強化、CGアバターの表現力向上が実現されたほか、特にPythonを含む任意のプログラムとの外部連携機能の強化が行われています。動作プラットフォームはこれまでの Windows に加えて新たに macOS と Linux に対応しました。
幅広いインタラクション設計や外部制御が可能で、LLM対話や、ビジョン等各種センサー情報等を扱うプログラムと外部連携あるいは内部埋め込みができます。またCGアバターも自在に入れ替え可能です。様々な情報をCGアバターのアクションと連動させることで、リアルタイムで密なインタラクションを構築できるツールとなっています。
MMDAgent-EXは、ソースコードApache License、Version 2.0 ライセンスで公開されており、誰でも無償で入手・改変が可能です。2体のCGアバターはCC-BY 4.0ライセンスのもとで利用できます。また、ChatGPT との接続例等のチュートリアルと解説を含めた詳細なドキュメントが、MMDAgent-EXの公式ウェブサイトで同時に公開されました。
社会的な意義
インタフェースやインタラクションの多様な研究の促進には、マルチモーダル情報を統合的に扱うことができるプラットフォームが必要となります。今回のMMDAgent-EXおよびCGアバターの公開によって、音声処理からアバター表示までオールインワンの軽量で扱いやすく拡張しやすいツールが利用可能となり、音声、自然言語、対話、ビジョン、ロボティクス、バーチャルリアリティ、マルチモーダル対話やアバターコミュニケーションの学際的な研究開発の促進が期待されます。
今後の展開
公開後もGitHubにてフィードバックを集めつつ、継続的なメンテナンスと改善を実施していくとともに、GitHubを中心として利用者コミュニティの形成を促進します。また、本研究グループでは今後も、今回公開したMMDAgent-EXおよびCGアバターを活用して、音声処理・対話・アバターコミュニケーションに関する研究開発および産学官連携を行っていきます。
用語解説
(※1) ムーンショット型研究開発事業 目標1 アバター共生社会プロジェクト
超高齢化社会や地球温暖化問題など重要な社会課題に対して野心的な目標(ムーンショット目標)を国が設定し、挑戦的な研究開発を推進するムーンショット型研究開発事業の目標1の一つで、大阪大学大学院基礎工学研究科の石黒浩教授がプロジェクトマネージャーとして推進しているプロジェクト。「誰もが自在に活躍できるアバター共生社会の実現」の一環として、ロボットやCGを含めた多様なアバターの様態を活用したCA 基盤と CA 生活の実現を目指した研究開発を推進しています。
(※2) CG サイバネティック・アバター(CG Cybernetic Avatar、CG-CA)
「身代わりとしてのCGアバターに加えて、人の身体的能力、認知能力及び知覚能力を拡張するICT 技術を含む概念」で、Society 5.0 時代のサイバー・フィジカル空間で自由自在に活躍するものを目指しています。
関連リンク
MMDAgent-EX 公式ウェブサイト: https://mmdagent-ex.dev/ja/
データ公開サイト:
MMDAgent-EX: https://github.com/mmdagent-ex/MMDAgent-EX
CG-CA ジェネ: https://github.com/mmdagent-ex/gene
CG-CA うか: https://github.com/mmdagent-ex/uka
名古屋工業大学 李晃伸研究室:https://www.slp.nitech.ac.jp/
お問い合わせ先
研究に関すること
名古屋工業大学大学院工学研究科工学専攻(情報工学領域)
教授 李 晃伸
TEL: 052-735-7550
E-mail: ri.akinobu[at]nitech.ac.jp
広報に関すること
名古屋工業大学 企画広報課
TEL: 052-735-5647
E-mail: pr[at]adm.nitech.ac.jp
*それぞれ[at]を@に置換してください。
分裂酵母の細胞機能を制御する有機小分子を開発 ―細胞内タンパク質の空間配置を誘導するシステムを確立― Beyond 5G/6Gの実現に向けて障害物による電波の遮蔽に強いテラヘルツ無線伝送を自己修復ビームにより実証