第10回HTC研究会は、能勢 隆 准教授「深層学習に基づくクローンボイス生成技術」です!

東北大学ヘルステックカレッジ > EVENTS&NEWS > 第10回HTC研究会は、能勢 隆 准教授「深層学習に基づくクローンボイス生成技術」です!

第10回HTC研究会は、東北大学 大学院工学研究科 通信工学専攻、株式会社ユニシー 代表取締役社長、能勢 隆 准教授による講義テーマ「深層学習に基づくクローンボイス生成技術」です。

ここ数年、機械学習を用いて画像・音声・言語を生成する生成系AI(ジェネラティブAI)技術が急速に発展しています。本講義ではこのうち、音声を対象とし、デジタルツインとして応用が期待される本人そっくりのクローンボイス生成技術について概説します。

具体的には、深層学習を用いることで人間と区別がつかない品質の音声を作り出すテキスト音声合成、自分の声を好きな声に変換できる声質変換技術について述べ、それらの社会応用について紹介します。

障害のある話者の声で明瞭な発音を生成する技術を開発

(以下、国立研究開発法人 新エネルギー・産業技術総合開発機構(NEDO)ニュースリリースより抜粋)

喉頭がんや筋委縮性側索硬化症(ALS)などのため声を失った人の生活の質(Quality of Life:QOL)を向上する手段として、あらかじめ録音した自分の音声データを使って任意のテキストを読み上げる「個人音声合成器」が注目されています。しかし、現在の個人音声合成器は録音した音声の特徴を忠実に再現するため、構音障害※1などで発音が不明瞭な場合、合成器の音声も不明瞭になってしまう課題がありました。

この課題の解決を目指し、株式会社ヒューマンテクノシステムと国立大学法人東北大学はNEDO(国立研究開発法人新エネルギー・産業技術総合開発機構)の「課題解決型福祉用具実用化開発支援事業※2」の下、明瞭な声で自分らしく話すことができる発話障害者向け個人音声合成器の開発に関する共同研究を行ってきました。このたび東北大学が開発した声質変換技術※3を基に、その機能を拡張した上で健常者の音声を変換することによって、その人らしい声を保持しながら明瞭な音声を生成する声質変換技術の開発に成功しました。

なお(株)ヒューマンテクノシステムは、この成果の一部を2022年3月8日に開催された第116回電子情報通信学会・福祉情報工学研究会(WIT)で発表しました。

【注釈】
※1 構音障害
口唇・舌・口蓋や脳機能などの障害により、話しことばを正確・明瞭に発音できない状態を指します。(大辞林「構音障害」より)
※2 課題解決型福祉用具実用化開発支援事業
研究開発項目:明瞭な声で自分らしく話せる発話障害者向け個人音声合成器の開発
事業期間:最長2~3年
事業予算:63百万円(2021年度総事業額)
事業・プロジェクト概要:課題解決型福祉用具実用化開発支援事業
※3 声質変換技術ある人の声を別の人のように変換する技術です。双方の音声データを機械学習することで変換モデルを作成し、これを用いて変換を行います。(記事全文はこちらからご覧いただけます)

PARTICIPATION
参加方法