第22回新技術研究会」 | ASPIC（一般社団法人日本クラウド産業協会）

第22回新技術研究会
「急速に進化する音声処理の現状と課題」

開催日時

令和2年12月11日(金)　15:00～16:50

主催

ASPICセミナー事務局

講演概要

タイトル

「急速に進化する音声処理の現状と課題」

講師

和歌山大学　名誉教授、理化学研究所　客員研究員　河原英紀様

講演概要

音声認識を使った製品が増え、「OK, Google, 音楽をかけて」「アレクサ、明日の天気は？」といったセリフが、日常的に聞かれるようになってきました。また、コンピュータで音声を扱う技術としては、音声合成の性能もずいぶん良くなり、人間が話しているのと区別がつかないような合成音声ができるようになっています。これらの音声情報処理は音声認識と音声合成とからなっており、その発展の歴史にそって技術的な特徴の説明がありました。特にこの数年は深層学習（Deep learning）が利用されるようになって、これまでの10年間の進歩に匹敵する進歩が1年で進むような状況になっているとの説明がありました。

音声認識では、入力された音声を音響処理、言語庶路を行って言語表現テキストを出力する。そして、この認識率は人間の認識率95％を越えた状態になっており、音声認識は人間の能力を越えてしまっている。現在学会等では、同時に複数人が話したことをリアルタイムに近い状況で認識できるかを競っている状況であることが説明されました。

音声合成では、自然な会話ができる状況まで来ており、電話での会話では、相手が人と話していると勘違いする状況まできている。そのような、電話先の人を騙したデモンストレーションをやった事例が紹介された。合成された音声が、本当に人が発したものなのか、マシンで作成したものなのか判別できない状況になっていると説明がありました。

音声認識と音声合成の最新のデモンストレーションとして、プレゼンで話している内容が、横のスクリーンにほぼリアルタイムに文字で表示され、次の段階では、その文字（英語）が中国語に変換され、さらに次の段階では、プレゼンを行っているスピーカーの声の特徴を抽出し、その特徴を使って、中国語に翻訳したものをプゼンしている人に似せた合成音声で話すというデモンストレーションが紹介されました。

最後に、日本の音声処理技術で最先端の研究開発を行っている研究者とどのような分野の研究開発を行っているかの紹介がありました。

質問・コメント

次のような質問がありました。

TVドラマなどで犯人を特定するのに「声紋」を使っているようなものがあったが、これは本当に本人の特定できるのか質問があった。回答として、声紋は全く使い物にならない。TV受け（TVの見栄え）するので、使っているだけで、合成音声か、本当に人が話しているのか音声を聞いただけでは分からないとの回答があった。
Google社での研究開発についてに対しても質問があり、Google社では、世界中どこにいても研究ができる体制を整えていることや成果としてまとめたものだけでなく、途中のメモなども含めすべて置いてきたこと、研究に使用するいろいろなデータは、現在行っている商用サービス等から集めてきたのではなく、必要に応じて作っていることなどについて説明されました。