高柳健次郎業績賞 2013年受賞者

「話し言葉音声認識技術に関する基礎・応用研究への貢献」

高橋 写真

高橋敏
(NTTメディアインテリジェンス研究所 音声言語メディアプロジェクト 主席研究員 1964年生)

[学 歴] 1989年 3月 早稲田大学 理工学部 理工学研究科 修士課程修了
2002年 3月 早稲田大学 博士(情報科学)学位取得
[職 歴] 1989年 4月 日本電信電話株式会社入社 NTTヒューマンインタフェース研究所
1998年 3月 NTT北海道支社 法人営業本部
2000年 4月 NTTサイバースペース研究所 主任研究員
2013年 10月 NTTメディアインテリジェンス研究所 主席研究員
  ● 主な受賞等
1993年 3月 (社)日本音響学会 第10回粟屋潔学術奨励賞
1998年 7月 日本電信電話(株) 社長表彰

主な業績内容

高橋 敏氏は1990年代から20年以上にわたり、誰の音声でも認識可能な不特定話者音声認識の基礎研究に携わり、話の音声特徴 を表現する音響モデルの高度化手法などを考案してきた。同氏の研究成果は、音声コマンドなど端末インタフェースとして音声認識を利 用する領域に展開され、電話を使った自動応答システム、パソコンを使ったマルチモーダル音声対話システム、スマートデバイスを使った モバイル音声認識システムへと進展させた。

特に、人と人が会話する、話し言葉の音声認識技術の研究開発と実用化を進め、音声認識による議会録作成システムや、コールセンター での顧客とオペレーターの会話を音声認識により「見える化」する音声マイニングシステムの開発を推進するなど、音声認識技術の発展と 利用・普及に貢献した。

従来、速記の特殊技能者が携わる必要があった議会録作成において、同氏はそれに代わる手法として、音声認識を活用した議会録作成 システムのための研究開発を推進し、システム化において中心的な役割を果たした。同氏の開発した新方式では、議場での議員の発言を 壇上のマイクで収音し、音声認識処理して文字列に変換したものを、原稿作成者が誤認識箇所を修正しながら完成させる。誤認識箇所が 多いと修正する手間が増え作業効率を下げるため、システムには80%以上の音声認識率の達成が必須であった。また、議会進行中も作 業が進められるよう、リアルタイムの音声認識処理が求められた。

これらの要求に応えるための技術として、次々と入れ替わる発言者の音声特徴に即座にシステムが適応して認識精度を向上する技術、 残響がある議場に設置された複数マイクに入力された音声から認識すべき音声を判定するチャネル選択技術、固有名詞を含む100万語 以上の超大語彙にも耐え得るリアルタイム音声認識技術などの開発を同氏は推進し、京都大学が開発した議会用音響・言語モデルの構築 技術と連携して、議会中の音声を85%以上の精度で文字に変換することに成功した。全体システムは、NTT東日本によって開発され衆 議院に導入。2011年より本格的に運用を開始し、現在は本会議をはじめすべての委員会で利用されている。システム運用開始後も継続 的な改良が進められ、現在は90%近い認識精度まで達している。この音声認識議会録作成システムは、地方議会への普及展開も進んで おり、速記中心であった我が国の議会録作成方式を変革しつつある。

さらに同氏は、より自由に会話する話し言葉音声に研究対象を拡張し、コールセンターでの顧客とオペレーターの会話を、音声認識によ り文字に変換し、通話を「見える化」して分析可能にする音声マイニング技術の開発を推進した。

従来は1通話ずつ、人が聞いて内容を確認するしか手段がなく「死蔵」していた音声通話の内容を、音声マイニング技術によって分析する ことで、業務改善や応対品質の向上に貢献することができる。この研究開発で、同氏は話者の感情推定技術も推進し、特に、日本人に多く 見られる “静かな怒り(Cold Anger)”を含む怒り感情検出技術を考案した。声を荒げず諭すように怒るため、従来技術では困難であった” Cold A nger”の検出を、同氏は、会話の間(ま)や相槌の打ち方、言葉遣いなどの傾向から検出する斬新な手法の考案により解決した。蓄 積される膨大な通話音声の高精度な分析を可能にする、この音声認識技術は、企業活動を支援する新たな情報獲得手段となり、コールセ ンターの業務、製品やサービスの改善、オペレーターの応対品質向上などを目的として、その利用が拡大している。