高柳健次郎業績賞 2012年受賞者

「生放送において即時に字幕を表示するための音声認識技術の研究開発」

今井 写真

今井亨
(日本放送協会 技術局 計画部 副部長 1965年生)

[学 歴] 1987年 早稲田大学 理工学部 電気工学科 卒業
[職 歴] 1987年 日本放送協会入局
1990年 NHK放送技術研究所
1996年 米BBN滞在研究員
1997年 NHK放送技術研究所
2002年 NHK放送技術研究所 主任研究員
2012年 NHK技術局 副部長
  ● 主な受賞等
1998年 (社)日本音響学会 第15回粟屋潔学術奨励賞
2001年 (財)新技術開発財団 第33回市村学術賞貢献賞
2001年 (財)放送文化基金 第27回放送文化基金賞(放送技術)
2002年 (社)電子情報通信学会 平成13年度論文賞
2002年 (社)映像情報メディア学会 第42回・平成13年度丹羽高柳賞業績賞
2007年 (社)情報処理学会 平成18年度業績賞

主な業績内容

放送番組の内容を文字で伝える字幕放送は、聴覚障害者や高齢者にとって最も重要な情報入手手段のひとつである。字幕放送の文字を一 般的なキーボードで入力しようとすると、日本語は同音異義語が多く仮名漢字変換を要するため、実時間の何倍もの時間を要してしまう。その ため、1985年の字幕放送開始以来、字幕が付与される番組は長い間ドラマやドキュメンタリーなど、事前収録番組に限られていた。

今井 亨氏は、生放送番組にも字幕をつけて欲しいとの聴覚障害者からの強い要望を受けて進められた、不特定話者に適用可能な大語彙リ アルタイム連続音声認識技術の研究開発に参画し、日本で初めてのニュース番組の字幕放送の実現(2000年。音声認識による放送番組の字 幕制作は世界初)に大きな貢献をした。

音声認識によるこのニュース字幕制作システムは、ニュース番組のスタジオ・アナウンサーの原稿読み上げ音声を入力すると、95%以上の 精度でリアルタイムに音声を日本語文字列へ変換し、オペレーターによる確認・修正を経て、数秒の遅れ時間で字幕放送を制作するものであ る。開発した音声認識技術の特長は、多くのアナウンサーの声の特徴をあらかじめ学習しておくことで、新たな発話者の音声登録を不要とする 「不特定話者音声認識」、出現頻度の高い数万単語の語彙からなる連続した音声を認識する「大語彙連続音声認識」、音声の入力から約0.5秒 の遅れ時間で認識結果の文字列を逐次確定していく「リアルタイム音声認識」にある。リアルタイム性を維持しつつ正確な字幕を制作するた め、放送直前にニュース原稿中の単語や言い回しを自動的に学習する機能や、複数のオペレーターによる効率的な文字の確認・修正機能も備 えている。

アナウンサーの原稿読み上げ部分を直接認識するこの「ダイレクト方式」の実用化後、背景雑音や出演者の多いスポーツ番組(相撲、野球、オ リンピックなど)の字幕放送を実現するため、実況アナウンスや解説を別の字幕キャスターが一人で復唱し、その復唱音声を認識する「リス ピーク方式」の字幕制作システムを実用化した。このリスピーク方式により、リアルタイム字幕放送は年々拡充され、情報番組などさまざまな 番組で利用されるようになった。さらに、ニュースの原稿読み上げ部分と中継リポート部分はダイレクト方式で認識し、インタビュー部分などは リスピーク方式で認識する、両方式を併用して認識性能をいっそう高めた新しい「ハイブリッド方式」のニュース番組用字幕制作システムも実 用化した。このハイブリッド方式では、従来困難だった音声認識のみによるニュース番組全体の字幕付与が可能になり、確認・修正方式をさら に効率化することでオペレーターの数を従来の4名から1~2名へ削減して運用性も高めた。このハイブリッド方式は、少ない要員で効率的に 字幕を制作できるため、従来実施されていなかったローカル放送局でも実用化が検討されているところである。

同氏は、本音声認識技術の核となるリアルタイム音声認識エンジン(入力音声に適合する単語列を高速探索するソフトウェア)の研究開発に 携わり、発声中でも認識結果を逐次確定して字幕の表示遅れを少なくする手法を考案したほか、発話区間検出アルゴリズムの高精度化、男女 自動判定や声のモデルの識別的学習による認識率改善、放送中の言語モデル自動更新機能など、音声認識の各要素技術とシステム全体の性 能改善で中心的な役割を果たした。

本業績は生字幕放送普及の契機となり、情報バリアフリーの先駆的実現と音声認識の有用性の実証としての意義、および情報通信放送分 野への貢献が極めて大きい。