高柳健次郎業績賞 2014年受賞者

「膨大なテキストデータを知識源として活用するアシスタント技術の開発」

松尾 写真

松尾義博
(日本電信電話株式会社 メディアインテリジェンス研究所 主幹研究員 1965年生)

[学 歴] 1990年   3月 大阪大学大学院 理学研究科 物理学専攻 修士課程修了
[職 歴] 1990年   4月 日本電信電話株式会社入社 NTT情報通信処理研究所
2000年 4月 NTTコミュニケーション科学基礎研究所 主任研究員
2005年 10月 NTTサイバースペース研究所 主幹研究員
  ● 主な受賞等
1998年、2004年、2012年 日本電信電話株式会社 社長表彰
2013年度  言語処理学会 最優秀論文賞
2014年   3月 言語処理学会 第20回年次大会優秀賞

主な業績内容

松尾義博氏は、1990年から約25年にわたって自然言語をコンピュータで自動処理する技術の研究開発に携わり、機械翻訳研究など を通じて解析技術の考案などに取り組んできた。同氏は、大規模な計算機用意味辞書の構築に継続的に取り組み、同辞書と統計的な機械 学習手法を組み合わせることで、多種多様なテキストを解析可能な実用的な日本語処理技術を実現した。氏の業績は、これら日本語処理 技術の実現に加えて、同技術を用いてのビッグデータ化したテキストの知識処理技術の開発、ならびに、テキストを知識源とした知的なア シスタントサービスの実現にある。実現されたサービスには、例えばNTTドコモの音声エージェントサービス「しゃべってコンシェル」や NTTグループ各社のツイッター分析サービスが挙げられる。

テキストコンテンツの流通は、1990年代から始まったインターネット(ウェブ)の急速な発展により、大きくその様態が変貌してきた。 ウェブ以前の代表的メディアである新聞が年間数十万記事(数億字)規模だったのに対し、日本語ウェブページの規模は数十~数百億ペー ジ(数兆~数十兆字)に達すると推計されている。情報通信技術がもたらした流通コストの逓減はテキストの流通量の爆発的な増大をも たらしたが、この増大はコンテンツ量の増大にとどまらず、書き手の拡大・多様化という意味を併せ持つ。すなわち、従来のコンテンツは少 数の訓練された著者によって執筆されていたが、多数の一般消費者が執筆したコンテンツ(消費者生成メディア;CGM)が大きく拡大し、 その量においてはプロの執筆者からなるテキストを圧倒するものとなった。これらCGMをビッグデータとして統計処理することで、今ま で容易ではなかった一般消費者の生の声を把握できると期待されていたが、生の声は、いわゆる規範的な文章から大きく逸脱した不統一 でくだけた多様な表現を多数含んでおり、文法を基に実装されてきた従来の日本語処理にとって大きな障壁となっていた。

そこで、同氏は、これら多様な表現を含むコンテンツを理解・整理するために、膨大なウェブコンテンツ間のテキスト記述の同一性に着 目し研究を進めた。著者が不特定多数のテキスト間に於いては用語の統一や言い回しの一貫性は期待できず、表記のゆらぎや略語等に よって同一のことを指し示す多数の表現が存在している。よって、大量のテキストデータから価値のある情報を導き出すためには、これら 多数の表現の意味するものが同一であることを判定し、意味の単位で言葉を集約することが不可欠である。同氏は、固有表現の指示対象 物の同一性や外国語間の表現の同一性、述語間の表現の同一性といった種々の表現名寄せ技術や、部分的に複製されたウェブページを高 速に検出する技術を考案・開発することで問題を克服した。これらの技術はPC・モバイルにおけるソーシャルメディア検索システムやIP 放送のコンテンツ検索システム等で展開されると共に、マーケティングサポートサービスや国政選挙世論調査、コールセンタ向けのマイニ ングシステム等に広く利用され、消費者のポジティブ/ネガティブといった意見・評判を直接把握することが可能になった。

さらに、同氏は、解析・集約された意味情報を知識として活用する知識処理技術の研究開発に取り組み、質問応答技術の実現などを主導 した。ウェブ上に散在しているテキストデータから抽出された知識を集約することで、ユーザーの情報提供要求にピンポイントで回答する 巨大な知識源が構築できる。従来の検索キーワードを用いた文書検索であれば、ユーザーは検索結果の文書から所望の情報を読み解く 必要があったが、質問応答技術を用いれば、例えば「フランスの大統領は?」といった質問に対して端的に「フランソワ・オランド」と回答を することが可能となった。同技術は、NTTドコモにおいて、スマートフォンの音声アシスタントサービスに導入され、使いやすい情報アクセ スサービスとして普及が進んでいる。