横浜国立大学大学院 先進実践学環

森 辰則 先生編(専門:応用数学/研究テーマ群: 応用AI)

今回のインタビューは自然言語処理がご専門の森辰則先生にお伺いします。

Q. 森先生のご専門は自然言語処理との事ですけれどもどのような分野でしょうか。

 自然言語処理と言う言葉は自然言語+処理からなりますが、まず自然言語とは何かということからご説明しましょう。人間が使う言語、例えば 日本語ですとか英語などが自然言語です。そして処理とはコンピューターで扱う、と言う意味です。したがって、自然言語処理はコンピューターで言葉を扱うための研究、ということになります。例えばスマートフォンやAIスピーカーなど、言葉で問いかけると何か応答してくれる、答えを見つけてくれる、という仕組みがありますが、それらは質問応答対話システムと呼ばれるもので自然言語処理の1分野になります。また、みなさんが日頃お使いになっている検索エンジン、例えばgoogleやマイクロソフトのBingなどは検索の立場から見たときの自然言語処理です。みなさんの身の回りに浸透している技術ですね。

Q. 人とコンピューターの間のインターフェースに関わる学問ということでしょうか。

 その通りです。人と人間の間に立って、繋がりを円滑にするということになります。

Q. 研究でエキサイティングな点について教えていただけますか。

 私の研究室では、たくさんの文章が与えられた時に利用者が必要とする情報を見つけてきて、適切に表示する、という研究を行っています。いわゆる情報アクセスと呼ばれている分野です。自然言語処理と言うのは人工知能の大きな1分野であり、人間の知的活動の大きな部分を占める言語を扱うという点で、非常に興味があります。当然のことながら、自然言語を扱うのはコンピューターよりも人間の方が得意なんですよね。じっくり文章を読めば必要な情報は取り出せます。ですが、文書がたくさんあると時間を掛けて対応することが現実的でなくなります。一方で、コンピューターは沢山のデータを並列に処理することもできます。さらに高速に処理できますが、今のところ人間よりもできることが限定されています。我々の研究分野としては、なるべくコンピューターができることを増やしつつ、一方で人間しかできないこともあるので、人間のアシスタントとしてのコンピューターを実現して、人間の役に立つような仕組みを作りたいと言うところであり、そこが面白いところ、となります。

Q. 人間とコンピューターのコラボレーションについての研究なのですね。先生の授業ではどのようなことを学べますか。

 私が担当している専門科目は2つあります。1つは言語情報処理基礎論、もう1つは言語情報応用論です。名前が示すとおり、いずれも自然言語処理に関する講義になっています。言語情報処理基礎論では、言語情報をコンピューターで扱うための基礎的な方法論について議論します。一方で言語情報応用論では、その応用という面から言語情報を扱うコンピューターシステムについて議論をします。ですから、自然言語処理について基礎と応用をそれぞれ扱う科目になっています。

Q. このインタビューでは、「私の1冊」としてオススメの本を伺っております。先生からはどのような本をご紹介いただけますか。

 「人工知能プロジェクトロボットは東大に入れるか,第3次AIブームの到達点と限界」と「統計的自然言語処理の基礎」をご紹介します。前者は「ロボットは東大に入れるか」というグランドチャレンジを扱うプロジェクトの成果をまとめた1冊で、国立情報学研究所を中心とした国内の大学や企業、研究所等が参画しているプロジェクトから、担当者が分担で執筆しています。私の研究室は、この中で世界史の解答に関する手法を担当しています。

コンピューターで大学入試問題を解かせる、という壮大なプロジェクトで、目標は東大合格です。なぜ入試問題を扱ったのか、というのは理由があります。もちろんコンピューターが入試問題を解けると面白い、という純粋な知的好奇心があります。しかしそれだけではありません。人間とコンピューターの間で自然言語処理が使われる場合、例えばSiriや AIスピーカーに話しかけて質問や要求するとき、実は人間の出す質問は結構複雑な構造をしています。例えばQAサイトで見る質問は結構長い文章です。あれを理解して、人間に対して要求に応えようとすると高度な質問応答が必要になります。入試問題をグランドチャレンジにしている理由はまさにそこでして、コンピューターが高度な質問に対して回答を見つけるか、ということを目標にすることによって、現実的な質問応答を達成しようという目的があります。この本は、少し専門よりの内容が書かれている本ですが、興味がありましたら読んでください。

後者は非常に有名な自然言語処理の教科書を、4人の研究仲間で翻訳した訳書になっています。ずいぶん厚い本ですが、定番の本の日本語訳ということで役に立つと思います。扱っている内容は統計的な自然言語処理です。今流行りのディープラーニングは沢山のデータを処理して、そこにある規則性を自動的に抽出するものですが、その基礎になっている方法論なども、この教科書で説明されています。言語処理がやろうとしていることの本質が見えてくると思います。

Q. 最後に志望する学生にメッセージをお願いします。

 先進実践学環では、その先進的な文理融合、異分野融合の教育研究を実践しています。私の研究している自然言語処理は、理系分野としてのコンピューターサイエンスと、文系分野としての言語学が融合している形になっていますので、異分野融合の研究分野のひとつになっていると思います。このような典型的なものではないにしろ、皆さんが主に研究したいと思っている分野をさらに広い視野をもって発展させていきたい、と考えていらっしゃるのであれば、ぜひ先進実践学環を志望してください。先進実践学環では、横浜国立大学における多くの分野の教員が研究教育に参画しています。その2年間の学習や研究を通じて、積極的に色々な分野の教員や学生さんとコミュニケーションをとることによって、皆さんの研究を一層深めていくことができるのではないかと思います。見聞を広げていただくことは、よい研究にも繋がりますし、さらに社会に巣立った後も役に立つと思います。

森 辰則

横浜国立大学大学院環境情報研究院 教授。自然言語処理、情報検索、情報抽出等の研究に従事。著書に『ロボットは東大にはいれるか』(共著、東京大学出版会、2018年)、『統計的自然言語処理の基礎』(共訳、共立出版、2017年)などがある。