「AI記者」の実力 意外に高い言語の壁

 「この記事、AI(人工知能)記者が書きました」――。11月1日、愛知県の経済紙はAIが書いたあいさつ文を紙面全面を使って大々的に掲載した。国内で天気予報や株価情報を伝えるAIが利用されているほか、海外でも広がっている。はたして人間の記者はいらなくなって、クリック一つで自分の望む文章が自動的に生み出される時代は近づいているのだろうか。その実態を探った。
■SNSに流れる日本語を蓄積
 冒頭に紹介した例は、中部経済新聞が創刊70周年の記念として企画したものだ。これだけの長さでAIが書いた文章が紙面を飾るのは「日本初の取り組みではないか」(中部経済新聞社東京支社次長の守屋彰仁氏)と胸を張る。

 AIが書いた文章は「地域経済の現状が把握できる経済情報を集めて、未来像を指し示す努力を続けていく」といった約650文字のあいさつ文だ。創刊当時の苦労や歴史、愛知県を中心とする中部経済が発展する様子に加え、将来に向けた今後の抱負を述べて文章を締めくくっている。
 中部経済新聞が企画を練り始めたのは8月ごろ。「70年の歴史を振り返りながらも、将来に向けた新しい価値を提案できる」(中部経済新聞社東京支社長の竹尾文博氏)ことを念頭に置き、数々のアイデアの中からAI記者のアイデアを選び出した。
 今回の企画を技術面で支援したのが、SNS(交流サイト)の分析を主な業務とする東京のデータセクションだ。同社は過去10年にわたりフェイスブックツイッター、さらにブログに書き込まれた文章を解析し、流行を解析する事業を手掛けてきた。「1日当たり5000万~1億件の書き込みを機械学習で解析し、この言葉とこの言葉の相関関係がどの程度高いのかという言葉のデータベースを蓄積してきた」(データセクションの沢博史社長)
 こうして積み重ねてきた分析技術と言葉のデータベースが日本語の文章作成にも応用できるのだ。最高技術責任者(CTO)の池上俊介氏は「文章を書くのも、分析の延長にある」と話す。データベースには、ある言葉の次にどんな言葉がつながることが多いかという大量の組み合わせを確率として記録している。これを参照して、ある言葉に続く言葉を選ぶときに、お互いに似た内容の単語を選び出す。例えば、AIに関連する言葉に続いて、食べ物やスポーツなど関係のない言葉を並べることはなくなる。
 データベースを参照することで、名詞、助詞、形容詞、動詞といった日本語を構成する要素の並び順や文法が正しいかも判断する。例えば「『このAIはどんな技術ですか?』と書くべき文章で『AIはですか?』となっていればおかしいと分かる」(沢社長)。同社ではこのAIによる文章作成技術を使って、チャットによるサポートサービスを開発し、2017年の実用化に向けて準備を進めている。
■適切なキーワードを人間が設定
 今回のAI記事を作成するために、まず事前準備として中部経済新聞が「創刊の苦労」「中部の経済発展と歴史」「今後の展望」といった原稿に盛り込みたいテーマを提示した。さらにAIが文章作成に利用するための学習用データとして、過去の紙面データをまとめてデータセクションに送った。70年前の創刊号を含め、会社や中部経済の歴史など「資料室の縮刷版から100枚ほどを抜き出してひたすらコピーした」(中部経済新聞社の守屋氏)。電子化されたデータがある2012年以降の分を含め数万点の記事を送付した。

 それでも、データセクションでの文章作成は一筋縄ではいかなかった。過去の記事データをAIに読み込ませて「中部経済新聞」というキーワードのみを設定して文章を作ってみたところ、脈絡がない雑多な文章が生成されてしまった。そこで、与えられたテーマに沿った文章となるように、複数のキーワードを追加していくチューニング作業が必要だった。

 「どんなキーワードを入れるか、その試行錯誤に時間がかかった」と池上CTOは振り返る。AIで文章を作成する時間そのものは1分ほどと短いが、キーワードを変更しては出力された候補文章を確認し、それを見てまた新しいキーワードを加えるという地道な作業を何度も繰り返した。並行して文章の長さを決める数値を調整したり、学習用データから余分な部分を排除したりするといった工夫も加えていった。
 最終的には、作業開始から1週間ほどかけて「創刊」「高度成長」「円高」「モノづくり」「地元」「未来」といったキーワードを、一段落につき10個、全三段落で合計30個のキーワードを設定した。そうして、AIが生成した多数の候補の中から意味の通った文章がいくつかできあがるようになり、完成品として納入するものを選んだ。
 納品した記事を見た中部経済新聞の竹尾氏は「もっと無機質な文章になるかと思っていたが、創刊や中部のものづくりに対する思いまで含まれていたので驚いた」と振り返る。よく見ると「である・だ」調と「です・ます」調が混在し、誤字も残っていたが、あえてAIが出力したそのままの形で掲載した。取材先や取引先から好評だったことから「今後も記念企画などでAI記者の活用を検討したい」(竹尾氏)と話す。
■降水確率はAIが作成している
 ある程度の分量のキーワードを設定するなど、人間が手間をかけて道筋を示してあげれば、その間を補完するそれらしい文章を何とか生み出せる。それが現在のAIの実力といえそうだ。だが、それを理解した上で、うまく使えば業務の効率化につながる。
 気象情報大手のウェザーニューズは、6月からテレビ向けに配信する天気予報の原稿でAIを活用している。同社はニュース番組などの天気予報でアナウンサーが読み上げるための原稿を地方局を含む全国の8割のテレビ局に配信している。これまではすべての原稿を人間が書いていたが、そのうちの「降水確率」の原稿をAIで作るようにした。

 具体的には、「降水確率です。朝6時から夕方6時まで県内各地で20%前後となっています」といった原稿だ。ぱっと見ただけでは、どこにAIらしさがあるのかがわからないが、実は気象情報の数値を読み取りながら、その地域の地形による変化(西部、東部、中部など)、降水確率が特に高い地域がないか、時間による変化などを考慮しながら文章を作り出している。
 「過去1年の原稿を機械学習させ、これまでの人間による原稿の品質をどれだけ再現できるかを追求した」とシステムを開発した同社AIイノベーションセンターの萩行正嗣氏は話す。実際には、AIが原稿の候補を同時に10個ほど提示するので、その中からウェザーニューズ内の担当者がベストなものを選んでいる。「どれが選ばれたのかを学習することで、より精度の高い原稿が作り出せる」(萩行氏)というフィードバックによる学習の仕組みを取り入れており、徐々に品質が高くなる見込みだ。
 同社がAIを取り入れた狙いは、数値の転記間違いといった人為的なミスをゼロに近づけたいと考えたから。また、テレビ局からの「夕方のニュースで気象情報をどう伝えるべきかといった問い合わせに答えるなど、人でしか対応できないコミュニケーションを充実させたい」(同社放送気象運営グループの奥田宗宏グループリーダー)と負担を軽減することで、顧客対応の質を高めたいという考えもある。

 今後さらに文章AIの比率を高めていく方針だ。降水確率のほか、一部地域では「予想気温」の原稿もAIが書き始めた。テレビ局に配信する天気予報の原稿の中で、AIが手掛けている比率は現状で1割程度だが「今日の気温や洗濯や花粉などの指数に対応させることで2018年にかけては3割程度に増やしたい」(萩行氏)と目標を掲げる。その先にはディープラーニング(深層学習)を使い、気象衛星の映像や天気図の画像を分析して傾向を読み取り、原稿を出力する技術も視野に入れている。
 このほかに、金融情報サービスのQUICKも、上場企業の開示情報や株価の動きを速報として配信するサービスを11月から開始した。徳島大学ベンチャーの「言語理解研究所」(徳島市)の技術を使っている。自社株買い、業績予想の修正などの情報をまとめて公表から最短で数秒以内にニュースとして配信している。


名古屋大学大学院工学研究科の佐藤理史教授。AI小説への取り組みをつづった「コンピュータが小説を書く日― AI作家に『賞』は取れるか」(日本経済新聞出版社)を11月に上梓
■深層学習が利用できない

 「我が社の業界内の位置づけと今後の展望を出力せよ」――。最近ブームのAIで文章を自動作成できるといわれると、ボタン一つで我々の仕事を手伝ってくれるのだろうかとついつい期待してしまう。だが、「当面はそんなことはあり得ない」と名古屋大学の佐藤理史教授は否定する。佐藤教授は、AIが小説を書く「きまぐれ人工知能プロジェクト 作家ですのよ」や、AIで東京大学の合格を目指す「ロボットは東大に入れるか(東ロボくん)」プロジェクトで国語や世界史の論文問題にも取り組んできた自然言語処理の第一人者だ。

 「テンプレートがあり、それを部品で埋めるという方法であれば、ある程度の文章作成ができる」(佐藤教授)。ここで紹介した天気予報、あるいは株価情報の原稿は、ある程度スタイルが決まっている。中部経済新聞社のAI記事も複数のキーワードを並べることで人間がテンプレートを定めていたとも考えられる。今後は「工業製品のマニュアルや保険契約の定款のような、ある程度は様式が決まっていて少しずつ改編しなければならない文章を作成するためにAIが役立ちそうだ」(佐藤教授)と展望する。
 海外でもAIで文章を作成する動きは拡大している。米大手通信社のAP通信は企業業績やスポーツのニュース配信にAIの自動文章生成の技術を活用している。米ワシントン・ポストリオ五輪の報道で速報記事にAIを活用して話題となった。一般ユーザー向けにテーマを入力すると有料で英語の文章をまとめてくれる「Articoolo(アーティクーロ)」と呼ばれる試用版のサービスも登場している。
 だが、より汎用的な日本語の生成システムをAIで実現するためには大きな課題が2つあると佐藤教授は指摘する。1つは、人間の意図を伝えることが難しいという問題だ。例えば、面会のアポを取るメールの文章をAIを作成するに当たって、「前回のキャンセルを謝罪する」「予定より30分遅らせたい」「もう1人同行する」といったイレギュラーな内容を伝えるための手段が難しい。人間の意図を伝えられなければ求める文章も得られない。「機械にない袖は振れない」(佐藤教授)わけだ。
 もう1つは、作成した文章の良しあしをAI自身で評価することが難しいという問題だ。トップ棋士を破った米グーグルの囲碁AI「アルファ碁」は、コンピューター内でAI同士を対決させる強化学習を繰り返し、膨大な経験を積むこと強くなった。だが、そもそも評価ができなければ、最近ブームとなっている深層学習(ディープラーニング)の手法を使ってAIのレベルを上げることもできない。この問題への解を見つけることが、日本国内で実用的な文書作成の技術やサービスを生み出せるかの岐路といえそうだ。
(コンテンツ編集部 松元英樹)