北海道大学大学院情報科学研究院の教授川村秀憲さん、准教授山下倫央(調和系工学研究室)さん、助教横山想一郎(同研究室)さん(以下、北大と略記)の共著である(オーム社、2021年7月5日発行)。
人工知能(AI)に俳句を生成させる(詠ませるとは言わない)行為は2018年頃からマスコミに報道され始めた。該著は、この領域でもっとも組織的に研究活躍している北大の研究成果の現状を纏めたものである
該著には、北大が開発した俳句生成用人工知能「一茶くん」の仕組み、その成果、AIの基礎や歴史、今後の期待などが、一般的記述とともに述べられている。
かなり専門的な成書であるが、小生のもっとも興味のある部分……①俳句がどのように生成されるのか、②できた俳句の評価は人間に頼らずAIが自分自身でできるのか、の二点に絞って紹介しよう。
「一茶くん」による俳句の生成の方法は、該著の第6章で解説されているが、簡略化して述べれば、次のステップとなろう。
まず、①最初の準備段階では、いわゆる俳句のデータを集めてコンピューターに記憶させる。これらのデータはこの世界では「教師データ」と呼ばれている。この教師データとして、北大の研究者らは、初期には小林一茶の作品を集めコンピューターに覚えさせた(この段階は「機械学習」といわれている)。しかし、これでは十分でなく、松尾芭蕉、正岡子規、高濱虚子らの作品をも網羅した。それでもこれらの教師データから生起した俳句は古臭いものであったので、現代俳句の範疇にある四十万句をも取り入れた。膨大な教師データを取り入れて、そこから判断を引き出す段階は機械学習を越えてディープラーニングと呼ばれている。人工知能の躍如たる段階である。
この時点で生成された俳句は、結構質の良いものもあったが、オカシナ作品が圧倒的に多かった。俳句だけの教師データからでは、単語同士の関係性がギクシャクしているからであった。そこで一般的な言語モデルを取り入れるため、小説や評論などの文学作品の中から、情景描写が重要視されるといった、俳句と共通点がある文例を学習させた。具体的には青空文庫のデータ化され公開されているものを用いた。
こうした膨大な準備ののち、具体的に俳句を生成させるプロセスをたとえば兼題としてある言葉が与えられた場合について説明しよう。例えば「古池」という言葉が与えられたとすると、コンピューターは次に来るべき言葉を、教師データから、一番出現頻度の高い、つまり、確率が一番高い言葉を探します。「や」が25%、「に」が20%だったので一茶くんは「や」を選びます。「古池や」までできましたが、次の言葉はやはり教師データから「蛙」が51%、「蓮」が34%だったので「蓮」ではなく「蛙」が選ばれます。こうやって五七五になるように気を付けながら全部で17音になったときに終わらせます。コンピューターの速度は速いので、この作業は一瞬で終わります。ですから一分間で万単位の句が生成されます。これにはLSTMという言語モデルを使ったのですが、それでも改善が必要だったようです。
そこで北大ではさらに高度な言語モデル(GPT―2と呼んでいる)を使って、比較しました。GPT―2では、あるところまでの言葉の組み合わせを吟味してそれに合う次の言葉を選ばせるようです。LSTMが前一個の言葉しか吟味していないのとは違って、もっと遠くに置かれた言葉との関係性をチェックする機能があるので、より自然体に近い言語表現ができるようです。ここでは、ある言葉が与えられたときの俳句生成過程を書きましたが、言葉ではなくて写真を見せてそこから俳句を生起する方法ももちろん可能である。
次は②、出来上がった俳句をチェックする段階です。季語は一個だけ必ず入っているか、切れが一個あるか、五七五であるかを検査し、適合しないものをはじきます。一茶くんはすでに季語のデータベースを持っており、切れも判断できます。言葉の読みの音数も学習しているので、五七五も分かります。ただし、成句の良し悪しの判断はまだ一茶くんだけでは無理なようです。
こうやって一茶くんがどんな句を詠んで(いや生成して)、それらがどう評価されてきたか、実績が第七章に書かれている。
2018年1月 写真を見て生成された一茶くんの句と、若手俳人の大塚凱らが詠んだ各三句を、坊城俊樹、神野紗希、関悦史の三氏が審査する、という対決試合があった。一茶くんの学んだ教師データはこのときは一茶、子規、虚子の五万句で、文章生成モデルはLSTMだった。一茶くんが生成した約三万句の中から、一茶くんの関係者が選んだ三句を出句しました。結果は、一茶くんの句は全敗だった。だが、
又一つ風を尋ねてなく蛙 一茶くん作
酒呑みの相槌溶けて昼蛙 人間作
の対戦では、二対一で一茶くんが敗れたものの、一票獲得できたことに、研究者陣は手ごたえを感じた。
2018年7月 今度は「しりとり」で決められた言葉を上五の出だしに置くことで作句する対決でした。結果は一茶チームが31点、人類チームが34点で惜しくも一茶くんがまた負けた。しかし、ここでは次の句が全体を通して最高点であった。この句はAI俳句の最初の代表句となった感があった。
かなしみの片手ひらいて渡り鳥 一茶くん作
2019年3月 今度は兼題を与えられての対決であった(札幌でのこの対決には小生も観客として参加し、観客席から挙手をもって選句に参加した)。五つの季題での五組十句の対戦結果は、三対二で俳人チームの勝ち。敗けたとはいえ、一茶くん側は、かなり勇気づけられたようだ。ここで一茶くんが新しく用いた方法は、人間作の俳句から適当に単語を抜き出し別の言葉を入れた疑似俳句を用意し、言語モデルを用いて元の句との差を学習させ、一茶くんが生成した句に対して「言葉が交換された俳句である確率」を推定させ、この確率が大きい俳句ほど意味が通らない俳句であるとして、外すことにした。つまり、俳句の評価機能を増強したわけで、人工知能が選句もできるようになる兆しかも知れない。二勝した一茶くんの句を挙げておこう。
朝シャンのやうな顔して冴え返る 一茶くん作 季語「冴え返る」
蕗の薹散らしてゐたる会釈かな 同 季語「蕗の薹」
2019年6月 「一茶くんに恋の句が詠めるか」をテーマに松山で開催。今回は対戦ではなく、一茶くんの生成した恋の句300句から、26人の俳人がイチオシの句を一句ずつ選び、選ばれた26句から本選でさらに5句に絞る。次の5句が残った。
羽子板や嘘うつくしき人とをり
てのひらを隠して二人日向ぼこ
寒椿二人静に嘘があり
初恋の焚火の跡を通りけり
唇のぬくもりそめし桜かな
決勝では、観客の挙手で最優秀作を決め、〈初恋の焚火の跡を通りけり〉の句が選ばれた。一茶くんが人間の鑑賞に堪える句を生成できることの証明となった。
2019年9月 初めて吟行に挑戦した。石川県の山中温泉であった。今回は一般の人の吟行句に一茶くんの吟行句も混ぜて出し、選句してもらうのだ。山名温泉地区の風景を画像で一茶くんに示し、出来た約千句を地元の若手俳人に選んでもらって、二句を投句した。
二人出て水のつめたき春の川
天心に川を引くなり秋の風
残念ながら、いずれも高い評価は得られなかった。
202年4月 恋をテーマに、一茶くん、阪西敦子、加藤諒(俳優)の三人の作品を、いとうせいこう、岸本尚毅、野口る理の三名が審査する。今回の一茶くんは青空文庫を学習データに用いたWord2Vecを用いて「恋」の連想語を検索して俳句を生起させた。大塚凱が協力した。出された句は次の通り。
鳥の巣をふれるかたちの手を握る 一茶くん作
ものよそふ手首に皺や花の冷え 阪西敦子
風光る駅のホームに二人きり 加藤諒
結果はいとう・岸本が阪西句を、野口が一茶句をとった。一票戴けたことを一茶側は嬉しく思っている。
2020年8月 コロナ禍最中の銀座和光の時計台の写真を見ての作句。高柳克弘が一茶くんに協力した。
宙吊りの東京の空春の暮 一茶くん作・高柳克弘選
スタジオからのテレビ放送であったが、スタジオのゲストの作は
まだなのにすでに祭のあとのよう スタジオゲスト作
私感だが、スタジオゲストの句に、抽象的ではあるが、それだけに余情の豊かさを感じた。
第八章では、人口知能と俳句の未来が語られている。
該著のおわりにの部分に、「一茶くんで俳句を生成することはできても、現段階では一茶くんによい俳句を選ばせることはできません」とあるが、これが現状であるようだ。では、AIに俳句を生成させる意義はどこにあるのであろうか。
第一章にもどる。こう書かれている。「人工知能の研究にとって俳句を扱う意義はどこにあるのでしょうか。私たちは、単に俳句を生成する人工知能をつくることを目的としているのではなく、最終的には人に交じって人と対等に句会に参加できる人工知能を開発することをゴールとしています」とある。俳壇を席巻しようなどとは思っていない。あくまでも人間との調和を保つのである(だから北大のこの研究室に名前には「調和系」という言葉がはいっている)。その根本には、俳句という文学の小さな一分野を通して「人間の知能」という不思議なものを解明する一つの試みへのチャレンジ精神がみられる。俳人と対立するのではなく、同化できないかとの希望なのである。
2045年はシンギュラリティといって、人工知能が人間の能力を超える時期だという。そのころ人間の俳句はどうなっているか、見てみたいものである。
なお、小生が過去に書いたAI関連の小論は、「俳壇」2019年2月号の「巻頭エッセイ」、「俳句」2019年4月号「ここまで来たAI俳句」、「現代俳句」2019年8月号の「解説―AI俳句とその周辺」にありますので、ご参考まで。
Comentários