メールマガジン

お問い合わせ・資料請求

2019年02月06日

株式会社ディーバ

第320回 (B) システムを活用(?)して新元号を予測

CPM事業部 コンサルティング1部 部長 公認会計士 堀 哲也

平成も残すところあと3ヶ月弱。(昭和生まれではありますが)人生の大半を平成で過ごしている身としては、なかなか「新しい元号」のイメージを持てていない状態です。そこで、「元号が変わる」をもう少し身近に感じてみるために、AIを使ったりしながらシステム的に新元号を予想してみました。

グループ経営管理システムの領域では「年月日表記」は非常に基本的でありながら、奥が深い論点になります。表記の一つをとっても「YYYY/MM/DD」、「MM/DD/YY」、「DD/MM/YY」の並び順や、MMをFeb等のアルファベット表記にする/しない、カンマを打つ、打たないなどのバリエーションがあり、なおかつ「時差」という厄介な問題もあったりして、西暦表記だけでも論点がたくさんあります。(さらにややこしい問題として、サマータイム等の問題もあるのですが、こちらは全世界的な流れとしては、無くなる方向に進んでいると期待しております。)

とはいえ、グローバルでの年月日認識の共有では西暦を使うことが一般的ですので、弊社のシステム内で和暦を使うユーザー様は多くはないのですが、実は弊社の製品群の一部には「西暦→和暦の変換機能」、「日付から六曜を判定する機能」などの暦に関連したちょっとした機能が入っていたりしていることもあります。

そういった関係もあり、過去の元号を集めたデータテーブルを持っていたりするので、「過去の元号データや統計、AIといったキーワードを駆使して新元号を予測できないか?」と思い、弊社の製品開発関係者とディスカッションしながら、「システムを活用した元号予測」にチャレンジしてみました。なお、本当に当てに行くことを目的とすれば、古典の文献や、過去に候補に挙がって採用されていない元号案等を考慮しなければいけないのですが、今回は「当てに行く」という目的ではなく、「システムで予測するとしたらどんなプロセス、結果になるか」に重点を置いてやってみました。

最初にやってみたのは、オーソドックスに漢字2文字の組み合わせとして元号になりそうな組み合わせを抽出する方法です。細かいやり方としては、数値などの紛らわしい文字や、明らかにネガティブなイメージの文字、始まりのアルファベットM、T、S、Hになるケース等を外したうえで、Wikipedia日本語版の総テキスト(約1.6億行、約6ギガバイト)に登場する頻度を分析して、「良く使われている漢字1文字だけど、2文字の組み合わせとしてはあまり使われていない2文字の組み合わせ」を探し出しました。

ただ、これだけですと元号になるとは思えない組み合わせ(第用、県場、画田など)が上位に来てしまったので、「1文字は過去の元号で使われた文字が使われる」という条件を入れてみました。その結果として、「依明」、「第平」、「和注」、「校治」、「文員」などの候補が上がってきましたが、なんとなく「雰囲気は出てきたけど、違いそう。」という感じです。

次に、漢字では文字数が少なくて難しかったので、ひらがなの読みに着目して、「過去の元号のひらがなの並び順から、最初の2文字、次の文字、結びの文字を機械学習して予測する」という手法を試してみました。これらの手法で予想してみた結果としては「なえん」、「うてい」、「れんき」など。こちらも「なんとなくの雰囲気はあるのだけど、あてる漢字がイマイチ・・・」という状態になりました。

これ以上の精度を求めようとすると、古典の文献などを学習させるか、漢字が持つ「イメージ」をスコア化するなどしなければならず、膨大な手間が必要そうなため「システムによる予測」の領域を超えてしまいそう(もはやシステムではなく、人として予想したほうが早い。システム化のメリットがない)になりましたので、いったん今回の予測はここで終了としました。

やってみた感想としては「数十年に一回のイベントである元号変更は、システムで予測するにはデータ量が圧倒的に足りない」の一言に尽きました。当たり前ではあるのですが、「システムでの予測にはデータ量や繰り返しの回数が非常に重要」ということを痛感しました。

AI等を使った業務のシステム化、効率化が声高に叫ばれている昨今ではありますが、AI等の導入においては、ターゲットとしている業務の頻度や使えるデータ量をかなりしっかり検討する必要がありそうです。