生成AIの進撃はまだまだ続くのだろうか?

2023年11月8日

今年(2023年)に入って、生成AIに関する新聞記事やニュースが連日のように報道されている。日経コンピューターなどの専門誌(主にエンタープライズ系のシステムを扱う雑誌)でも度々特集が組まれている。まさに進撃の巨人ならぬ進撃の生成AIである。
これらの記事を読んで感じるのは、「凄いこと」はたくさん書かれているが、技術的な課題や問題点に関する情報が少ない、ということだ。
ここでは、特に報道が多い「ChatGPT」などの大規模言語モデル(LLM)について感想を書いてみたい。
私自身はAIに関しては素人に毛が生えたくらいの知識しか持ち合わせていないから、的外れな指摘や感想があるかもしれない。このブログ記事の冒頭で、課題や問題点の報道が少ないと書いたが、これはLLMのアーキテクチャに由来する課題や問題の報道が少ない、という意味である。
新聞や雑誌の記事に書かれている問題点の多くは、ハルシネーション(生成AIが噓の情報を出力するリスク)や、機密情報や個人情報の漏洩リスク、著作権侵害のリスクである。
一方で、LLMのアーキテクチャに由来する課題や問題点の情報は非常に少ない。
私は専門家でないから、LLMの仕組みや構造に由来する課題、問題点(および将来展望)を知りたいと思うのだが・・・。

個人的に一番気になっているのは、「現在のAIは言葉の意味を理解できない」という根本的な課題と、これから派生する問題と対策、である。
私の理解では、現在のLLMの仕組みは単語の特徴量(のようなもの)をもとに文章を作成する。たくさんの文章を学習したLLM(単語の特徴量を学習したLLM)は、学習データを基にして人間が自然と感じるように、単語を並べる。
このとき、LLMが作成した文章は論理的に正しいのだろうか?(文章の流れだけでなく、論理が正しく組み立てられているのか?)という疑問がある。
そもそもLLMの開発は、「文章の意味を理解できない」という課題を抱えたままで、この先も突き進むのか? そこに限界はないのか?
それとも今後新たな手法(ブレイクスルー)が登場するのだろうか?
「チョムスキーと言語脳科学」(酒井邦嘉:著、集英社インターナショナル)で、著者は現在のAIのアプローチには限界があり、句構造や普遍文法などの知見を取り込まない限りこの限界は乗り越えられない、と指摘している。
私にはこの指摘が正しいのか否か判断がつかないが、「意味が理解できない」のだから何らかの限界に突き当たる気がする。

いまひとつLLMで気になるのは、その仕組み自体にブラックボックスな部分(良く分からないところ)があるという点である。
朝日新聞(2023年9月5日)に「大規模言語モデルにこだわる国産開発」という記事がある。
この記事の中にブラックボックスな部分が書かれている。
新聞記事(一般紙)にLLMの問題点が書かれているのは珍しい。ある意味専門誌よりもスゴイと思った。
「・・・高い能力の一方、性能を高める学習にどんなデータが使われたかなど、詳細がブラックボックス化していることへの懸念は根強い」
「(LLMが)どうして賢い振る舞いが突然できるようになったのか。なぜ日本語が自然なのか、研究者にも分かっていない」
「・・・(LLMを)つくってみないことにはわからない」
この記事の内容が正しいとしたら、これはかなり酷い話だ。「やってみないと分からない」と言っているのだから。
通常のシステム開発では考えられない事態だ。
通常のシステム開発では、完成までにどの程度の期間(工期)と工数が必要か、品質はどのレベルを目指すのか、といったスコープを最初に定義する。しかし、日本版LLMの開発ではそのようなことは出来ない、と言っているに等しい。
この記事によれば、国立情報学研究所(NII)を中心に「LLM勉強会」が5月に立ち上がり、今後日本版LLMを開発していくようだ。
日本版LLMの開発に向けて課題は山積しているそうだが、最大の課題は計算機資源(コンピューターパワー)だという。
経産省も68億円の補助金を付けてGPU計算基盤の拡充を後押しするそうだ。
この記事からも明らかなように、LLMを動かすには多くの計算機資源と電力を消費することが窺える。
データセンターの電力消費(二酸化炭素の排出)が問題視されるなか、この点も課題であろう。(蛇足だが、ビットコインの採掘も多くの電力を消費するので問題視されている)
それにしても、この種の記事を読むにつけ、人間の脳はスゴイと感じる。特に幼児が母語を獲得する能力(脳力)はスゴイ。

LLMに関する技術を大きく分けると、
①LLMそのものの開発
②LLMを組み込んだ利用技術
になるだろう。
①は、日本語の自然言語処理のLLMを日本で作ろう、というテーマである。これについては、先に触れた新聞記事の他にも、いくつかの雑誌記事を読んだ記憶がある。
しかし、いまのところ日本は、マイクロソフト(+オープンAI)やグーグルなどの海外勢と比べて大きく出遅れているようだ。
②の利用技術は、新聞や専門誌で取り上げられることが多い。
企業だけでなく、役所や学校でLLM利用に向けた検討が進んでいる(すでに導入しているところもあるようだ)。
①や②で気になるのは、先にも触れた進捗管理や品質管理の問題である。
品質に関しては、LLMで出力された文章に問題がある場合、それがLLMのバグなのか、学習データが悪いのか、といったことが切り分けられるのか否か、という点が気になる。
いや、そもそもプログラムのバグやモデルのバグとは、何をもってしてバグと定義するのか、はっきりしているのだろうか?
これがきちんと定義できて、且つテスト工程で検出できなければ、品質管理が出来ないということになる。

LLMにはいろいろと不明点が多い。専門誌にはもう少し踏み込んだ記事を期待したい(一般のIT技術者にも分かるように解説して欲しいものだ)。

2023年11月8日 追記:
本文で、大規模言語モデルの開発における進捗管理や品質管理はどうなっているのだろうか? という疑問を書いた。

これに関して「大規模言語モデルは新たな知能か」(岡野原大輔:著、岩波書店)に、作業量の見積もりと品質に関するヒントが書かれていた。
言語モデルの「べき乗則」である。
「言語モデルにおける”べき乗則”は、言語モデルを学習する際に使う訓練データの量、利用するモデルのパラメータ数(モデルサイズ)、そして投入計算量という3つの要因と、言語モデルの予測誤差(クロスエントロピー損失)との間に、べき乗則が成り立つというものである」
これは、学習データのデータ量、モデルサイズ、計算量に対して、モデルがどの程度の性能を達成できるのかを、予測できるということである。

経営とITの話題
「経営とITの話題」のINDEX

経営とITの話題

Posted by kondo