「意味を理解する」とは何か

2024年3月27日

現在のAI(狭義のAI)は、自然言語の意味を理解できないそうである。
このことは、新井紀子「AI vs. 教科書が読めない子供たち」(東洋経済新報社)などで解説されている。
それでは、「意味が理解できる」あるいは「意味が理解できない」とはどういう事態なのだろうか?・・・ 。
私たちが書物を読む時は、文字という記号の連なりから、(私たちのこころ、あるいは脳が)意味を汲み取っているようにみえる。同様に話を聞くときは、音声の連なりから、(私たちのこころ、あるいは脳が)意味を汲み取っているように見える。
テレビのコマーシャルで、人間がAIスピーカーに向かって「Alexa(アレクサ)、電気を消して」と話しかける場面がある。AIであるAlexa(アレクサ)は意味を理解できないとされるから、あれは会話をしているようにみせかけて、電気を消している、ということになる。
AIの分野(および認知科学などの分野)ではこの種の課題を「記号接地問題」というらしい。
Webで検索してみると、「記号と実世界の意味を結びつける問題」というような説明がある。具体的には、「犬」という文字(記号)と、実世界に存在する犬とを結びつけるようなことが書かれている。
これは、文字と、私たちのこころ(あるいは脳)のなかで形成される実在の犬のイメージ(概念)とを結びつける操作なのだろう。犬のように実在するモノがある場合は分かり易いが、「太郎は花子が好きだ」という場合の「好き」のように、実在するモノがない場合はどうなるのだろうか?
私たちのこころの中には「好き」に対応する概念が想起する。しかし、この概念は人によって少しづつ異なっているかもしれない。
さらに「愛する」という概念になると、人によっても、文化によっても異なってくるだろう。(例えば、キリスト教文化でいう愛と、仏教文化でいう愛は異なる。後者は愛欲という欲望の意味に近い。)会話によるコミュニケーションを考えると、私たちは言葉の意味を、相手が発話する言葉だけでなく、相手の文化的背景や、社会的状況、相手の置かれている立場、会話の文脈、・・・などから総合的に解釈して「意味理解」をしていると考えられる。図書館で「意味ってなに? 形式意味論」(ポール・ポートナー、勁草書房)という本を見かけた。これを読めば何か手掛かりが掴めるのではないか、と思ったのだか、こちらが期待していたものとは少々異なるみたいだ。
この本は、言語学の中の意味論について書かれた、入門の入門レベルの書物である。これを読むと、意味論の中にも、形式意味論や、意味の全体論、意味の観念理論など、いろいろな流儀があるようだ。
本書は主に形式意味論について書かれている。形式意味論とは、意味を形式的に(あるいは構造的に)表現するもののようである。
すなわち、「意味を理解するとは何か?」ではなく「意味とは何か?」を問うている。
確かに意味を形式的に記述できれば、例えば計算機で処理することはできそうだが、それは意味を理解することとは異なる。(形式的に記述できたからといって、それで意味が理解できたことにはならない)
この「意味の形式表現」は、計算機の分野のオントロジー/オントロジー工学に繋がっているのかもしれない。(私は専門ではないので詳細は分からないが)
本書によれば(あるいはスティーブン・ピンカーの主張によれば)、「言語理解とは、通常の言語を思考の言語に翻訳すること」になるそうだ。
言語学の入門書(例えば、「はじめて学ぶ言語学」(大津由紀雄編著、ミネルヴァ書房))を見ると、「内部言語(I-言語)」というものがあり、それは個別言語を母語とする人の脳に内蔵されたものだという。
思考の言語が内部言語(I-言語)と同じものなのか否かは良く知らないが、いずれにしろ、言語学では外部に表出される言語と内部言語は区別して考えるのが一般的のようだ。

「意味を理解する」というのは人間の認知機能に関わることだから、認知科学の分野を調べる必要があるのかもしれない。実際、「認知言語学」という認知科学と言語学の両方に関わる学問領域があるようだ。
「言語の獲得」や「意味理解の獲得」という観点では、ヒトの成長を観察することが有効な手段である。すなわち、幼児はいかにして言語(およびその意味を理解すること)を獲得するのだろうか?
ヒトはだいたい5才~6才までに母語を獲得すると言われている。(逆に、この時期までに母語と接する機会がないと、母語の獲得は困難になると言われている)
文法など教えなくとも、英語を母語とする幼児は英語を話すようになるし、日本語を母語とする幼児は日本語を話すようになる。
日本語を母語とする私たちが英語を習得するときの苦労を考えると、幼児の言語獲得というのはスゴイことだと実感する。
この分野の研究に関しては、例えば、日本人の子供は話せるようになるよりも前にRとLの区別を失う、など興味深い話題が多いのだが、話が横道にそれるので止める。

言語能力の獲得には、生得的な部分(遺伝子情報で引き継がれる部分)と、学習による部分があるそうだ。
幼児の言語獲得を観察すると「経験した以上のことを知っている」ことから、生得的な部分があると考えられており、これを「刺激の欠乏問題」というらしい。
チョムスキーは、「言語は個々人のこころ(あるいは脳)のなかにあって、その個人に無限の言語表現を産出・知覚することを可能たらしめる計算システム」だと言っている。
ここでいう「計算システム」とは、コンピューターのことではなく、一連の形式的手続きに基づいて、記号表示を生成・変換していく過程である、としている。これは、一連の形式的手続きをアルゴリズムと考えれば、結局のところ計算機に実装するイメージに近いように思う。
言語学の中には「普遍文法」を研究する分野がある。普遍文法とは、言語能力のうち生得的な部分に当たる。
この機能があるおかげで幼児は短期間で母語を獲得できると考えられている。英語を母語とする幼児が英語を習得し、日本語を母語とする幼児が日本語を習得する、というように、言語による差異はパラメータのようなものだと考えているようだ。言語を獲得する能力を計算機上で実装するとしたら以下のイメージのようだ。
普遍文法に相当するプログラム(関数)があり、関数のパラメータに特定の値を設定することで、日本語用のプログラムや英語用のプログラムが生成される。
この処理系には、プログラムのほかに単語辞書(語彙辞書)のようなものも必要になるだろう。
言語学では人間の脳にある辞書を「心的レキシコン」と称している。このレキシコンは単純な辞書ではない(単なる索引付きのデータベースとは異なる)。
例えば、心的レキシコンの性質を調べると、語彙的ギャップや語彙的ブロッキングなどの現象が見られる。語彙的ギャップとは、「高み」や「暖かみ」という用法はあっても「広み」とは言わない、という類のものである。
「高み」や「暖かみ」は心的レキシコン(辞書)に入っているけれども、「広み」は入っていないと考えられている。
以上から言語獲得の処理系はある程度イメージできるが、それでも「どのようにして意味を理解するのか」は依然として未解決である。

言語学(および言語心理学/心理言語学)のなかには統語解析という研究分野があるようだ。これは計算機のインタプリタ―に似ていると思う。
人間のこころ(脳)の中の解析器は、耳や目から入力した自然言語(記号)を、インタープリターのように解析する。計算機のインタープリターは機械語に翻訳するが、私たちのこころ(脳)にある解析器は、内部言語(I-言語) に翻訳するのだろう。
こころ(脳)にある解析器 には幾つかの作動原理(原則)があるという。さらに解析器は作動記憶と密接に関連してる。
作動記憶というのは短期記憶から発展した概念である。作動記憶は情報を一時的に蓄えるだけでなく、情報を操作したり変換したりする機能を備えている。
計算機に例えると、単なるメモリーではなく、ストアードプロシジャーのようなプログラム(関数)もあわせ持っている、ということだろう。
さて、こころ(脳)の解析器の仕組みは少し見えてきたけれども、やはり「どのようにして意味を理解するのか」は依然として良く分からない。
インタープリターは高級言語を機械語に翻訳するけれども、これは記号の変換を機械的に行っているだけで、意味を理解しているわけではない。
人間の解析器の場合はどうなのだろうか? 無意識下で意味を汲み取りながら解析しているのだろうか?

言語学の入門書を読むと、自然言語(日本語や英語)には、コミュニケーションにおける「文脈依存度」というのがあるそうだ。言語によって文脈依存度が異なるようで、日本語は文脈依存度が高いという。これは、曖昧な表現であっても、その文脈から意を汲んでもらうという伝達パターンである。
今年(2018年)流行った言葉に「忖度」があるが、これは文脈依存度が高いことを示す好例ではないだろうか・・・・。


2024年3月 追記:

このブログ記事では言語の獲得について、遺伝子情報で引き継がれる部分がある、と記載したが、このようなものは存在しないとする立場の研究者もいる。
例えば、「言語の本質 ことばはどう生まれ、進化したか」などを参照下さい。

雑感
「雑感」のINDEX

e-雑感

Posted by kondo