642

CFA協会ブログ

No.642

2023年11月3日

チャットGPTと大規模言語モデル：リスクと限界
ChatGPT and Large Language Models: Their Risks and Limitations

パフォーマンスとデータ

その質の高さからまるで「魔法」のように見えるが、チャットGPTは他の大規模言語モデル（LLM）同様、巨大な人工的なニューラルネットワークに過ぎない。その複雑な仕組みは、およそ400の中核的階層と1,750億個のパラメーター（重み）で出来ている。それらはすべてインターネットやその他の情報源から収集された人間の書いたテキストを訓練データとして使用している。全体として、これらのテキストベースの情報源は当初データだけで約45テラバイトに達する。訓練や調整がなければ、チャットGPTは単なるでたらめを吐き出すことになるだろう。

LLMの驚異的な能力を制約するのはネットワークの規模と訓練に使用するデータ量のみであると一般には考えられているかもしれない。ある程度までは事実である。しかしLLMのインプットには費用がかかり、わずかなパフォーマンスの改善でさえ莫大な計算能力が必要になる。推定で、チャットGPT-3の訓練には1時間当たり約1.3ギガワットの電力を消費し、オープンAI社が負担する開発費用は総額460万ドル程度にのぼる。対照的に、より大型のチャットGPT-4の訓練には1億ドル以上要することになると見込まれている。

オープンAIの研究員は既に転換点に到達している可能性があり、さらなるパフォーマンスの改善には計算能力の増強以外の何かが必要だと認める研究員もいる。

依然として、LLMの発展を最も阻害しているのが入手可能なデータである。チャットGPT-4はインターネットから入手可能な質の高いテキストを使って訓練されてきた。しかし、さらに質の高いテキストとなると個人や企業がデータベースに保管しており、オープンAIや他の企業が安価にあるいは大規模にアクセスできない状態である。しかし、そのようにして集められた訓練用のデータは、追加の訓練技術と組み合わせて、事前に訓練されたLLMの予測精度を改善し、ドメイン固有の業務やクエリに対応させることは可能だ。そのようなLLMであれば、大型LLMを凌駕するだけでなく、コストも低下し、アクセスしやすく、安全性も高くなるであろう。

しかし、データのアクセス制限やコンピュータの計算能力の限界はLLMを制約する障害のうちの2つでしかない。

幻覚と不正確さ、誤用

チャットGPTのような基本的なAI応用技術の最も適切な使用法は情報を収集し、文脈に当てはめ、まとめることである。チャットGPTやLLMは論文執筆や広範なコンピュータコードの記述を補助し、複雑な試験を受験し合格さえしてしまう。企業はLLMを商品化し、専門的な支援サービスを提供している。たとえば、ケーステキスト社はコカウンセルアプリケーションにチャットGPTを活用して、弁護士の法務調査メモの作成や法務書類の確認や作成、裁判準備を支援している。

それでも、いかに書く能力が高まったとしても、チャットGPTやLLMは統計マシーンに過ぎない。「それらしい」あるいは「確からしい」答えを訓練期間中に「見た」ものに基づき吐き出しているだけなのである。思考過程や回答の背後にある動機を確認したり、表現できる訳ではないのである。チャットGPT-4は複数の州の司法試験に合格することができるかもしれないが、経験豊富な弁護士であれば、チャットGPTが作成した法務文書を1年目のアソシエートが作成した文書同様信用することはない。

チャットGPTの統計的性質がもっとも明らかになるのは、数学的な問題を解くよう指示された場合である。多項式の三角関数を積分するよう指示をすれば、チャットGPTはそれらしく見えるが不正確な解を出してくる。解法過程を示すように指示されると、再びそれらしく見える回答を出してくる。三度（みたび）尋ねれば今度はまったく異なった回答を提示してくる。正しい答えは1つだけで、その答えに至るための解析的な手順も1つだけのはずである。ここから分かる事実は、チャットGPTが数学の問題を「理解している」わけではなく、数学的解法が要求する計算上のアルゴリズム的な推論を適用しているわけではないということである。

LLMのランダムな統計的特性は、データサイエンティストが「幻覚」と名づけるものにも影響を受け、空想を現実のものとして提示してしまうことがある。間違っているものの説得力のあるテキストを提供すれば、LLMも誤情報を拡散し、不法あるいは非倫理的な目的に使用されることになる。悪者であれば、たとえば、LLMに評価の高い出版物の形式で記事を執筆させ、フェイクニュースとしてばらまくことができる。あるいはLLMを使って顧客をだまし、個人の機微情報を入手することもできる。こうした理由から、JPモルガン・チェースやドイチェバンク等の企業はチャットGPTの使用を禁止しているのだ。

LLM関連の不正確性や事故、誤用にどのように対処すればよいのだろうか。事前に訓練されたLLMを、選別されたドメイン固有の情報を使って微調整すれば回答の正確性や適切性を改善するのに役立つ。たとえば、ケーステキスト社は事前に訓練されたチャットGPT-4を使っているが、コカウンセルソフトを追加的な訓練用データ（米連邦政府や州政府の法律文書や事例、法令規則）で補完して、回答の改善を図っている。利用者が達成したい具体的な法律上の課題に基づき、より正確なプロンプトを推奨する。つまり、コカウンセルは常に、回答を引き出す情報源を引用するのである。

初期的な訓練に加えて適用される人間のフィードバックによる強化学習（RLHF）のような追加的な訓練技術はLLMの潜在的な誤用や誤情報を低減することもできる。RLHFはLLMの回答を人間の判断に基づいて「格付け」する。このデータはその後、訓練の一部分としてニューラルネットワークへ還元され、将来同様の指示に対してLLMが不正確あるいは害のある回答をする可能性を低減することができる。もちろん、「適切な」回答は視点次第であり、その意味でRLHFは万能ではない。

「レッドチーム」はまた別の改善技術であり、利用者がLLMを「攻撃」し、弱点を見つけて修正するものである。レッドチームはプロンプトを書き、実際の世界で悪意を持つ者が同様の試みを行うことを想定して、LLMにすべきではないことをするようにさせるのである。悪意を含んだプロンプトを特定することで、LLMの開発者はLLMの回答に安全策を講じることができる。そうした努力は役には立つが、完全とは言えない。チャットGPT-4に対して広範囲のレッドチーム演習が行われているが、利用者はそうした防御柵を潜り抜けるプロンプトを出すことができるのである。

また別の解決策では追加的なAIを活用してLLMと並行して二次的なニューラルネットワークを構築してLLMを監視する。この二次的AIはLLMの回答を倫理的原則や方針に基づき判断できるよう訓練されている。AI判断によりLLMの回答と「正しい」回答の間の「距離」が訓練過程の一部としてLLMに還元される。このようにして、LLMがプロンプトに対する回答を選択する際に、倫理面から優先順位付けするのである。

透明性

チャットGPTとLLMはAIや機械学習（ML）アプリケーションに共通する欠点を共有している。つまり、基本的にブラックボックスである点である。オープンAIのプログラマーでさえ、チャットGPTがどのように自己を構成してテキストを作成しているか正確には理解していない。モデル開発者は、従来はプログラムコードに落とす前にモデルをデザインしていたが、LLMはデータを用いて自己を構成するのである。LLMのネットワーク設計には理論的な基礎あるいはエンジニアリングが欠如している。プログラマーは必ずしも理解せずに、機能するというだけで、多くのネットワーク特性を選択しているのである。

この内在する透明性の問題は全く新しいAI/MLアルゴリズムの検証の枠組みへとつながった。いわゆる説明可能なあるいは解釈可能なAIである。モデル管理の界隈ではAI/ML予想や意思決定の周辺の直感や説明を構築する多様な方法が模索されてきた。多くの方法論はインプットデータのどのような性質がアウトプットをもたらし、ある種のアウトプットに対してどれほど重要なのかを理解しようとするものであった。それ以外にはAIモデルをリバースエンジニアリングして特定の特性やアウトプットが適用される一定のローカルな領域でより単純な、より解釈可能なモデルの構築を目指している。残念ながら、解釈可能なAI/MLモデルはモデルが巨大化するにつれ幾何級数的に複雑化するため、進歩は緩慢である。筆者の知る限り、解釈可能なAI/MLでチャットGPTの規模や複雑さを持つニューラルネットワークにうまく適用できたケースはない。

説明可能なあるいは解釈可能なAI/MLの進歩が遅いことを踏まえると、予測不能なあるいは極端なシナリオ、すなわち「未知の未知」に対して企業を保護するのに役立つLLMを巡る規制を行うことには合理性がある。LLMが広まるにつれ、生産性の向上を考えれば、使用禁止するのも非現実的である。それゆえ、企業のモデルリスクガバナンスポリシーは、こうしたタイプのモデル検証よりは包括的な利用および安全基準の導入に重点を置くべきである。これらのポリシーはLLMの安全的かつ責任ある配置を優先付けし、利用者が正確性やアウトプットとしての回答の妥当性を確実にするものである。このモデルガバナンスのパラダイムにおいては、独立的なモデルリスク管理はLLMがどのように作用するかは検証せず、ビジネス利用者が特定タスクでLLMに依存する根拠や理由を監査し、モデルアウトプットの一部や、ビジネスプロセスそのものにおいてそれらを利用するビジネスユニットが安全策を有していることを確認する。

次は？

チャットGPTとLLMはAI/ML技術の飛躍的な進歩を示しており、汎用人工知能(AGI)にもう一歩近づくことになる。しかし、チャットGPTやLLMを採用することには重要な限界やリスクが伴う。企業は事業においてLLMを活用する前にまず上述したような新たなモデルリスクガバナンス基準を構築しなければならない。優れたモデルガバナンスポリシーはLLMの膨大な潜在能力を評価するが、内在するリスクを低減し安全かつ責任のある使い方を保証するものである。

この投稿が気に入られたらEnterprising Investorのご購読をお願い致します。

執筆者

William W. Hahn, CFA

（翻訳者：森田　智弘、CFA）

英文オリジナル記事はこちら

ChatGPT and Large Language Models: Their Risks and Limitations | CFA Institute Enterprising Investor/

注) 当記事はCFA協会（CFA Institute）のブログ記事を日本CFA協会が翻訳したものです。日本語版および英語版で内容に相違が生じている場合には、英語版の内容が優先します。記事内容は執筆者の個人的見解であり、投資助言を意図するものではありません。

また、必ずしもCFA協会または執筆者の雇用者の見方を反映しているわけではありません。

CFA協会ブログ

幻覚と不正確さ、誤用

透明性

次は？

Quick Links