7月17日、Sheng Luらが「大規模言語モデルにおける創発能力は、単なる文脈内学習なのか?(Are Emergent Abilities in Large Language Models just In-Context Learning?)」と題した論文を公開した。この記事では、大規模言語モデルにおける「創発」現象が単なるインコンテキスト学習の結果であるかどうかについて詳しく紹介されている。
以下に、その内容を紹介する。
大規模言語モデル(LLM)は、数十億のパラメータを持ち、広範なウェブスケールのコーパスで事前訓練されている。これらのモデルは、特定の訓練を受けていないにもかかわらず、特定の能力を獲得すると主張されている。
これらの能力は 「創発」 現象と呼ばれ、言語モデルの可能性とリスクについての議論の原動力となっている。しかし、創発現象を評価する際の主要な課題は、インコンテキスト学習を含む代替のプロンプティング技術を通じて生じるモデルの能力によって混乱されることである。インコンテキスト学習(文脈内学習)とは、いくつかの例に基づいてタスクを完了するモデルの能力である。
Sheng Luらは、創発現象を説明する新しい理論を提示し、その潜在的な混乱要因を考慮に入れて、この理論を1000以上の実験を通じて厳密に実証した。
彼らの発見によれば、 LLMにおける創発のように見える現象は真に創発的なものではなく、インコンテキスト学習、モデルの記憶、および言語知識の組み合わせから生じている ことが示唆されている。
したがって、これらの「創発」能力は過大評価されるべきではないことを示している。
詳細はAre Emergent Abilities in Large Language Models just In-Context Learning?を参照していただきたい。