【海外記事紹介】AIが「闇堕ち」するメカニズム: Anthropicの最新研究が突き止めた「ペルソナ・ドリフト」現象とその防衛策
DRANK

1月20日、Anthropicが「The assistant axis: situating and stabilizing the character of large language models」と題した記事を公開した。この記事では、AIがなぜ突然「闇堕ち」したような不適切な言動を始めるのか、そしてそれを防ぐための「理性のリミッター」について詳しく紹介されている。

by @tf_official
Related Topics: AI