MLエンジニアのための本質から理解するLLM推論 KV cache編

MLエンジニアのための本質から理解するLLM推論 KV cache編
CRANK

はじめに東京科学大学博士課程の藤井です。本記事では、LLM推論において非常に重要な役割を果たすKV cacheについてより深く理解するために「Key, ValueだけcacheしてQueryをcacheしないのはなぜか？」という問いに皆さんが正確に答えられるようになることを目指して解説を行います。なお本記事では、「KV cacheとは何か？」や、KV cacheの低精度化などについては取り扱いません。関連する内容については、私が執筆している「MLエンジニアのための本質から理解するxxx」シリーズの記事を参照ください。執筆が完了した記事から順に公開していますので時期によっては、関連する記事が存在しない場合もあると思いますが、気長にお待ちいただけますと幸いです。Key, ValueだけcacheしてQueryをcacheしないのはなぜか？なんとなく「Key と Value を使い回せるから」という概念的な理解はできていても、なぜ Key と Value は cache する価値があり、Query は cache する必要がないのかをきちんと説明できる人は少ないのではないでしょうか？以下では、数式と図を利用して、この質問への回答を解説していきます。まず、非常に端的に説明すると、答えは次のようになります。![解答1…

zenn.dev 15 days ago

Open page

https://zenn.dev/kaz20/articles/c77f8a41cf2bf5