0から作るLLMーLlama
BRANK

本記事の対象読者:LLM(大規模言語モデル)の複雑な構造や階層を理解しているが、それをどのように組み合わせるかが分からない人LlaMaモデルに関するすべてのオペレータとアーキテクチャ(RMSNorm、ROPE、SwiGLUの実装を含む)を一行ずつ分解します。本記事ではhuggingfaceのライブラリを使用しておらず、すべてpytorchで実装しています。また、事前学習済みモデルも使用していません。スタート地点は『源氏物語』の原文であり、ゴール地点はあなた自身がトレーニングした大規模モデルです。pytorchを準備してください。GPUがなくても大丈夫です。重要なのはLLMの原理を学ぶことであり、この文章を読んだだけで新しい大規模モデルのアーキテクチャを作れるわけではありません。本記事では、できる限り平易な言葉を使って原理を解説していきます。序文本記事のすべてのコードはGoogle Colabに共有されています。コードには一行ずつコメントが付いていますので、記事を読むのが面倒な方は、直接Colab上で実行してみてください。GPUリソースは必要なく、最小構成のCPUで実行できます。 torch from torch import nn from torch.nn import functional as F import numpy as np fr…

zenn.dev
Related Topics: AI