ローカルLLMの速度はTFLOPSより「メモリ帯域幅」で決まる — 中古RTX 3090が最新RTX 5090より速い理由
DRANK

6月30日、Vetted Consumerが「Bandwidth, Not TFLOPS: What Sets Your Local LLM Speed (and Why the Newest Card Isn't Always Fastest)」と題した記事を公開した。36 TFLOPSの中古RTX 3090が122 TFLOPSのAMD RX 7900 XTXを生成速度で3倍近く上回り、最大帯域幅を誇る最新RTX 5090すら下回る——この逆転現象の原因を、16種のGPU/Macの実測データで解き明かした記事だ。ローカルLLMのトークン生成速度を決める真の指標はTFLOPSではなくメモリ帯域幅であることが、データをもって示されている。

by @tf_official
Related Topics: AI Machine Learning Deep Learning