CloudflareがLLMを22%ロスレス圧縮する「Unweight」発表 — GPU メモリがボトルネックの時代、3GB削減で推論を高速化
DRANK

4月17日、Cloudflareが「Unweight: how we compressed an LLM 22% without sacrificing quality」と題した記事を公開した。

by @tf_official
Related Topics: Apache HTTP Server Clojure Deep Learning