Profile picture of 金のニワトリ

金のニワトリ

gosrum

Published: January 30, 2025
0
0
8

n-gpu-layersを0に固定して、cache-type-kとctx-sizeの依存性も可視化しました。ctx-sizeは最大出力トークンですが、この値を変えるだけで推論速度が結構変わるんですね! ちなみに必要なメモリ量はこの2つのパラメータを変えても変化しませんでした。

Image in tweet by 金のニワトリ
Image in tweet by 金のニワトリ

Share this thread

Read on Twitter

View original thread

Navigate thread

1/1