金のニワトリ's Twitter Thread

n-gpu-layersを0に固定して、cache-type-kとctx-sizeの依存性も可視化しました。ctx-sizeは最大出力トークンですが、この値を変えるだけで推論速度が結構変わるんですね！ちなみに必要なメモリ量はこの2つのパラメータを変えても変化しませんでした。