1.58-bit DeepSeek-R1を128GB M2 Ultraで動かそうと試行錯誤した結果、(理由はわからないが)面白いことに気がついた。 中途半端にGPUを使うと2tpsしか出ないが、いっそCPUだけを使うようにしたら、むしろ推論速度が速くなり、なぜかメモリ使用量も激減。これならもっと大きなモデルもいけるのでは?