Amazonのアソシエイトとして、当ブログは適格販売により収入を得ています。

unsloth/Qwen3.6-27B-MTP-GGUF ?? Hugging Face
We???re on a journey to advance and democratize artificial intelligence through open source and open science.
対応しているのは、今のところQwen3.6のみ。Gemma-4はまだみたいです。
2026/5/16にllama.cppのフォーク版、「am17an/llama.cpp」の機能が、本家llama.cppにマージされたのだそうです。
最近話題のMTP(Multi-Token Prediction)です。
通常LLM推論は、1トークン生成するたびに、モデルデータとコンテキストをVRAMなどに全て転送してから行われるのだそうです。
生成にかかる時間はほんの僅かなのですが、このモデルとコンテキストを転送がボトルネックになるのだとか。
つまり、LLMはメモリ帯域幅が全て。
LLM推論速度シミュレータでなんとなくわかっていただけると思います。
MTPは生成されるトークンを予測して(デフォルトだと3トークン)生成し、的中していればその分だけ生成速度が稼げるというもの。
理屈は自分ではあまりよくわかっていないのでこのへんにしときますが、この機能がこの度「llama.cpp」に統合されました。
いままでは「vLLM」みたいにsafetensorsが扱えるのじゃないと使えなかったのですが、ggufに変換できるようになったみたいですね。

unsloth/Qwen3.6-27B-MTP-GGUF at main
We???re on a journey to advance and democratize artificial intelligence through open source and open science.
ここから好きなMTP対応モデルをダウンロードしましょう。
自分もこの記事で書いているように、llma.cppをGUI化しているので、組み込んでみました。
試してみましょうか。
simple-llama-studio

GitHub – toaru-ubuntu/simple-llama-studio
Contribute to toaru-ubuntu/simple-llama-studio development by creating an account on GitHub.
導入方法はこちらから。
今回の動作検証
「Qwen3.6-27B-UD-Q4_K_XL.gguf」で動作検証しています。
(ほかのモデルと区別がつかなくなるので、Qwen3.6-27B-MTP-Q4_K_XL.ggufにリネームしています)
ただ、このMTPはVRAMにすべて収めなければ速度が激減します。
詳しくはこちらのPDFをどうぞ。
GeminiのDeepResarchという機能で調査してもらいました。
正しいかはわかりませんが、今回の検証にはおおいに役に立ちました。
というわけで今回はCPUにて動作検証しています。
Intel Arc A750ではとても収まりません。
もし、強力なGPUをお持ちの方は是非テストしてみてください。
変化したところ
MTPを有効化するチェックボックスがありますので、チェックしてください。
いろいろ調整できるようにしましたが、たぶんそのままチェックを入れるだけで効果はあると思います。と、いうか自分の環境では効果はありました。
ブラウザで動くテトリスを作ってもらう
MTP無効時の生成速度。とても我慢できるレベルの速度ではありません。
MTP有効時。倍以上(212%)向上しました。ま、それでも遅いんですが・・・。
ちなみに生成物。一応ゲームはできました。
CPU環境なので、速くなったといっても焼け石に水といったところ。
VRAMがたくさんある人は、ぜひvulkanで動作させてみてください。
ただ、自分の環境(Aec A750だとVRAMに収まらない)ではテスト出来ませんでしたので、ちゃんと動くかはわからないです。
CPUなら動きますけどね。
動作のコツとしては、スレッド数をたくさん割り当てないこと。
物理コアの「半分〜3/4」くらいにしといた方がいいです。
このあたりの説明も、上のPDFに書かれています。
今回は以上です。
追記
ちなみに生成速度が速くなるのは、コード生成みたいな予測のしやすい場合に限ります。
自然言語での会話はむしろ遅くなることも・・・。
あと、自分の環境では「Qwen3.6-35B-A3B-MTP-GGUF」のようなMoEの場合は14[tokens/sec]が17[tokens/sec]くらいにしかなりませんでした。
Denseの方が速くなりやすいんでしょうか?

Amazon | 玄人志向 Intel Arc B580 搭載 グラフィックボード GDDR6 12GB 【国内正規代理店品】 AR-B580D6-E12GB/DF | 玄人志向 | グラフィックボード 通販
玄人志向 Intel Arc B580 搭載 グラフィックボード GDDR6 12GB 【国内正規代理店品】 AR-B580D6-E12GB/DFがグラフィックボードストアでいつでもお買い得。当日お急ぎ便対象商品は、当日お届け可能です。アマ...

Amazon | ASUS AMD Dual Radeon RX 9060 XT 16GB GDDR6ビデオカード DUAL-RX9060XT-16G 国内正規代理店品 | ASUS | グラフィックボード 通販
ASUS AMD Dual Radeon RX 9060 XT 16GB GDDR6ビデオカード DUAL-RX9060XT-16G 国内正規代理店品がグラフィックボードストアでいつでもお買い得。当日お急ぎ便対象商品は、当日お届け可能です。...

Palit RTX 5060 Ti 16GB GDDR7 PCIe 5.0 グラフィックボード
Palit(パリット) GeForce RTX 5060 Ti Infinity 3 16GB / NE7506T019T1-GB2061S / グラフィックボードがグラフィックボードストアでいつでもお買い得。当日お急ぎ便対象商品は、当日お...
もし、メインメモリが大量にあるって人は8700Gもおもしろいかも。
PDFを見て欲しいんですが、MTPを内蔵GPUで扱う場合は注意点があるみたいです。

Amazon | AMD Ryzen 7 8700G プロセッサ(統合Radeon Graphics.Ryzen AI 8コア/16スレッド.TDP 65W.ソケットAM5, 24MBキャッシュ.最大5.1GHzブースト周波数.レイスステルスヒートシンク付属) | AMD | CPU 通販
AMD Ryzen 7 8700G プロセッサ(統合Radeon Graphics.Ryzen AI 8コア/16スレッド.TDP 65W.ソケットAM5, 24MBキャッシュ.最大5.1GHzブースト周波数.レイスステルスヒートシンク付属...
以下は自分が使っているCPUですが・・・。
今はコスパが悪いのでオススメはできないです。
LLM推論なら、モデル次第ではまぁ我慢できる?

AMD Ryzen 9 7900 Desktop Processor
AMD Ryzen 9 7900, with Wraith Prism Cooler 3.7GHz 12コア / 24スレッド 76MB 65W 100-100000590BOXがCPUストアでいつでもお買い得。当日お急ぎ便対象商品は、当日...
コメント