動画生成AIでもモデルファイルがVRAMに収まる場合は生成速度はどうなるのか？

Ubuntu

2025.02.272025.03.18

スポンサーリンク

Amazonのアソシエイトとして、当ブログは適格販売により収入を得ています。

先日、こちらの記事で「–novram」オプションをつけてなんとか動画生成をした記事を上げましたが、正直動くだけマシというスピードでした。

今回取り上げるのはWanという動画生成モデルです。
こちらのtext to videoの少容量モデルならARC B580の12GBでも収まります。
この場合の生成速度を見ていきます。

こちらはComfyUIブログです。
https://blog.comfy.org/p/wan21-video-model-native-support

こちらからモデルをダウンロードしていきます。
https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged

大容量モデルもあるのですが、今回はVRAMに収まるモデルをダウンロードしましょう。
ちなみに今回もUbuntuを使いますが、ComfyUIが使える環境ならWindowsとやり方は同じです。

ComfyUIの導入手順は以下の記事で紹介しています。
intel ARC B580でComfyUIを動作させる（Windows編）
intel ARC B580でComfyUIを動作させる（Ubuntu編）

ただ、「diffusion_models」は４つあるので、

前回の記事と解像度が違いますが、デフォルトの解像度でないと最適な動画が出力できないそうです。
さらにこのモデルは16フレームを一秒として生成するようで、24フレームに指定すると早送りのような動画になってしまいます。
なので、4秒の動画は「16 x 4 +1 =65」となるようです。

プロンプトは「A beautiful Japanese girl is smiling and waving to the viewer」です。
それでは結果ですが、

インフルエンザ流行ってますからね。目がちょっと怖いですが、破綻はしていないようです。一発生成なので上出来です。

途中で起こっているエラーは、まだIPEXが未対応でCPU処理でおこなっているところがあるからだそうです。
とはいえ、ずいぶん速い生成速度です。

以前、ITX_Videoを個人的に使ったことがありますが、速度はそちらのほうが速いんですが、いかんせん出力される動画がイマイチで・・・。

こちらの「Wan」というモデルはなかなか良いのではないでしょうか？
こちらのモデルはまだ出たばかりということもあって、ComfyUIを最新にしないと対応していないようですので、使用するときはComfyUIのバージョンアップをしておくと良いでしょう。

今回は以上です。

追記
この記事を上げた後日、VRAMに収まる条件を「–novram」で実行したとき、どのくらいパフォーマンス低下が起こるのか疑問に思ったので実験してみました。

「こんなに速くなるんですね！」と自分で言っていましたが、速いのはモデルが優秀だったからのようで・・・。とはいえ、「–novram」では確かに速度低下が確認できました。ちなみに生成された動画ですが・・・。

seed値は固定していたのですが、なぜか生成される動画には変化がありました。

以上、気になったことの検証でした。

追記
「ARC B580 Sprkle Titan」がおすすめです。
https://amzn.to/4bQs7Lw
人気のリファレンスモデル「ARC B580 Limited Edition」です。
ttps://amzn.to/3FuTa37
ASRockのSteel legendは白色です。
https://amzn.to/3R92rjK
長さ控えめなChallengerも。
https://amzn.to/3Rdo4PO

コメント

タイトルとURLをコピーしました