動画生成AIでもモデルファイルがVRAMに収まる場合は生成速度はどうなるのか?

Ubuntu

先日、こちらの記事で「–novram」オプションをつけてなんとか動画生成をした記事を上げましたが、正直動くだけマシというスピードでした。

今回取り上げるのはWanという動画生成モデルです。
こちらのtext to videoの少容量モデルならARC B580の12GBでも収まります。
この場合の生成速度を見ていきます。

こちらはComfyUIブログです。
https://blog.comfy.org/p/wan21-video-model-native-support

こちらからモデルをダウンロードしていきます。
https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged

大容量モデルもあるのですが、今回はVRAMに収まるモデルをダウンロードしましょう。
ちなみに今回もUbuntuを使いますが、ComfyUIが使える環境ならWindowsとやり方は同じです。

ComfyUIの導入手順は以下の記事で紹介しています。
intel ARC B580でComfyUIを動作させる(Windows編)
intel ARC B580でComfyUIを動作させる(Ubuntu編)

ただ、「diffusion_models」は4つあるので、

前回の記事と解像度が違いますが、デフォルトの解像度でないと最適な動画が出力できないそうです。
さらにこのモデルは16フレームを一秒で生成するようで、24フレームに指定すると早送りのような動画になってしまいます。
なので、4秒の動画は「16 x 4 +1 =65」となるようです。

プロンプトは「A beautiful Japanese girl is smiling and waving to the viewer」です。
それでは結果ですが、

インフルエンザ流行ってますからね。目がちょっと怖いですが、破綻はしていないようです。一発生成なので上出来です。

途中で起こっているエラーは、まだIPEXが未対応でCPU処理でおこなっているところがあるからだそうです。
とはいえ、ずいぶん速い生成速度です。

以前、ITX_Videoを個人的に使ったことがありますが、速度はそちらのほうが速いんですが、いかんせん出力される動画がイマイチで・・・。

こちらの「Wan」というモデルはなかなか良いのではないでしょうか?
こちらのモデルはまだ出たばかりということもあって、ComfyUIを最新にしないと対応していないようですので、使用するときはComfyUIのバージョンアップをしておくと良いでしょう。

今回は以上です。

追記
今回使っているグラフィックスカードは以下です。
https://amzn.to/3ETvyVm

コメント

タイトルとURLをコピーしました