先日、こちらの記事で「–novram」オプションをつけてなんとか動画生成をした記事を上げましたが、正直動くだけマシというスピードでした。
今回取り上げるのはWanという動画生成モデルです。
こちらのtext to videoの少容量モデルならARC B580の12GBでも収まります。
この場合の生成速度を見ていきます。
こちらはComfyUIブログです。
https://blog.comfy.org/p/wan21-video-model-native-support
こちらからモデルをダウンロードしていきます。
https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged
大容量モデルもあるのですが、今回はVRAMに収まるモデルをダウンロードしましょう。
ちなみに今回もUbuntuを使いますが、ComfyUIが使える環境ならWindowsとやり方は同じです。
ComfyUIの導入手順は以下の記事で紹介しています。
intel ARC B580でComfyUIを動作させる(Windows編)
intel ARC B580でComfyUIを動作させる(Ubuntu編)





ただ、「diffusion_models」は4つあるので、





前回の記事と解像度が違いますが、デフォルトの解像度でないと最適な動画が出力できないそうです。
さらにこのモデルは16フレームを一秒で生成するようで、24フレームに指定すると早送りのような動画になってしまいます。
なので、4秒の動画は「16 x 4 +1 =65」となるようです。
プロンプトは「A beautiful Japanese girl is smiling and waving to the viewer」です。
それでは結果ですが、

途中で起こっているエラーは、まだIPEXが未対応でCPU処理でおこなっているところがあるからだそうです。
とはいえ、ずいぶん速い生成速度です。
以前、ITX_Videoを個人的に使ったことがありますが、速度はそちらのほうが速いんですが、いかんせん出力される動画がイマイチで・・・。
こちらの「Wan」というモデルはなかなか良いのではないでしょうか?
こちらのモデルはまだ出たばかりということもあって、ComfyUIを最新にしないと対応していないようですので、使用するときはComfyUIのバージョンアップをしておくと良いでしょう。
今回は以上です。
追記
今回使っているグラフィックスカードは以下です。
https://amzn.to/3ETvyVm
コメント