OpenVINO GenAIを試してみた（Ubuntu編）

Amazonのアソシエイトとして、当ブログは適格販売により収入を得ています。

前回の記事「話題のgemma-4を試してみた」で、llama.cppをvulkanで動かしたら「Radeon RX 470」に「Intel Arc A750」が負けたという内容を書きました（主旨は違いますが）。

今回はOpenVINO GenAIでリベンジしたいと思います。

OpenVINO GenAI

Run Generative AI models with simple C++/Python API and using OpenVINO Runtime

GitHub – openvinotoolkit/openvino.genai: Run Generative AI models with simple C++/Python API and using OpenVINO Runtime

Run Generative AI models with simple C++/Python API and using OpenVINO Runtime – openvinotoolkit/openvino.genai

「Arc A750」でも十分動作しましたので、大抵のArcなら大丈夫でしょう。
ちなみに今回の記事内容はIntel Arcでしか動かないと思います。

それでは、やっていきます。

モデルファイル

OpenVINO GenAIはsafetensorsやggufは使えません。
独自の形式に変換する必要があります。

OpenVINO (OpenVINO Toolkit)

Deep Learning Inference, Deep Learning Model Optimization

上のリンクからダウンロードできるようです。

safetensorsを変換する場合は以下のリンクが使えるらしいです（自分は使ってません）。

OpenVINO Export – a Hugging Face Space by OpenVINO

Provide the model ID from the Hugging Face Hub and select if the new repository should be private or overwrite existing …

NNCF quantization – a Hugging Face Space by OpenVINO

This application allows you to convert and quantize machine learning models to the OpenVINO format, making them more eff…

自力で変換する場合は、

#!/bin/bash

uv venv .venv_trans --python /usr/bin/python3
source .venv_trans/bin/activate

uv pip install openvino-genai optimum[openvino] datasets

MODEL="Qwen/Qwen3-8B"
QUANTUM="int4"

DIR_NAME=$(basename "$MODEL")
optimum-cli export openvino --model "$MODEL" --weight-format "$QUANTUM" ./models/"$DIR_NAME"-"$QUANTUM"

こんな感じで変換できます（結構時間がかかる）。

今回は、以下のモデルを使います。

OpenVINO/Qwen3-8B-int4-cw-ov · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

ダウンロード方法は前回の記事を参考にしてください。

OpenVINO GenAI導入

環境構築に興味があったので、導入は自力でやりました（まぁほとんどGeminiがやってくれましたが）。

GitHub – toaru-ubuntu/OpenVINO_GenAI_test

Contribute to toaru-ubuntu/OpenVINO_GenAI_test development by creating an account on GitHub.

githubに上げてます。
テストするためだけのものなので、非常に簡易的です。

#!/bin/bash

mkdir -p ~/install
cd ~/install

git clone https://github.com/toaru-ubuntu/OpenVINO_GenAI_test.git
cd OpenVINO_GenAI_test

python3 -m venv venv
source ./venv/bin/activate

pip install openvino-genai optimum[openvino]

#OpenVINO_GenAIをサーバーとして起動するのに必要なライブラリ等
pip install fastapi uvicorn pydantic openai gradio

これで準備は完了です。

いざ、実行

動作テストの動画です。前回の記事とは比較にならない速度。

A380でもギリ動くかもしれませんが、コンテキスト長を増やすとエラーになるかもしれません。

最後に

よく見たらモデルファイルが「gemma-4」じゃないじゃん！と思ったそこのあなた。

そのとおりです、ごめんなさい。

gemma-4はまだOpenVINO GenAIには対応しておりません。
変換されたモデルもあるし、強引に動かすこともできるのですが全然パフォーマンス出ません。

対応しているなるべく新しいモデルないかなぁって探したのが今回のQwen3-8B-int4-cw-ovです。
OpenVINOに対応するにはもう少し時間がかかるみたいで。

このへんllama.cppは有利です。

Radeonを使っている方、素直にllama.cpp + vulkan で動かしましょう。
まぁ普通はollamaかLMStudioだと思いますけど。

今回は以上です。

追記
モデルファイルを変更したい場合、「engine/main.py」の

Amazon | 玄人志向 Intel Arc B580 搭載グラフィックボード GDDR6 12GB 【国内正規代理店品】 AR-B580D6-E12GB/DF | 玄人志向 | グラフィックボード通販

玄人志向 Intel Arc B580 搭載グラフィックボード GDDR6 12GB 【国内正規代理店品】 AR-B580D6-E12GB/DFがグラフィックボードストアでいつでもお買い得。当日お急ぎ便対象商品は、当日お届け可能です。アマ...

Amazon | ASUS AMD Dual Radeon RX 9060 XT 16GB GDDR6ビデオカード DUAL-RX9060XT-16G 国内正規代理店品 | ASUS | グラフィックボード通販

ASUS AMD Dual Radeon RX 9060 XT 16GB GDDR6ビデオカード DUAL-RX9060XT-16G 国内正規代理店品がグラフィックボードストアでいつでもお買い得。当日お急ぎ便対象商品は、当日お届け可能です。...

Palit RTX 5060 Ti 16GB GDDR7 PCIe 5.0 グラフィックボード

Palit(パリット) GeForce RTX 5060 Ti Infinity 3 16GB / NE7506T019T1-GB2061S / グラフィックボードがグラフィックボードストアでいつでもお買い得。当日お急ぎ便対象商品は、当日お...

Amazon | ASRock Intel Arc Pro B60 Creator 24GB グラフィックスカード、Intel Xe2-HPGアーキテクチャ、24GB GDDR6、PCIe 5.0、4X DisplayPort 2.1、ブロワーデザイン、0dBサイレント冷却。 | ASRock | グラフィックボード通販

ASRock Intel Arc Pro B60 Creator 24GB グラフィックスカード、Intel Xe2-HPGアーキテクチャ、24GB GDDR6、PCIe 5.0、4X DisplayPort 2.1、ブロワーデザイン、0d...

Amazon | Intel 33P6PEB0BB Arc Pro B50 16GB ビデオカード。 | インテル | グラフィックボード通販

Intel 33P6PEB0BB Arc Pro B50 16GB ビデオカード。がグラフィックボードストアでいつでもお買い得。当日お急ぎ便対象商品は、当日お届け可能です。アマゾン配送商品は、通常配送無料（一部除く）。