6月6日、Phoronixが「OpenCV 5.0 Released With Rewritten DNN Engine, Built-In LLM & VLM Support」と題した記事を公開した。
OpenCVの最新バージョン5.0が、生成AI時代に対応した大幅なアップデートを実施した。深層ニューラルネットワーク(DNN)エンジンの完全再実装により、Microsoft ONNX Runtimeを上回る性能を実現し、さらに大規模言語モデル(LLM)およびビジョン言語モデル(VLM)の組み込みサポートを追加している。
2024年以降、ChatGPTやGPT-4Vといった生成AIの普及により、従来のコンピュータビジョンと言語処理を統合したマルチモーダルAIアプリケーションの需要が急速に拡大している。OpenCV 5.0は、この新しい技術トレンドに対応するための戦略的アップデートと位置づけられる。
パフォーマンスでONNX Runtimeを凌駕
今回のアップデートで最も注目すべきは、DNNエンジンの完全再実装だ。新エンジンはONNX(Open Neural Network Exchange)対応率を80%超まで向上させ、ベンチマーク結果ではMicrosoft ONNX Runtimeを上回る性能を実現している。
ONNX Runtimeは、Microsoftが開発する高性能な機械学習推論エンジンで、多くの企業でプロダクション環境に採用されている業界標準的存在だ。OpenCVがこれを上回る性能を達成したことは、コンピュータビジョン分野における大きなブレークスルーと言える。
生成AI時代への対応:LLM/VLMサポート
従来のOpenCVは画像処理とコンピュータビジョンに特化していたが、バージョン5.0ではLLMとVLMの組み込みサポートを新たに追加した。これにより、以下のようなマルチモーダルアプリケーションをOpenCV単体で開発できるようになる:
- 画像を理解して自然言語で説明するシステム
- テキスト指示に基づく画像解析・処理
- ビジョンと言語を統合したリアルタイム推論システム
この機能により、開発者は複数のライブラリを組み合わせることなく、統合されたワークフローで次世代AIアプリケーションを構築できる。
ハードウェア最適化の大幅強化
OpenCV 5.0では、多様なハードウェアプラットフォーム向けの最適化も大幅に強化されている:
- **Intel IPP**:SSE/AVX最適化カーネル
- **Arm KleidiCV**:Arm プロセッサ向け最適化
- Qualcomm FastCV:モバイル向け高速処理
- RISC-V Vector RVV:オープンソースアーキテクチャ対応
開発チームは次のマイルストーンとして、新DNNエンジン内でのネイティブGPUサポート実装を予定していることも発表した。
3Dビジョンツールキットの改良
また、3Dビジョンツールキットも大幅に改良され、より高精度で高速な3D処理が可能になっている。これは、AR/VR、自動運転、ロボティクスといった分野でのOpenCV活用をさらに推進する要因となりそうだ。
入手方法とドキュメント
OpenCV 5.0はGitHubからダウンロード可能だ。また、OpenCV.orgでは公式アナウンスメントと詳細なドキュメントが提供されている。
このリリースは、従来のコンピュータビジョンと生成AIを統合したアプリケーション開発において、OpenCVを再び最有力選択肢として位置づける重要なアップデートとなる。特に、企業でのマルチモーダルAI導入を検討している開発チームにとって、注目すべきリリースと言えるだろう。
詳細はOpenCV 5.0 Released With Rewritten DNN Engine, Built-In LLM & VLM Supportを参照していただきたい。