DynatraceがNVIDIA AI-Qと統合 — 複数エージェントが協調するAIシステムを「人間が把握できる状態」で本番運用できるか

7月3日、Dynatraceが「Smarter, safer Agentic AI: Dynatrace observability meets NVIDIA AI-Q」と題した記事を公開した。この記事では、DynatraceとNVIDIA AI-Qの統合によってAIエージェントシステムの可観測性・ガバナンス・コスト管理をどう実現するか、について詳しく紹介されている。

AIエージェントが「単体モデルの利用」から「複数エージェントが協調するシステム」へと移行しつつある中、本番環境でこれをどう監視・制御するかが、エンタープライズAI導入の現実的な課題になっている。複数のエージェントが互いに呼び合い、複数のモデルやデータソースを横断して動作するシステムでは、「どのエージェントが何をしているか、なぜその判断をしたか」を人間が把握できない状態が常態化しやすい。ブラックボックス化したシステムに業務上の意思決定を委ねることへの懸念は、エンタープライズ導入における最大の障壁のひとつだ。DynatraceとNVIDIA AI-Qの統合は、この問題に正面から向き合うアーキテクチャ的な回答として位置づけられている。

DynatraceとNVIDIA AI-Qが統合する意味

NVIDIA AI-Q Blueprintは、エンタープライズ向けの深層調査・意思決定を行うAIエージェントフレームワークだ。エージェントは社内データセット、外部のWebや知識リポジトリ、専用リサーチシステム、NVIDIA NIM（後述）やNemotronを通じて提供されるモデルなど、複数の異なるデータソースと連携して動作する。

この複雑な構成では、ボトルネックがGPU利用率・モデルのレイテンシ・トークン消費量・下流サービスへの依存関係など、スタックのあらゆる層で発生しうる。Dynatraceはこれらを横断的に監視する「フルスタックAI可観測性」を提供する立場で、AI-Qとの統合を進めている。

2つの統合方式

DynatraceのAI統合は、大きく2つの方向で設計されている。

1. エージェントワークフローの可観測性とコスト管理

NVIDIA Agent Toolkit（NAT）が生成する軽量なOpenTelemetryトレースをDynatraceが取り込み、エージェントの動作とモデルの相互作用を可視化する。NATはNVIDIA AI-Q Blueprintに含まれるエージェント開発・実行基盤であり、エージェント間の呼び出しや各ステップのテレメトリを標準的な形式で出力する。

Dynatraceが自動的にマッピングするシグナルには以下が含まれる：

トークン使用量
推論レイテンシ
モデルメタデータ
GPU利用率

これにより、エージェントパイプライン全体でのボトルネック検出、GPU・インフラの健全性監視、非効率なモデル利用の特定が可能になる。コスト最適化の機会を特定する用途にも使える、と記事では説明されている。

2. AIエージェントへの高品質なデータ供給源として

もう一方の方向は逆向きだ。DynatraceがAIエージェントの推論に使う情報源として機能する。

具体的にはModel Context Protocol（MCP）を通じて、以下のようなテレメトリをエージェントに提供する：

インフラのパフォーマンスメトリクス
運用上のインシデント・問題情報
デプロイメントと信頼性のトレンド
システム挙動とリソース消費の状況

エージェントは外部データだけに頼るのではなく、企業システムのリアルタイムな運用状況を推論に組み込める。これが「より根拠のある意思決定」につながる、という設計思想だ。

図1: NVIDIA AI-QにおけるDynatraceのAI可観測性の全体像

想定されるユースケース

記事では、この統合が有効に機能する具体的なシナリオとして4つが挙げられている。

インフラ移行の意思決定支援では、Dynatraceのパフォーマンストレンドやインシデントデータとクラウドコストデータを組み合わせ、AIエージェントがOpenShiftからAKSへの移行といったプラットフォーム移行シナリオを定量的に評価する。

大規模インシデント分析では、過去の大量の問題履歴からエージェントが再発パターンを特定し、ビジネスKPIとの相関を導き出す。人手では時間がかかる深い運用分析を自動化する用途だ。

AIコストガバナンスは、トークン消費量や非効率なデータアクセスパターンをDynatraceの可観測性データから分析し、より効率的なモデルやワークフローへの改善提案をエージェントが行う。

ソフトウェアデリバリーと信頼性では、DevOpsやSREチームがデプロイメントとインシデントの相関分析、ビルド品質のトレンド把握、信頼性リスクの予測に活用できる。

MCPとNVIDIA NIMを介したリアルタイム連携が核心

技術的に面白いのは、MCPを介したリアルタイム連携の部分だ。MCP（Model Context Protocol）は、AIモデルが外部ツールやデータソースと標準的なインターフェースで通信するための仕様として2024年11月にAnthropicが発表し、その後業界で急速に採用が広まっている。DynatraceがこのMCPに対応したことで、AI-Qエージェントが推論の文脈（コンテキスト）として運用データをリアルタイムに参照できる構成が実現している。

また、AI-QエージェントがモデルAPIとして利用するNVIDIA NIMは、NVIDIAが提供する推論マイクロサービス群で、オンプレミス・クラウドを問わず最適化されたモデルを標準APIで呼び出せる仕組みだ（NIMの詳細はNVIDIA公式ドキュメントを参照）。DynatraceはNIMの呼び出しレイテンシやスループットもトレースの対象に含めることで、モデル層まで含めたエンドツーエンドの可視化を実現している。

エンタープライズAIのガバナンスという観点では、「エージェントが何をしているかを人間が把握できる状態を維持する」ことが導入の前提条件になりつつある。Dynatraceのフルスタックトレースはそのためのインフラとして機能する、というのが本記事の主張だ。

詳細はSmarter, safer Agentic AI: Dynatrace observability meets NVIDIA AI-Qを参照していただきたい。