原因不明のパフォーマンス劣化を Coding Agent との二人三脚の調査で解消した話
DRANK

!はじめにナレッジワークの 38tter です。ナレッジワーク社内共有プロダクトのバックエンド開発をしています。サービスの成長に伴う DB のレコード数の増加によるパフォーマンス劣化は、サービス運用に関わるエンジニアがしばしば直面する課題です。我々が開発しているナレッジワーク社内共有でも、本番環境 DB (Cloud SQL for PostgreSQL) のリードレプリカで、レプリケーション遅延がある週から徐々に増加する事象が発生しました。レプリケーション遅延。徐々に増加しているレプリケーション遅延により DB マスターとリードレプリカとの差分が無視できなくなるのはサービス影響が大きく、早急な解決が求められます。真っ先に思い浮かぶ原因としては、以下の 2 点でした。何らかのリリース起因による書き込み負荷の増加によりレプリケーションが追いつかなくなったレプリカのリソース不足(vCPU/メモリ不足、あるいはディスク I/O がボトルネック)しかしメトリクスを見ても特にそのような様子は見られません。大掴みで手がかりが得られないとなると、以前はログを地道に深掘って手がかりを探すのが常でしたが、今回は Coding Agent (以下、Agent) との二人三脚で調査を行…

zenn.dev
Related Topics: