メインコンテンツにスキップ

原因分析 - 2025年1月15日

K
対応者:Kiren Dosanjh-Dixon
今週アップデートされました

インシデントの根本的な原因は、終日会議の表示に関する問題の解決を目的とした配備に含まれていた非効率的なデータベースクエリにあった。このクエリにより、リリース直後にパフォーマンスが著しく低下しました。問題は特定され、ロールバックとコードの差し戻しによって1時間以内に解決されました。

インパクト:

  • データベースの停止により、プラットフォームのパフォーマンスが大幅に低下した。これは、スケジュールをロードするための非効率的なクエリを含むデプロイが原因だった。

  • この問題はプラットフォームの性能に影響し、リリース直後に大幅な劣化につながった。

  • この事故は午前10:00に発生し、配備は午前9:50に開始された。問題は午前11時3分までに解決した。

解決ステップ:

  1. インシデントの検出: パフォーマンスの問題は、配備直後の午前10時頃に気づかれました。

  2. ロールバック: 配備は直ちに以前の安定版にロールバックされました。

  3. コードの差し戻し: 非効率的なクエリを導入したコードの変更は、さらなる影響を防ぐために差し戻されました。

  4. サービス復旧:ロールバックは午前11時3分までにプラットフォームのパフォーマンスを回復させることに成功しました。

罰則:罰則:罰則:罰則:罰則:罰則:

クエリ・パフォーマンスの監査:

  • 影響度の高いデータベースクエリ、特に重要なユーザー向け機能に関わるクエリをレビューするための追加プロセスを導入する。

  • 開発データベースとQAデータベースを拡張し、本番データサイズの複製をさらに導入する。

結論:

データベースの停止は、本番環境に導入された非効率的なクエリに起因するもので、開発およびQAプロセスにおいて、本番環境に近いより広範な条件が要求された。コードを以前の安定したバージョンにロールバックすることで、迅速に解決した。今後は、再発防止のため、QA プロセスとデプロイ手順の強化が優先される。

こちらの回答で解決しましたか?