PagerDutyは、オンプレミスやクラウドで稼働しているシステムに不具合が生じたとき、あらゆる監視ツールからのアラート情報を受け取り対応する、システム全体のアラートビッグデータシステムを月額数万円で簡単に構築できるサービスです。
一度PagerDutyを設定することで、オンプレミス、クラウド、ハイブリッドを問わず他部門や他システムで導入している異なる監視ツールを含めた全システムのアラート情報が自動的に一元管理され、全障害情報の管理・蓄積が開始されます。全てのアラート情報がビッグデータとして収集され始めると、次の障害が発生する前に担当エンジニアは過去の類似パターンから予兆管理や障害分析・予兆分析も可能となり、自社が開発・運用するシステムの障害発生やエンジニアの深夜の障害対応時間などを大きく抑制することが可能になります。
■ アラートの集約と分類
・イベントを集約し、分類し、相関させ、重要なものを管理できます
■ 多様なアラート機能
・適切な情報を適切な人に適切な手段で提供します
■ スケジューリングと自動エスカレーション
・オンコールスケジュール、ローテーション、エスカレーションを設定できます
■ モバイルでのインシデント管理
・優れたユーザーインターフェイスで、外出先からインシデントを管理できます
■ リアルタイムコラボレーション
・ChatOpsツール、ヘルプデスクサービスとの連携により、適切なチームに連絡できます
■ システム&ユーザーレポート
・システムの効率化、従業員の生産性を把握できます
■ 信頼性の高い環境
・高品質なサービスを提供するためのインフラを整備しています
■ エンタープライズレベルのセキュリティー
・ロールベースのアクセス許可を管理するための管理コントロールを備えています
■ 監視サービスのグループ化
・複数の監視サービスを簡単にグループ化できます
■ プラットフォームの拡張性
・あらゆるツールと連携できる信頼できるプラットフォーム
■ ライブコールルーティング
・オンコールスケジュールとエスカレーションポリシーを使って、オンコールのレスポンダーにすぐに連絡することができます
■ 事後検証
・事後検証プロセスを合理化することで、インシデントを解決し予防する力を高められます
■ アラートの集約と分類
・イベントを集約し、分類し、相関させ、重要なものを管理できます
■ 多様なアラート機能
・適切な情報を適切な人に適切な手段で提供します
■ スケジューリングと自動エスカレーション
・オンコールスケジュール、ローテーション、エスカレーションを設定できます
■ モバイルでのインシデント管理
・優れたユーザーインターフェイスで、外出先からインシデントを管理できます
■ リアルタイムコラボレーション
・ChatOpsツール、ヘルプデスクサービスとの連携により、適切なチームに連絡できます
■ システム&ユーザーレポート
・システムの効率化、従業員の生産性を把握できます
■ 信頼性の高い環境
・高品質なサービスを提供するためのインフラを整備しています
■ エンタープライズレベルのセキュリティー
・ロールベースのアクセス許可を管理するための管理コントロールを備えています
■ 監視サービスのグループ化
・複数の監視サービスを簡単にグループ化できます
■ プラットフォームの拡張性
・あらゆるツールと連携できる信頼できるプラットフォーム
■ ライブコールルーティング
・オンコールスケジュールとエスカレーションポリシーを使って、オンコールのレスポンダーにすぐに連絡することができます
■ 事後検証
・事後検証プロセスを合理化することで、インシデントを解決し予防する力を高められます
世界累計利用者数4900 万人を突破(2019 年1月現在)した株式会社ミクシィのXFLAG が提供するスマホアプリ「モンスターストライク」(以下、モンスト)。その巨大インフラ、システムの運用にPagerDuty を活用しているSRE チームのエンジニアに使用感を尋ねた。
Read more ➝
Q. オンコールエンジニアがアラートに応答しない場合はどうなりますか?
A. PagerDutyでは包括的なエスカレーションルールを指定できます。インシデントがトリガされると、PagerDutyは最初にレベル1のオンコールエンジニアにそのインシデントの連絡を試みます。その人がユーザー指定のエスカレーションタイムアウト内に応答しない場合、PagerDutyは自動的にレベル2のエンジニアに警告をエスカレートします。