インシデント管理とは?
基礎知識と必要性・実行プロセスの流れを解説
ITサービスの運用におけるシステム故障やトラブルは、業務停止や顧客への影響など、大きなリスクにつながる可能性があります。
インシデントをゼロにすることは困難ですが、インシデントの管理体制を整備しておくことによって異常を早期に発見し、復旧までの時間を最小限に抑えられます。また、早期対応や標準化された手順、再発防止の仕組みなどを整えることにより、属人化や対応漏れも防げるでしょう。
一方で、多拠点のネットワーク環境や24時間対応が求められる企業では、社内のインシデント管理だけでは限界が生まれやすいものです。そこで、専門業者にアウトソーシングするという選択肢もあります。
本記事では、インシデント管理の基本から実行プロセス、よくある課題までわかりやすく整理し、導入すべき運用方法のポイントを解説します。

インシデント管理の基礎知識
始めに、インシデントの概要を簡潔に紹介し、インシデント管理と問題管理の違いについて解説します。
そもそもインシデントとは?
「インシデント(Incident)」とは、「事件」や「出来事」を意味する言葉で、業務停止や損失などのリスクにつながる恐れのある事象のことです。
ITサービスマネジメントの領域では、システムの完全停止はもちろん、予期せぬ不具合など、サービスの質や利便性が損なわれかねない事象をインシデントといいます。
アクシデント(事故)に至る前の潜在事故という意味では「ヒヤリハット」に似ていますが、ヒヤリハットが出来事を発見したことを指すのに対し、インシデントは出来事そのものを指します。
インシデント管理とは?
ITサービスにおけるインシデント管理とは、システム停止などにつながる不具合が発生したときに、状況を迅速に把握し、システムを復旧させるための体制を指す言葉です。
インシデントへの対応が遅れると、「サービスが止まった」「エラーが出て使えない」など業務に支障をきたす問題に発展しかねません。
そのため、インシデント管理を行うことによりトラブルを最小限に抑えながら、業務への影響を迅速に収束させる必要があります。
インシデント管理と問題管理の違い
インシデント管理と類似する言葉に「問題管理」があります。両者の違いはどこにあるのでしょうか。
インシデント管理は、ITサービスを早急に復旧するためにインシデントの根本原因を取り除くことが目的です。現在起きている問題を解決する「応急処置」の位置づけだと考えてもよいでしょう。
一方で問題管理は、インシデントの根本的な原因を発見して改善・解消することを意味します。将来的な再発防止やシステムの改善も含め、中長期的な取り組みが求められます。
インシデント管理の必要性
続いて、インシデント管理を実施する必要性について解説します。
サービス停止による業務影響を最小限に抑えるため
システム故障やトラブルが発生すると、顧客へのサービスや自社の業務が滞り、場合によっては業務停止に至る可能性があります。そこでサービス提供や業務中断の時間を短縮するためにも、早期の原因把握が必要です。
トラブルの拡大を抑えることにより、従業員や顧客への影響や損失も最小限に留めることができます。インシデント管理は、サービスの提供や業務の中断が長時間続くリスクを避け、事業の安定性を保つうえでも重要な要素です。
トラブルの発見・復旧までを迅速に対応するため
インシデントをゼロにすることは難しいからこそ、トラブルの発生時に異常アラートをすぐに検知できる仕組みを整えておく必要があります。
また、インシデント管理を行ない対応手順を明確化しておくことによって、担当者はスムーズに復旧作業を開始できます。初動の遅れによる影響拡大や、二次被害の発生を防ぎやすくなるでしょう。
対応手順を標準化し、属人化によるミスを防ぐため
インシデント発生時の対応手順が統一されていないと、担当者によって対応にばらつきが生じる恐れがあります。
複数の担当者が同じ基準で対応できる体制を構築するためにも、対応手順の標準化が重要になります。これによりサービス担当の属人化を避けることも可能でしょう。
対応手順における抜けや漏れを減らすには、対応フローを明確にするほか、チェックリストを作成して活用することも有効です。
顧客・利用者への影響や信用低下を防ぐため
インシデント管理を適正化すると、迅速なサービス復旧の実現だけでなく、顧客への説明や対応もスピーディに行なえます。これによりサービスへの信頼性を維持し、ブランド価値の低下を防ぐことが可能です。
早期復旧と誠実な対応に向けたインシデント管理は、顧客満足度の向上につながります。
インシデントの再発防止に役立てるため
インシデント管理では、根本原因を振り返ることにより、同様のトラブル発生を防ぐための改善策を導き出せます。そのためにも、発生日時や影響した部門など過去のデータを分析することが重要です。
また、インシデント発生時の対応記録を蓄積しておくと、次回のインシデント対応の効率化や品質向上に役立ちます。
インシデント管理を実行する流れ
インシデント管理のプロセスでは、ITシステムの運用を迅速に回復し、ビジネスへの影響を最小限に抑える必要があります。そのために求められるインシデント管理の基本的な流れについて、以下で解説します。
インシデント管理のチームを結成
事前準備として、インシデント発生時において迅速に対応できるよう、担当など役割を明確にしたチーム体制を構築します。インシデント管理には、検知・報告・対応・復旧・事後処理など各工程が存在しますが、それぞれ責任者と権限範囲を明確にしておきます。
また、あらかじめインシデント対応計画(ポリシーや戦略、計画や対応手順など)を策定し、社内の関係者へ周知しましょう。
インシデントの検出
トラブル発生時の第一ステップが、インシデントの検出です。主に監視ツールやログ分析、従業員からの通報など複数の経路から、インシデントの発生を早期に検出します。
検出時には、発生した日時や部署、経緯のほか、初期症状や影響が疑われるシステムなど、その時点で把握できる事項を記録します。検出したインシデントの内容により対応方法が異なるため、集積された記録を参照することにより、どのように対応するかを判断する基準となるように整理することが重要です。
インシデントの分類
次に、インシデントを種類別に分類します。
分類の方法は、システム故障やセキュリティ侵害、サービス停止といった「インシデントの種類ごと」か、もしくは「影響をおよぼす度合いや範囲」に応じた分類などがあります。データベースや履歴から過去の事例について確認しておくとよいでしょう。
なお、インシデントの分類は対応方針の設定を行うためにも重要です。あらかじめ分類軸を統一して明確化し、誰が行なっても同じ基準で分類できる状態にしておきます。
優先順位の設定
影響範囲と緊急度をかけ合わせ、重大度(重大・高度・中度・低度など)を定めます。
優先度に応じて対応スピードや要員を調整し、重大なインシデントに資源を集中できるようにしておくことがポイントです。
サービス停止など顧客への影響が発生している場合には最優先で対応するなど、判断基準を明文化しておきましょう。
インシデントの初動対応
実際にインシデントが起きた場合の初動対応としては、対象となるシステムやサービス、ユーザーなどの範囲を確認し、影響の度合いを把握します。
最優先事項は被害拡大の防止です。そのため、必要に応じてシステムの隔離や停止、アクセス制限などの緊急措置を行ないます。
初動段階で内外の関係者への通知やエスカレーション(上位の管理者や部署への引き継ぎ)を行うことも重要で、対応体制を即時に構築させます。
インシデントの解消
インシデントの解消後は、根本原因の完全除去につながる対策を行ないます。具体的には、特定された原因に基づき、マルウェアの駆除や脆弱性へのパッチ適用、不正アクセスを検知するシステムの強化などのような恒久的な対策を導入・実施することです。
安全性が確認できたら、サービスを正常稼働できる状態に復旧し、業務を再開します。
インシデント対応の進捗管理
進捗管理も重要な業務の一つです。原因の特定はもちろん、対応の状況や実施した作業、関係者とのやり取りなどを記録し、証跡として保全します。
外部事業者や関係部署との連携も管理対象とし、情報の一元化を図ります。解決までの進捗は、関係者がリアルタイムで詳細を把握できるよう調整することが重要です。
インシデント管理の終了
インシデント管理の終了を迎えるにあたり、事後レビューを行ないます。事後レビューは、「事後検証」や「ポストモーテム」などと呼ばれることもあります。
まずはチームメンバーを集めて活発な議論を行ない、インシデントの発生原因や対応プロセスにおける課題、改善点を整理します。この際、「個人」のヒューマンエラーに帰結するのではなく、建設的な議論を行うことが重要です。再発防止策の策定と実施に加え、運用ルールや手順書の更新を行ないます。
得られた教訓や改善案といったナレッジは、次回のインシデント対応に活かせるよう組織全体へフィードバックしましょう。
インシデント管理を実施する際の課題点
サイバー攻撃は、企業のセキュリティ体制が脆弱になる夜間や休日に起きやすいとされています。非24時間監視は24時間監視に比べてコストがかからない点がメリットですが、サイバー攻撃に対するリスクは大きくなるでしょう。
インシデントの検出をはじめ対応が遅れるほど、影響は広範囲に広がります。そのためインシデント管理においても、24時間365日体制で継続的に行うことが理想です。
また、多拠点・多店舗で事業を展開する場合には、ネットワーク機器の数が多く、インシデントの一元管理が難しくなります。連携していない領域が複数にまたがると、サイバー攻撃を受けた際の全体への影響が把握しにくくなります。
一方、自社で24時間365日体制のインシデント管理を実施するには、人材不足などの課題もあるでしょう。自社での実施が難しい場合は、専門業者にアウトソーシングする方法がおすすめです。
まとめ
ITサービスにおけるインシデントとは、システムの完全停止や深刻なトラブルなど、サービスの質や利便性が損なわれる状態につながる出来事を指します。
被害拡大を防ぎ企業の損害を最小限に抑えるためにも、インシデントの早期発見や迅速なシステムの回復が重要です。そこで企業には、適切なインシデント管理が求められます。具体的には、インシデントを検出したら、その分類や優先度に基づき初動対応を行うといった一連の流れを、あらかじめ定義しておくことです。
昼夜を問わないサイバー攻撃に対応するには、一元化した管理体制のもと24時間体制でインシデント管理を行うことが理想です。多店舗経営など一元化したインシデント管理が難しい場合には、外部の専門業者にアウトソーシングすることも検討するとよいでしょう。
NTTドコモビジネスが提供する「多店舗ネットワークマネジメント」は、多数の拠点や店舗を展開する流通・サービス業などに向けたネットワーク監視保守です。監視機能を絞り込み、24時間365日体制で多店舗ネットワークの監視や管理、故障対応などを行ないます。資料請求も可能なため、ぜひ一度お問い合わせください。

