島田則幸

重大インシデント対応プレイブック

社内システムの 重大インシデント発生時に、検知から事後対応までを定型化して進めるためのプレイブックです。日常のヘルプデスク事例とは別の、業務影響が大きい事案を扱います。

📋 想定環境 / 用途

項目	想定
想定読者	IT 管理者・社内SE・運用責任者
適用範囲	業務影響が複数ユーザー or 1 部署以上に及ぶ事案
補足	単一ユーザーの問い合わせは障害対応事例集を参照

🚨 インシデント重大度（Severity）の定義

Sev	定義	例	初動目標時間
P1	全社業務停止または重大なデータ漏洩リスク	メールサーバ全停止、ランサムウェア検知、認証基盤ダウン	検知から 15 分以内に対応開始
P2	1 部署以上の業務停止、または重要システムの著しい劣化	営業部のファイルサーバ不可、特定店舗の VPN 切断	30 分以内
P3	複数ユーザーに影響する継続性ある不具合（業務継続は可能）	印刷キュー詰まり全社、特定アプリの認証遅延	1 時間以内
P4	個別ユーザーの問い合わせレベル	1 名のメール不可、PC 不調	通常チケットフロー

👥 役割分担（インシデント体制）

P1〜P2 で発動します。1 名で兼務することもありますが、役割を明示することが重要です。

役割	主な責務
Incident Commander (IC)	全体指揮、優先順位決定、エスカレーション判断
Tech Lead	技術的な原因調査・復旧作業の主担当
Communications (Comms)	経営層・関係部署・ユーザーへの状況報告
Scribe（記録係）	時系列記録、後の事後分析（ポストモーテム）の元資料作成

⏱ 標準タイムライン（P1 想定）

T+0:00  検知（監視アラート / ユーザー報告）
T+0:05  IC 任命、Sev 判定、Slack/Teams インシデントチャネル作成
T+0:10  Tech Lead が初期切り分け開始
T+0:15  Comms が「調査中」として一次報告（経営・全社）
T+0:30  Comms が中間報告（30分毎に更新）
T+x:00  根本原因特定 → 復旧作業開始
T+y:00  復旧完了 → 動作確認 → 「終息」を Comms から共有
T+1日   ポストモーテム会議
T+3日   再発防止策の決定とナレッジ化

1️⃣ 検知 / 受付

検知経路

監視ツール（PRTG / Zabbix / Azure Monitor / Microsoft 365 サービス正常性）からのアラート
同時複数ユーザーからの問い合わせ
セキュリティ製品（Defender / EDR）の高深刻度アラート
経営層・部署長からの直接連絡

受付時に必ず確認

発生開始時刻（推定でも良い）
影響範囲（人数、部署、拠点、システム）
直前の変更（リリース、設定変更、メンテナンス）
復旧の緊急度（経営判断・取引先対応の有無）

2️⃣ 重大度判定 → IC 任命

判定マトリクス

影響ユーザー数 × 業務影響度 × データリスク
   ↓
P1 / P2 / P3 / P4 を決定
   ↓
P1〜P2 → IC を任命して体制発動
P3〜P4 → 通常チケットフロー

IC 任命

営業時間内: IT 部署長 or 当番リーダーが IC
夜間・休日: オンコール担当が一次 IC、必要に応じて部署長エスカレーション
IC 自身は手を動かさず、調整に専念する

3️⃣ 初期対応（封じ込め）

被害拡大を止めるため、根本原因が判明する前でも実施します。

一般原則

影響範囲を 広げない 措置を最優先
副作用が大きい措置は IC 承認のもと実施
全ての操作を Scribe に時刻入りで記録

シナリオ別の即時対応

シナリオ	即時対応
全社メール不可	M365 サービス正常性確認、ハイブリッド構成ならオンプレ Exchange 確認、外部 DNS の MX 確認
ランサムウェア疑い	該当端末を物理的にネットワークから切断（LAN 抜く・Wi-Fi オフ）、AD アカウント無効化
ファイルサーバ高負荷	接続中ユーザー数確認、不要セッション切断、ディスク残量確認
認証基盤（AD/Azure AD）不可	DC 健全性確認、AAD Connect 同期状態確認、サービス障害情報を確認
不審メール大量送信	送信元アカウントのパスワード変更＋セッション失効、送信ルール確認

4️⃣ 調査と根本原因特定

情報収集の優先順位

時系列の整理: いつから・どこから・どう広がったか
直前の変更: パッチ、設定変更、リリース、人事異動
ログ取得: イベントログ・アプリログ・ファイアウォールログ・SaaS 監査ログ
再現性確認: 別端末・別ユーザー・別拠点で再現するか

想定される根本原因

カテゴリ	例
設定変更ミス	GPO 変更、DNS 変更、ファイアウォールルール変更
ハードウェア故障	サーバ HDD 故障、スイッチ電源故障、UPS 切替失敗
ソフトウェア不具合	OS パッチ不具合、アプリのバージョン不適合
容量不足	ディスク満杯、メールボックス上限、ライセンス枯渇
外部要因	クラウドサービス障害、ISP 障害、DDoS
セキュリティ事案	マルウェア、不正アクセス、内部不正

5️⃣ 復旧 / 動作確認

復旧パターン

パターン	内容
設定戻し	直前の設定変更を切り戻す（最も安全）
再起動	サービス・サーバの再起動（影響時間と引き換え）
代替経路	副系切替、代替メール経路への切替
容量増設	ディスク追加、ライセンス追加割当
復元	バックアップからの復元（最後の手段）

復旧後の確認

影響範囲のユーザー全員にアクセスを依頼し、業務継続できることを確認
監視ツールでアラートが解消したことを確認
連動システム（バックアップ、ジョブ、レプリケーション）も正常か確認

6️⃣ 終息宣言と一次報告

IC が「終息」を宣言
Comms が経営層・全社・関係部署へ最終報告（テンプレート末尾）
チケットを「終息（事後分析中）」ステータスへ移行
24 時間は 再発監視 を継続

7️⃣ ポストモーテム（事後分析）

復旧の翌営業日〜3 日以内に実施。犯人探しではなく、再発防止の仕組みを作るための会議 であることを冒頭で明示します（ブレームレス）。

📄 このプレイブックを実例に当てはめた書式: postmortem-example.md に、共有フォルダ I/O 飽和（P2、架空事案）を題材にした Postmortem の完成例を置いています。MTTA / MTTR / 5 Whys / 応急 → 恒久 → 中期対応までを実際にどう書くかが分かります。

議事の構成

タイムラインの確認（Scribe の記録を読む）
影響範囲・ビジネスインパクトの確定（時間 × 人数）
何が良かったか（Worked Well）
何が課題だったか（Did Not Work Well）
是正アクション（Action Items）— 担当・期限を必ず決める
ナレッジ化（手順書・障害対応事例集・バックアップ Runbook の更新）

Action Items の例

監視追加: ディスク使用率 90% で警告アラートを設定（Monitoring Stack で HostLowDisk 相当）
手順整備: GPO 変更時のレビュアー必須化
訓練: 半期に一度、模擬インシデント訓練を実施
ドキュメント: 障害対応事例集にケース追加、必要なら新規 Postmortem を作成

📨 報告テンプレート

一次報告（検知から 15 分以内）

【一次報告 / SEV1】メール送受信不可

発生時刻: 2026-05-XX 09:32 ごろ
事象   : Outlook でメールの送受信ができない（全社）
影響   : 推定 800 名 / 全社業務メール
原因   : 調査中
対応   : Tech Lead がログ確認中、復旧見込み未定
次回報告: 30 分後（10:15）または変化があり次第
連絡先 : IC 山田 (内線 XXXX)

終息報告

【終息報告 / SEV1】メール送受信不可 → 復旧

発生時刻 : 2026-05-XX 09:32
終息時刻 : 2026-05-XX 10:48
所要時間 : 1 時間 16 分
影響範囲 : 全社 約 800 名
根本原因 : Exchange Online 側のサービス障害（Microsoft 障害番号 XXXXXX）
対応概要 : Microsoft 障害情報を確認、自社側の操作なし、Microsoft 復旧を待機
再発防止 : Microsoft Service Health の通知を Teams チャネルに自動投稿する設定を追加
詳細    : ポストモーテム議事録を後日共有予定

⚠️ よくある落とし穴

症状	原因	対策
IC と Tech Lead が同一人物で両方とも疲弊する	体制が定義されていない	プレイブックで役割を明示し、夜間オンコール体制を整備
関係部署が状況を知らないまま対応している	Comms 不在	Comms 役を必ず立てる
復旧したが原因不明のまま終わった	時間優先で調査スキップ	復旧後にログ取得→ポストモーテムで分析
ポストモーテムが犯人探しに終始	ブレームレス文化が浸透していない	冒頭で「仕組みの問題を探す」と宣言

🔗 関連リソース

障害対応事例集 — 単独事案の対応ケース
マルウェア感染疑い対応フロー — セキュリティインシデント特化
PC キッティング手順書
New-EndpointDailyReport.ps1 — 日次サマリーで早期検知

注意: 本書はサンプルです。実運用では自社の BCP / DRP / セキュリティポリシー、契約 SLA、所属業界の法規制に応じてカスタマイズしてください。

This site is open source. Improve this page.