趣味の電子工作と釣りについて。電子工作は、おもに変換器作成。釣りはおもにトラウトの管釣り。
ITサービスマネージャ試験が終わった。。。。いや、終わってしまった。。。。
あれだけ準備したのに、その実力を発揮することができず、残念だ。。。オペレーターは全員外国人、とか、いろんなネタを考えていたのに。。。
それはさておき、日頃から俺の元上長であるスーパーSEの勤務状況を見ていて、ITサービスマネージャたるもの、どんな条件下にあっても、適切にシステムを安定運用する義務がある、と考えるようになった。それが、たとえオペレータが『最悪タイミングに最悪な場所に居合わせる男』であったとしても、である。
-----------------------------------------------------------------------------------
平成24年度 秋期
ITサービスマネージャ試験 午後II
問1 重大なシンシデントに対するサービス回復時の対応について
1.ITサービス概要
1.1.私が携わったITサービスの概要
米国を主たる活動拠点としている日系商社Nの債権取引システムについて論述する。N社はN投資グループの中核企業であり、各種債権に投資してそれによる配当を主たる収益源としている。私はN社システム部のITサービスマネージャであり、当システムの運用チームリーダーを担当していた。
システムはすべてLA本社コンピュータルームに収容されているが、運用メンバーはNYにある運用ルームからすべての作業を行っており、LA本社に運用要員はゼロであった。
1.2.発生した重大インシデントについて
ある祝日の午後6時ごろ、運用ルームからLA本社の全システムに通信ができなくなるインシデントが発生した。確認のためにLA本社にいるシステム部メンバーに連絡を取ったところ、何か別の階から大きな音が聞こえるが、状況はよくわからないとのことであった。すぐさま要員をLA本社に派遣する手続きを取ったが、偶然非番のB君がクリスマス休暇を利用してLA本社近辺にいることがわかったため、B君の同意を得たうえで、急遽B君を障害対応のためにLA本社へ向かわせることにした。
障害の原因はすぐに判明した。LA本社がテロリストに占拠され、外部との通信回線を遮断されてしまったからであった。コンピュータルームもテロリストに占拠され、当システムのジョブ管理マネージャにアクセスできない状態であった。このままでは夜間バッチの実行前データチェックとジョブの保留解除を指示できず、翌日の債権取引に支障が出ると考えた私は、B君にテロリスト対応運用マニュアルに従って障害復旧にあたるよう指示を出した。
2.重大インシデントの回復作業について
2.1.回復作業中に発生したトラブル
B君は運用マニュアルにしたがって、警察(ロス市警)と連携し対処にあたることになったが、その過程で次のような問題が発生した。
①B君はN社の業務フロア入室前に、携帯電話を受付のロッカーに預けていた。個人携帯の社内への持ち込みはN社のコンプライアンス違反になるからである。固定電話の回線が切られており、初期の小競り合いでそのロッカーも爆破してしまったため、外部と連絡を取る手段がなかった。
②コンピュータルームだけではなくMDF盤がある部屋もテロリストに占拠されており、回線復旧作業の工事担当者が入れなかった。
③コンピュータルームが地上30階にあったが、故障でエレベータが29階までしか上がれず、階段には重装備のテロリストがいたため、近づくことができなかった。
2.2.問題に対し検討したこと
上記①~③の問題に対し、ロス市警やFBIなど運用関係者を招集して緊急対策会議を開催し、検討を行い次のような対策を考案した。
案①:B君が直接コンピュータルームに入室し、運用管理サーバのKVMを立ち上げてジョブの保留解除を行う。テロリストに気づかれると瞬殺されるため、細心の注意が必要であった。
案②:ロス市警特殊部隊(以下SWATチーム)を突入させてMDF盤を奪還し通信経路を回復する。コンピュータルームはまだ占拠された状態であるため一部業務に支障は出るが、ジョブの保留解除が可能になるため、明日の主要取引である日本国債購入に支障はない、と考えた。
案③:FBIエージェント(以下FBIチーム)を投入および軍用ヘリを駆使してコンピュータルームを奪還する。さらにB君を呼び寄せて一連の処理を実行させることにより、システムを本日中に完全復旧させることが可能と考えた。
以上の案①~③について、30分以内にB君と連絡が取れない場合、マニュアルに従って案①をB君は選択することになるが、おそらく生きては帰れないであろう。しかしB君からの連絡がなければ無条件で案①になる。B君が活動中に情報連携なしでSWATチームやFBIチームを突入させると、B君をテロリストと誤認して射殺してしまう可能性が高いからである。
効果がもっとも大きいのは案③であったが、実現可能性が高いことと実行コストが安価であることを考慮し、案②が適切と考え、B君との連絡が取れ次第、案②を実施することにした。ただし、万一案②がうまくいかない場合は、案③の実施も検討する、とした。
3.対策実施時の作業統括について
B君が潜入して20分経過したときに、通信手段を確保したとの連絡が入った。テロリストが持っていた無線機をなんとか借りることができたとのことであった。私は使用後速やかに持ち主へ返却することを条件に、B君の無線機使用を許可するとともに、B君の代理でN社総務部に機器持込申請を行った。
私は前述の2.で挙げた対策を実施するにあたり、本システムの運用チームリーダーとして、B君、SWATチーム、 FBIチームの作業を統括する立場にあった。各チーム間それぞれに面識がなく、また勤務環境も異なることから、業務遂行上さまざまな問題が発生すると予想されたため、次のような活動を行うことにした。
①進捗状況および活動状況の報告の徹底
本対策では3チームがそれぞれ自分の持ち分で作業することになるが、お互いが他チームの作業状況を把握しないと仲間同士の撃ち合いなど予期せぬ障害を引き起こす可能性がある。そこで、各対応チームのリーダには10分間隔で、活動区域と殺害テロリスト数の報告を義務化した。また想定を超えた重火器を見かけるなど重大インシデントの兆候を発見した場合、その状況も報告対象とした。
②チーム間の情報共有の効率化
各チームから私に寄せられた情報をそのまま他のチームに連携すると、情報量が多すぎてかえって混乱を招く恐れがあると考えた。そこで寄せられた状況を分析し、必要な情報を整理したうえで他のチームに連携した。たとえば別チームが同じ階で活動している場合、お互いの活動区域に近づかないよう指示を出すとともに、敵味方を識別できるよう、各チームの服装や武装についての特徴を連携した。とくにB君は激しい交戦で服がズタボロになって見分けがつかない状態になっている可能性があったため、SWATおよびFBIチームにはその旨連携をした。
上記にあげた①、②の活動により、2時間でコンピュータルームの奪還に成功し、5時間以内にバッチ処理を正常終了させることができ、翌日のすべての債権取引を通常通り処理することができた。破壊された窓やエレベータ、床にあいた大きな穴についても、オンサイト保守の契約をしていたため電話連絡後4時間以内に交換作業に取り掛かり、当日中にすべての補修作業が完了し、N社本社業務フロアも翌日には通常業務に戻った。
私は今回の対策について、及第点と考えている。直接的な損害を最小限に抑えたことでN社経営層からは高く評価されている一方、突入したSWATチームが全滅し、FBIチームのヘリが爆破に巻き込まれて墜落するなど、N社員以外の人的損失が大きかったからである。私は次年度春からB君とともに空港管制システムの運用会社に転職したが、そこでは本取り組みでの失敗を繰り返さないよう、人的被害も考慮した安定運用を心がけている。
以上
-----------------------------------------------------------------------------------
う~ん、やっぱり、ちゃんと書けるよなぁ。。なんで19日はダメだったんだろう。。。。
まあ、とりあえず言えることは、『最悪タイミングに最悪な場所に居合わせる男』はオペレータにしてはならない、ということである。
あれだけ準備したのに、その実力を発揮することができず、残念だ。。。オペレーターは全員外国人、とか、いろんなネタを考えていたのに。。。
それはさておき、日頃から俺の元上長であるスーパーSEの勤務状況を見ていて、ITサービスマネージャたるもの、どんな条件下にあっても、適切にシステムを安定運用する義務がある、と考えるようになった。それが、たとえオペレータが『最悪タイミングに最悪な場所に居合わせる男』であったとしても、である。
-----------------------------------------------------------------------------------
平成24年度 秋期
ITサービスマネージャ試験 午後II
問1 重大なシンシデントに対するサービス回復時の対応について
1.ITサービス概要
1.1.私が携わったITサービスの概要
米国を主たる活動拠点としている日系商社Nの債権取引システムについて論述する。N社はN投資グループの中核企業であり、各種債権に投資してそれによる配当を主たる収益源としている。私はN社システム部のITサービスマネージャであり、当システムの運用チームリーダーを担当していた。
システムはすべてLA本社コンピュータルームに収容されているが、運用メンバーはNYにある運用ルームからすべての作業を行っており、LA本社に運用要員はゼロであった。
1.2.発生した重大インシデントについて
ある祝日の午後6時ごろ、運用ルームからLA本社の全システムに通信ができなくなるインシデントが発生した。確認のためにLA本社にいるシステム部メンバーに連絡を取ったところ、何か別の階から大きな音が聞こえるが、状況はよくわからないとのことであった。すぐさま要員をLA本社に派遣する手続きを取ったが、偶然非番のB君がクリスマス休暇を利用してLA本社近辺にいることがわかったため、B君の同意を得たうえで、急遽B君を障害対応のためにLA本社へ向かわせることにした。
障害の原因はすぐに判明した。LA本社がテロリストに占拠され、外部との通信回線を遮断されてしまったからであった。コンピュータルームもテロリストに占拠され、当システムのジョブ管理マネージャにアクセスできない状態であった。このままでは夜間バッチの実行前データチェックとジョブの保留解除を指示できず、翌日の債権取引に支障が出ると考えた私は、B君にテロリスト対応運用マニュアルに従って障害復旧にあたるよう指示を出した。
2.重大インシデントの回復作業について
2.1.回復作業中に発生したトラブル
B君は運用マニュアルにしたがって、警察(ロス市警)と連携し対処にあたることになったが、その過程で次のような問題が発生した。
①B君はN社の業務フロア入室前に、携帯電話を受付のロッカーに預けていた。個人携帯の社内への持ち込みはN社のコンプライアンス違反になるからである。固定電話の回線が切られており、初期の小競り合いでそのロッカーも爆破してしまったため、外部と連絡を取る手段がなかった。
②コンピュータルームだけではなくMDF盤がある部屋もテロリストに占拠されており、回線復旧作業の工事担当者が入れなかった。
③コンピュータルームが地上30階にあったが、故障でエレベータが29階までしか上がれず、階段には重装備のテロリストがいたため、近づくことができなかった。
2.2.問題に対し検討したこと
上記①~③の問題に対し、ロス市警やFBIなど運用関係者を招集して緊急対策会議を開催し、検討を行い次のような対策を考案した。
案①:B君が直接コンピュータルームに入室し、運用管理サーバのKVMを立ち上げてジョブの保留解除を行う。テロリストに気づかれると瞬殺されるため、細心の注意が必要であった。
案②:ロス市警特殊部隊(以下SWATチーム)を突入させてMDF盤を奪還し通信経路を回復する。コンピュータルームはまだ占拠された状態であるため一部業務に支障は出るが、ジョブの保留解除が可能になるため、明日の主要取引である日本国債購入に支障はない、と考えた。
案③:FBIエージェント(以下FBIチーム)を投入および軍用ヘリを駆使してコンピュータルームを奪還する。さらにB君を呼び寄せて一連の処理を実行させることにより、システムを本日中に完全復旧させることが可能と考えた。
以上の案①~③について、30分以内にB君と連絡が取れない場合、マニュアルに従って案①をB君は選択することになるが、おそらく生きては帰れないであろう。しかしB君からの連絡がなければ無条件で案①になる。B君が活動中に情報連携なしでSWATチームやFBIチームを突入させると、B君をテロリストと誤認して射殺してしまう可能性が高いからである。
効果がもっとも大きいのは案③であったが、実現可能性が高いことと実行コストが安価であることを考慮し、案②が適切と考え、B君との連絡が取れ次第、案②を実施することにした。ただし、万一案②がうまくいかない場合は、案③の実施も検討する、とした。
3.対策実施時の作業統括について
B君が潜入して20分経過したときに、通信手段を確保したとの連絡が入った。テロリストが持っていた無線機をなんとか借りることができたとのことであった。私は使用後速やかに持ち主へ返却することを条件に、B君の無線機使用を許可するとともに、B君の代理でN社総務部に機器持込申請を行った。
私は前述の2.で挙げた対策を実施するにあたり、本システムの運用チームリーダーとして、B君、SWATチーム、 FBIチームの作業を統括する立場にあった。各チーム間それぞれに面識がなく、また勤務環境も異なることから、業務遂行上さまざまな問題が発生すると予想されたため、次のような活動を行うことにした。
①進捗状況および活動状況の報告の徹底
本対策では3チームがそれぞれ自分の持ち分で作業することになるが、お互いが他チームの作業状況を把握しないと仲間同士の撃ち合いなど予期せぬ障害を引き起こす可能性がある。そこで、各対応チームのリーダには10分間隔で、活動区域と殺害テロリスト数の報告を義務化した。また想定を超えた重火器を見かけるなど重大インシデントの兆候を発見した場合、その状況も報告対象とした。
②チーム間の情報共有の効率化
各チームから私に寄せられた情報をそのまま他のチームに連携すると、情報量が多すぎてかえって混乱を招く恐れがあると考えた。そこで寄せられた状況を分析し、必要な情報を整理したうえで他のチームに連携した。たとえば別チームが同じ階で活動している場合、お互いの活動区域に近づかないよう指示を出すとともに、敵味方を識別できるよう、各チームの服装や武装についての特徴を連携した。とくにB君は激しい交戦で服がズタボロになって見分けがつかない状態になっている可能性があったため、SWATおよびFBIチームにはその旨連携をした。
上記にあげた①、②の活動により、2時間でコンピュータルームの奪還に成功し、5時間以内にバッチ処理を正常終了させることができ、翌日のすべての債権取引を通常通り処理することができた。破壊された窓やエレベータ、床にあいた大きな穴についても、オンサイト保守の契約をしていたため電話連絡後4時間以内に交換作業に取り掛かり、当日中にすべての補修作業が完了し、N社本社業務フロアも翌日には通常業務に戻った。
私は今回の対策について、及第点と考えている。直接的な損害を最小限に抑えたことでN社経営層からは高く評価されている一方、突入したSWATチームが全滅し、FBIチームのヘリが爆破に巻き込まれて墜落するなど、N社員以外の人的損失が大きかったからである。私は次年度春からB君とともに空港管制システムの運用会社に転職したが、そこでは本取り組みでの失敗を繰り返さないよう、人的被害も考慮した安定運用を心がけている。
以上
-----------------------------------------------------------------------------------
う~ん、やっぱり、ちゃんと書けるよなぁ。。なんで19日はダメだったんだろう。。。。
まあ、とりあえず言えることは、『最悪タイミングに最悪な場所に居合わせる男』はオペレータにしてはならない、ということである。
PR
この記事にコメントする