Click here to visit our sponsor



----------------------------------------------------------------------

 (24時間連続サービスを提供するオンラインシステムの運用について)

----------------------------------------------------------------------

----------------------------------------------------------------------
(設問ア)
----------------------------------------------------------------------
1.システムの概要と私の立場
----------------------------------------------------------------------
1.1.24時間連続サービスの必要性
----
 A社は化学薬品を製造するメーカである。工場は24
時間365日の操業を行っていおり、システムについて
も高い信頼性が要求される事から、ホスト計算機上に構
築されていた。一方、二重化等の技術によりPCサーバ
を用いたシステムでも十分な信頼を確保する事が可能に
なってきた事、A社内におけるシステム費用削減の方針
から、ホスト計算機の保守限界のタイミングで、ダウン
サイジングを行う事が計画された。
 A社の最終製品である化学薬品は、複数工程で連続的
に加工されるものであり、何らかの理由で加工が中断さ
れた場合、状態変化により品質劣化を起こし著しく歩留
まりを下げる事となる。従って、操業をサポートするシ
ステムにも24時間連続でのサービスが求められる。

----
1.2.システム構成と処理方式
----
 新システムの構成は、DBサーバとAPサーバを物理
分割し、かつ本番・バックアップ・テストの3系統を用
意している。処理方式については、WEB方式とC/S
方式を比較した結果、現場オペレータの操作性を最優先
するとのA社の方針からC/S方式を採用している。

----
1.3.私の立場
----
 A社では、システムの運用のみならず、設計・開発等
全ての機能を、システムインテグレータであるN社にア
ウトソーシングしている。私は、A社の新システム構築
に際して、運用設計を行うチームリーダとしてプロジェ
クトに参画した。
 リーダである私の責務は、アプリケーション設計部門
に対し、運用側から必要となる制約・ガイドラインを提
示する事、適切な運用機能を作り込む事により、24時
間連続サービスに耐え得るシステムを構築する事にあっ
た。

----------------------------------------------------------------------
(設問イ)
----------------------------------------------------------------------
2.システム設計時の工夫
----------------------------------------------------------------------
 24時間連続サービスを行うシステムの運用設計を行
う上では、まずそれを阻害するリスクを洗い出し評価を
事から行わなければならない。何故ならば、発生確率の
低いリスクに対して必要以上の工数を割く事はA社にと
っても、必ずしも得策では無い。
 運用設計チームだけで無く、プロジェクト全体でリス
クに対する検討会を行った結果、次の結論を得た。

「サービスを提供するシステムは、本番・バックアップ
 の2系統を用意しており、かつこれらは障害時には自
 動的に切り替わる方式となっている。よって、24時
 間連続サービスを阻害する要因は、アプリケーション
 の変更や、DBの容量不足など、我々の作り込む機能
 による部分が多い。」

 上記の点について特に重点的に運用設計を行う事につ
いては、A社にもレビューを受け、承認された。

----
2.1.システム変更に対する対策
----
 私はA社における過去のシステム変更依頼や、プロジ
ェクト報告書より、システム変更作業は日常的に発生し
ており、また数十人月程度の小規模なプロジェクトが年
に数件発生している事を確認した。勿論、アプリケーシ
ョンの変更だけでなく、データベースの構造変更を伴う
システム変更も含まれている。
 これらの事実より、新システムにおいてもシステムを
停止する事無く、これらの切り替えを円滑に進められる
運用設計が必要である事が明確となった。
 我々の出した切り替え方式は、概ね次の通りである。

a.テスト系の各サーバにおいて、予めアプリケーション・
 データベース構造を変更後の形(以下、新環境)に切
 り替える。
b.テスト系のDBサーバは、本番系と同期を取りつつ更
 新する。このためにはデータベースの新旧環境を変換
 する必要があるが、コンバータについては都度開発を
 行う。
c.テスト系において、十分な運用テストを実施する。
d.上記手順をバックアップ系にて実施し、まずバックア
 ップ系を新環境に切り替える。
e.切り替えが正常に行われた事を確認し、バックアップ
 系で本番運用を実施する。
f.本番系を新環境に切り替え、バックアップ系との切り
 替えを行う。

----
2.2.データベース使用ガイドラインの作成
----
 採用しているデータベースについては、その制約上、
定期的にデータベース領域・インデクス領域の再編成が
必要である。これについては、本番系・バックアップ系
を切り替えながら、再編成を行う事で24時間の連続サ
ービスを確保する事は可能である見通しであった。しか
しながら、適切なタイミングで再編成を行うためには、
充填率・使用率に対するガイドラインの作成と、定期的
な監視が必要である。
 我々は、再編成業務を月に一度の頻度に抑えるために、
設計部門と協議した上で、次のガイドラインを定めた。

a.データベース領域は、参照系・更新系で明確に分離す
 る事。
b.参照系の充填率は、初期段階で70%、運用段階で
 90%を目安とする事。
c.更新系の充填率は、初期段階で50%、運用段階で
 70%を目安とする事。

----------------------------------------------------------------------
3.システム運用時の工夫
----------------------------------------------------------------------
3.1.システム変更の運用
----
 システム変更については、先に述べた手順書に従って
運用を行う予定であるが、実際には切り替え対象のアプ
リケーション・データベースおよびデータベースコンバ
ージョンの有無等により、手順書のカスタマイズが必要
になる。
 私は、システム変更に際して、以下の運用基準を定め
た。

a.切り替え手順書は設計部門が作成する。
b.切り替え手順書のレビューは、設計部門・運用部門が
 共同で行う。
c.実際の切り替え作業は、運用部門が実施する。
d.切り替えの際には、設計部門も立会する。

 あえて、手順書の作成部門と作業の実施部門を一致さ
せなかった事については、手順書を作成する際、レビュ
ーする際の緊張感を高める事を目的としている。

----
3.2.データベース使用状況の監視
----
 データベース使用に関するガイドラインを用意した事
は、先に述べた通りである。しかし、先の指標値は定期
的に監視されてこそ意味を持つものであり、私は以下の
運用基準を定めた。

a.日次の監視では、指標値を超えるテーブルを設計部門
 に通知する。
b.週次の監視では、対前週の伸び率が10%を越えるテ
 ーブルについて設計部門に通知する。
c.月次の監視では、使用率・充填率に関わらず、全ての
 テーブルを設計部門に通知する。

----------------------------------------------------------------------
(設問ウ)
----------------------------------------------------------------------
4.対応策の評価と今後の改善点
----------------------------------------------------------------------
4.1.対応策の評価
----
 システムの稼動後3年を経過しているが、前述の施策
により、当初予想されたリスクによりシステムが停止す
る事は無かった。これは、私の実施した運用設計・運用
基準の制定が奏効していると判断する。

----
4.2.対応策の評価
----
 一方で、3年の間に1度だけ3時間に及ぶシステム停
止を引き起こした事がある。これは、本番系のハード故
障時に、バックアップ系への自動切り替えが正常に動作
しなかった事にある。
 今回のシステム構成では、自動切り替えを行う構成と
していたため、人手による切り替えの手順書は用意して
おらず、勿論訓練も実施していなかった。結果的には、
メーカSEを呼出し手動で切り替える事となったが、こ
れが原因で長時間の停止となってしまった。
 私は、自動切り替え構成を採用しているシステムにお
いても、24時間連続サービスが必要な場合には、人手
による切り替え手順書の用意・訓練が必須であると考え
ている。





[ 戻る ]