ファイルサーバ障害に対する今後の対応についてこの中でのキーワードは「可用性」「冗長性」.どちらも,システム設計の専門用語である.これがわからないと内容の半分も理解できない.「IT用語辞典 e-words」によると,意味は以下の通りである.
平素はSeesaaサービスをご利用頂き誠にありがとうございます。
この度発生しました、ファイルサーバにつきまして、今後の対応を決定いたしましたのでお知らせします。
はじめに、今回二度のディスク障害を発生したファイルサーバが、対策の結果現時点におきまして正常に動作していることを確認しておりますことをご報告いたします。
今後の対応といたしましては、同様の障害が発生した場合において、これまで以上の可用性を実現すべく、ファイルサーバの構成強化を行います。
具体的には、本障害の原因となりましたテキストデータ用(HTML)ファイルサーバだけではなく、現在正常稼働しておりますバイナリデータ用(画像等)ファイルサーバと併せて多重化し、サービスのダウンタイムを最小化することにより稼働率の向上をはかって参ります。
ファイルサーバの多重化を実現するために、新たに待機系のファイルサーバを手配いたします。待機系ファイルサーバの稼働開始までには、およそ三週間程度かかる見込みです。稼働開始の際には、再度のメンテナンス作業が発生する場合もございますが、その場合は当サイトにて事前にお知らせいたします。
ファイルサーバにつきましては、上記の多重化を始め、これまで通りハードディスクの冗長化およびバックアップを継続して実施いたします。また、データベースサーバにつきましても、これまで通りレプリケーションに加えて、バックアップを継続いたします。
Seesaaといたしましては、今回の障害を重く受けとめ、これを深く反省いたしますとともとに、サービスのより一層の安定稼働と障害対策への努力を続けて参る所存です。
度重なるハードウェア障害とメンテナンス作業のため、ご利用のみなさまには多大なるご迷惑をおかけいたしましたことにつきまして、深謝申し上げます。
また、ご利用のみなさまからは、お叱りや応援など数多くのご意見を頂戴いたしました。このご意見は、今後のサービスに向上に活用をさせていただきますとともに、スタッフ全員の励みとさせていただきます。
今後ともSeesaaサービスをご支援賜りますよう、何卒よろしくお願いいたします。
可用性 【アベイラビリティ】
可用性、つまりシステムの壊れにくさのこと。障害の発生しにくさや、障害発生時の修復速度などによって計られる。アベイラビリティの高いシステムと言えば滅多に障害が発生せずいつでも安心して使えるシステムを指し、逆にアベイラビリティの低いシステムとは障害が頻発し、しかもなかなか復旧しないシステムのことを意味している。
冗長化
最低限必要な量より多めに設備を用意しておき、一部の設備が故障してもサービスを継続して提供できるようにシステムを構築すること。
例えば、Webサーバを2台用意しておき、同じサービスを実行させておけば、片方のサーバが故障してももう片方のサーバがリクエストに応えることができる。
冗長化が行われている設備では、複数個の設備がほぼ同時に故障しない限りサービスが停止しないため、冗長化しない場合に比べてサービス停止率が大幅に下がる。
また、故障した部分だけを取り替えて復旧させることもできるため、故障が発生してから対処を行なうまでの間に時間的な余裕ができるという利点もある。
結論から言うと,今回の落とし前の付け方は評価する.ネット・サービスとしては,経過報告も含め,情報開示はよくできた方だと思う.重要な問題点への対策もポイントを抑えたものに思える.決して安価ではないであろう出費を伴う設備投資を決断したトップの姿勢も充分評価に値する.
ただし,問題発生時に発生系と流出系に分けた真因への深堀り作業(これを,「なぜなぜ分析」という)とそれに対する恒久対策を求められる製造業に比較すると,真因への追求がどれだけできているのか,そしてその全ての要因に対し,効果的な対策を打とうとしているのかは,この文章からは読み取れず,その点は不安であるし,不満でもある.要するに,何が原因でこうなったかの核心が書かれていないのである.HDDの寿命なのか?作業ミスなのか?それは避けられなかったのか?避けられたのか?これを知らなければ,対策が理にかなったものかであるかが判断できないのである.
こういう再発防止の対策においてありがちなのは,お金を使ってハード的な対策を打って,これで大丈夫!という慢心が再発に繋がるということである.機械である限り,絶対はありえない.そのための可用性向上であり,冗長化であるのだが,そういったハード面だけでなく,それだけで充分とは言えず,ソフト面での充実も必要なのである.つまり,前にも書いたが,日常点検や定期交換などは,計画され,確実に実施されているかどうか?メンテ作業時の手順の標準化がされているのか?などである.もしできていないのであれば,これらの余分な投資は必要ないソフト面(=しくみ面)での対策実施を希望したい.
とにもかくにも,seesaaは動こうとしている.その気概は充分感じた.あとは,seesaaのお手並み拝見としよう.
- 関連リンク:
- seesaa大暴れ
- seesaa大暴れ その2
- Seesaaからのお知らせ:ファイルサーバ障害に対する今後の対応について(tb)
モノづくりの現場で使われている言葉たち
- #1 4S/5S〜整理・整頓・清潔・清掃・躾〜
- #2 PDCAサイクル(デミングサイクル,管理のサイクル)
- #3 経営の基本要素〜QCD
- #8 再発防止対策(予定)
- seesaa大暴れ その2
