サーバー障害が発生すると、企業が運営しているサイトにアクセスできなくなったり、サービスが利用できなくなったり、メールの送受信ができなくなったりします。これでは、業務に大きな影響を与えるだけでなく、サービスによっては顧客が多大な不利益を被る可能性もあり、企業としての信用も落としかねません。
サーバー障害の発生を避け、リスクに備えるため、この記事では、サーバー障害が発生する原因を詳しく解明し、発生した場合対処法と未然に防ぐための対策ついてもご紹介します。
目次
1.こんな症状が出たらサーバー障害かも
サーバーに障害が起こると、以下のような症状が出ることがあります。
・ウェブサイトにアクセスができない・ネットワークの遅延が起こった
・サーバーが起動しない
・サーバーの動きが遅い
・頻繁に再起動、フリーズする
・エラーメッセージが表示される
・データにアクセスできない
・ファイルやフォルダが開けない
・異音や焦げ臭いにおいがする
こうした症状のもととなる原因を特定するのは非常に難しいですが、想定される主な原因を2章でご紹介します。
2.サーバー障害の主な原因
サーバー障害の主な原因は大きく外部要因と内部要因の2種類に分けられます。
それぞれの症状をざっとまとめるとこんな感じです。
以下に詳しくご説明します。
2-1. 外部要因
外部要因、つまり社外やサーバーの外に原因がある場合、一時的なアクセスの集中、サイバー攻撃、自然災害による影響などが考えられます。
・アクセス集中の場合:ウェブサイトにアクセスできなくなることも
一次的にアクセス数が増えすぎると、サーバーはリクエスト処理が追いつかず、動作が遅くなり、最悪の場合はダウンすることもあります。そしてサイトが一時停止状態となり、利用者に損失を与えてしまいます。身近な例では、人気のチケットや商品の発売日にアクセスが集中し、待機時間の間に売り切れになっていたりすることがありますよね。新型コロナウィルスのワクチン接種予約サイトでも同様の事象が発生し、なかなか予約の取れない状況が続いたことも記憶に新しいでしょう。
★こんな事象が起こったら、アクセスが一時的に集中しているかもしれません。
□ ウェブサイトへのアクセスができなくなった
□ ネットワークの遅延が起こった
※DDoS攻撃を受けたときなども同じような事象が起こるので、適正な監視が必要です。
・サイバー攻撃の場合:データの改ざんや破壊で業務停止のリスクも
サイバー攻撃には、不正侵入、データ改ざんや破壊、ウイルス攻撃、DDoS攻撃*などが含まれます。最近のサイバー攻撃は日々巧妙化しています。最近では、攻撃者がゲーム運営用サーバーに不正侵入し、データなどを破壊したことでサーバー障害が発生した例がありました。金銭の要求はなく、攻撃の目的は不明でしたが、重要データの破壊などによって復旧に時間がかかってしまいました。このケースにおける侵入経路はサーバー管理者向けに設けているVPN(仮想閉域網)だったといいます。VPNのログインIDとパスワードが、運用技術者が使用しているビジネスチャットを経由して攻撃者に漏洩した可能性が高いとのこと。
★具体的な理由もなく、このような事象が起こったら、DDoS攻撃を受けた可能性があります。
□ ウェブサイトへのアクセスができなくなった
□ ネットワークの遅延が起こった
*DDoS攻撃に関する詳細は「DDoS攻撃とは!事例と3つの対策を解説【担当者向け資料一覧付】」をご参照ください。
・自然災害の場合:事業継続が困難に
地震、水害、落雷等の自然災害によって、電力設備、水道設備、コンピュータ施設の損壊などが起こるケースがあります。日本は地震大国でもあり、最近では特に台風などの大規模な自然災害が多発しているため、こうした環境要因によるサーバー障害には事前の対策が必須です。
★こんな事象が起こったら、サーバールームに浸水や停電の影響を疑いましょう。
□ サーバーが起動しない
□ エラーメッセージが表示される
□ 異音や焦げ臭いにおいがする
2-2. 内部要因
内部要因とは、社内やサーバー本体に原因がある場合を指します。たとえば、人為的なミスやハードウェア故障がその主たる例です。
・人為的ミスの場合:重要データにアクセスできなくなり業務に支障が出ることも
人為的なミスもサーバー障害の原因として軽視できません。操作・設定ミス、プログラム上のバグ、メンテナンス不備などが含まれます。特に、ファイルの削除、バックアップを消してしまうといった操作や設定上のミスでサーバー障害が起こってしまうケースが多くなっています。
★操作・設定ミスがあると、こんな事象が起こることがあります。
□ データにアクセスできない
□ ファイルやフォルダが開けない
□ エラーメッセージが表示される
・ソフトウェアの不具合の場合:設計・開発段階でのバグを見落とすとシステム全体の不具合に
利用者の操作・設定ミス以外にも、サーバー障害の一因としてソフトウェアそのものの不具合、つまり「バグ」があげられます。ソフトウェア開発では初期段階で軽微なバグが発生するのはよくあることで、納品後も開発を請け負ったベンダーがバグ対応をしたり、不具合の手直しをしたりすることが一般的です。
★ソフトウェアにバグがあると、こんな事象が起こることがあります。
□ データにアクセスできない
□ ファイルやフォルダが開けない
□ エラーメッセージが表示される
・ハードウェア故障の場合:サーバーに格納されたデータが消えてしまう恐れも
ハードウェア故障とは、サーバーを構成するハードディスクや部品が故障して障害が起こることを指します。その原因は、ハードディスクや部品の老朽化や故障などが考えられます。サーバーを長時間フル稼働で使用すると発熱量が増え、熱暴走も起こりやすくなります。熱暴走が起きると、突然に電源が落ちたり、勝手に再起動を繰り返したりといった症状が現れますので、サーバー障害の大きな原因のひとつとなります。一般的に気温が上昇し始める5月から暑さの残る9月くらいまで、そして「高温多湿」になりやすい梅雨時期などは特にサーバー機器の「湿度温度対策」が大切です。
★こんな事象が起こったら、ハードウェア故障が考えられます。
□ サーバーが起動しない
□ サーバーの動きが遅い
□ 頻繁に再起動、フリーズする
□ エラーメッセージが表示される
□ 異音や焦げ臭いにおいがする
こうした人為的なミスやサイバー攻撃以外にも、意図的な不正行為としてのデータ改ざんや破壊といった内部犯行も、サーバー障害の一因となる可能性があります。
<サーバー障害の事例>
みずほ銀行は8月から9月まで4回発生したシステムなどの障害について、ハードディスクの経年劣化や、入力すべき追加指示の不備などが原因だったと公表しました。同行の発表によると、8月20日に店頭での取引の一部ができなくなった障害について、データセンターのハードディスクが稼働から6年経って劣化していたことに気付かず、故障したことが原因だったとのことです。バックアップシステムに切り替えようとしましたが、入力すべき追加の指示を飛ばしたため失敗。8月23日や9月8日に100台以上のATMが一時停止したケースでは、ネットワーク機器に生じた静電気によりエラーが発生した可能性が高いということです。金融庁の介入もあり、再発防止策が気になるところですね。
<意外と多いのが「ソフトウェア障害」と「管理面・人的要因」>
銀行におけるシステム障害に関連して、2021年6月に金融庁が公開した、「金融機関のシステム障害に関する分析レポート」内の「2020年4月~2021年3月に金融機関から報告されたシステム障害の内訳」によると、意外と多いのが「ソフトウェア障害」と「管理面・人的要因」による障害で、全体の3分の2を占めています。
<バックアップアプライアンス「Arcserve UDP Appliance」でエラーが出たとき想定されること>
ご参考までに、Arcserveのハードウェア一体型バックアップソリューションである「Arcserve UDP Appliance」を例に、想定できる障害の原因をご紹介します。お客様がArcserve UDP Appliance を同時に10台導入しているケースで、10台とも導入時、同じ設定にしていたとしましょう。もし1台だけエラーになる場合には以下のような原因が考えられます。
・Windows OSのパッチレベルが異なる
・プリインストールされているArcserve UDPのバージョンが異なる
・不正アクセスがある
OSやアプリケーションのバージョンを調べるほか、アクセスログをチェックして不正アクセスがないか確認しましょう。それでも原因がわからない場合は、購入した代理店もしくはArcserve Japanのカスタマーサポートにご連絡ください。
3.サーバー障害への対処方法
サーバー障害が発生してしまったら、まず障害の原因を特定することが第一です。サーバー通報システムやシステム監視ソフトなどを利用して障害の発生状況を把握しましょう。ただし、原因はすぐにはわからないことが多いので、すぐに確認できること、わかりやすいことから1つずつつぶしていきましょう。
基本的なことですが、電源が抜けていないかどうか確認してみましょう。次に再起動です。PC同様、再起動で復旧する場合もありますが、再発防止のためには原因の特定は必須です。
・サイバー攻撃の場合
被害の大きさや攻撃の範囲を確認するため、すぐにシステム保守ベンダーやセキュリティの専門家に相談する必要があります。また、バックアップデータを利用してシステムやデータを復旧させ、事業継続を図りましょう。
・アクセス集中の場合
一時的なアクセス集中には、クラウドを活用して負荷分散を行うのがよいでしょう。サーバーなどの機器購入が不要で初期費用が少なく、スピーディに利用開始できるからです。しかし、クラウド利用の場合でも契約や設定などの時間が必要となるため、アクセス集中が予測できる場合は、あらかじめ準備をしておく必要があります。
・自然災害の場合
社員の安全を確保した上で、サーバーだけでなくシステム全体(ストレージ、ネットワーク機器、PC、ソフトウェア)や通信機器の損傷状況を調べ、使えるかどうかを確認します。たとえば台風や豪雨などでオフィスが浸水してしまった場合、移動できるものは浸水被害のない上階に移動、システムに格納されているデータを確認し、破損していたら直ちに復旧の準備をします。
※水害対策に関する詳細は「水害対策が企業にとって必要になっている2つの要因と、今すぐできる対策」をご参照ください。
・人為的ミスの場合
2章では、「ソフトウェア障害」と「管理面・人的要因」がシステム障害の大半を占めるというデータをご紹介しました。設定や操作手順、作業手順のミスなどの調査には時間がかかります。社内だけでは難しい場合は、早めにシステム保守ベンダーに原因特定を依頼しましょう。
・ハードウェア故障の場合
ハードディスクや部品の老朽化が原因の場合は、新品への交換で対処できるでしょう。ただし、ハードディスク交換の際にデータを損傷してしまう恐れがあるため、バックアップは必ず取っておくことが重要です。
4.サーバー障害を未然に防ぐための対策
サーバー障害が起きる原因がしぼられてきました。ではどうやって防いだらいいのでしょうか。この章では、サーバー障害を未然に防ぐための具体的な対策をご紹介します。
4-1. 予備サーバーを設置する
サーバーを1台だけ設置している企業では、もしそのサーバーが障害を起こすと業務が止まってしまうリスクがあります。これを避けるため、予備サーバーを導入して耐障害性を高める冗長化構成をとることで、業務への影響を減らせるほか、業務を止めることなくサーバーの復旧作業をすることも可能です。ただし、サーバーを複数台導入するため、コスト負担が大きくなります。
4-2. 負荷分散を行う
サーバーへのアクセスが集中すると、処理が追いつかずに障害が発生する可能性があります。これを防ぐため、負荷分散の仕組み(ロードバランサー)の導入を検討しましょう。1台のサーバーに負荷がかかり過ぎないように負荷を予備サーバーに分散させるため、平常時にも「さくさくと動く」快適なサービス提供が可能になりますし、障害が発生した場合には予備サーバーへの自動切り替えてサービスの継続が可能です。止められないシステムやサービスを担うサーバーの安定稼働には不可欠です。
4-3. 運用監視運システムを導入する
「サーバーが正常に稼働しているかどうか」の確認や、「障害が発生しているかどうか」の通知などを行ってくれるのが、サーバー運用監視システムです。主に「死活監視」「ハードウェア監視」「トラフィック監視」の役割を担います。サーバーは基本的に24時間、365日稼働しているため、サーバーの運用監視も24時間365日体制で行われることが求められます。管理者の負担を軽減しながら効率的にサーバー運用を行うためには、サーバー運用監視システムの導入が必要です。商用製品だけでなくオープンソースソフトウェア製品など様々なラインアップがありますので、検討してみましょう。また、サーバー通報システムの利用も有効です。
4-4. クラウドサービスを利用する
サーバーをオンプレミスからクラウドに移行する企業も増えてきています。クラウドサービスを利用すれば、サーバー自体の管理はサービスを提供している事業者が行ってくれるため、サーバーの管理をする必要がなくなります。ただし、長期利用や大規模利用の場合はコスト負担が大きくなるため、適材適所でのサーバー利用を検討しましょう。
<クラウドへの移行によるサーバー障害への対策例>
ベネッセコーポレーションでは、2020年3月、ネット教育に使うサーバーをオンプレミスからMicrosoft Azureに移行。アクセスが集中する春にサーバーリソースを増強するなど、柔軟なサーバー利用を可能にしました。また、クラウドでの大規模障害までも想定し、東日本にあるAzureのデータセンターが稼働しなくなっても、西日本にあるAzureのデータセンターで6時間後に復旧できる、リージョンレベルでの冗長化構成をとっています。サーバーダウンが許されないサービスの場合、ここまで大規模な対策が必要になるのです。
2020/3/27 日経クロステックより
4-5. データ損傷に備え、バックアップを取っておく
どのような原因であっても、あらゆる種類のサーバー障害に備えて重要なシステムやデータのバックアップを取っておくことが業務継続のためには必要不可欠です。イメージバックアップ製品のArcserve UDPを利用すると、サーバー全体の復旧から、フォルダ/ファイル単位のリストアまで、用途に応じて柔軟な復旧が可能です。
まとめ
サーバー障害の原因は、主に6種類考えられます。
・アクセス集中
・攻撃
・自然災害
・人為的ミス
・ソフトウェア不具合
・ハードウェア故障サイバー
以下のような症状が出たら、まず上記を例に原因を特定し、適切な対処を行いましょう。
・ウェブサイトにアクセスができない
・ネットワークの遅延が起こった ・サーバーが起動しない
・サーバーの動きが遅い
・頻繁に再起動、フリーズする
・エラーメッセージが表示される
・データにアクセスできない
・ファイルやフォルダが開けない
・異音や焦げ臭いにおいがする
将来的なサーバー障害を未然に防ぐための対策があります。
・負荷分散を行う
・冗長化構成にする
・運用監視システムを導入する
・クラウドサービスを利用する
・データ損傷に備え、バックアップを取っておく
100%の回避は難しいかもしれませんが、こうした対策を講じることで、業務への影響を最小限にとどめてください。
コメント