障害・メンテナンス情報

6月19日より一部のお客様で発生した高負荷障害に関するお詫びとご報告

平素は格別のご高配を賜り厚く御礼申し上げます。

2018年6月19日(火)より発生した当社一部サービスでの高負荷障害につきまして、ご利用のお客様には長期間にわたり大変ご迷惑をおかけしましたことを、深くお詫び申し上げます。

以下に、判明した障害事象、障害原因および対応状況等についてご報告いたします。

本障害に関する報告を公開いたしました。

障害事象と発生日時

2018年6月19日(火)09時15分頃から7月9日(月)23時頃までの期間において、断続的にストレージシステムが不安定となり、サーバーが高負荷状態に陥る事象が発生いたしました。
本事象によるシステム全体への影響を最小限とするため、2018年7月6日(金)20時頃から7月9日(月)23時頃までの間、外部ネットワークとの接続を遮断して緊急メンテナンス作業を実施いたしました。

お客様への影響

[影響1]

2018年6月19日(火)09時15分頃から7月6日(金)20時頃まで、以下のサービスでご利用困難な状態が断続的に発生いたしました。

  • メールの送受信
  • ホームページの閲覧(グループウェア含む)
  • サーバーへのファイル転送
  • コントロールパネルのご利用

 

[影響2]

2018年7月6日(金)20時頃から7月9日(月)23時頃まで、緊急メンテナンスのために外部ネットワークとの接続を遮断したことにより、以下のサービスがご利用いただけませんでした。

  • メールの送受信
  • ホームページの閲覧(グループウェア含む)
  • サーバーへのファイル転送
  • コントロールパネルのご利用

障害の原因

ストレージシステムを含む、クラウド基盤を提供・管理するヤフー株式会社から、高負荷状態に陥った原因として、以下の報告を受けております。

[概要]

事象A:ストレージシステムのキャパシティプランでの想定を上回る負荷上昇による一時的な高負荷状態

事象B:事象Aへの対応に伴い、二次的に生じた長期間にわたる高負荷状態

[原因]

事象Aに対する原因

  1. (1)2018年6月からストレージシステムに対する負荷が想定より高くなったことにより一時的な高負荷が発生し、サービス利用が困難となる状態が不定期に発生しました。

事象Bに対する原因

  1. (2)ストレージシステム最適化処理などで発生するシステム内部通信がネットワーク全体を飽和させる状況を回避するために、システム内部通信に対してネットワークトラフィック制限を実施しましたが、この際のネットワーク設定が一部、不適切な設定となっていたことにより、ストレージシステム全体がスローダウンしました。
  2. (3)複数回のストレージシステム増強や、設定値変更に伴い、ストレージシステム内部でこれまでになく大量のデータ移動が発生したこと、および2項のネットワーク設定の一部が不適切な設定となっていたことにより、データ移動完了まで時間を要しました。このため、ストレージシステムの高負荷状態が当初見込みより長期化しました。

再発防止策

  • ヤフー株式会社と共に、ストレージシステムのキャパシティプランを見直し、システム状態をより的確に監視するためのシステム性能監視指標を設定いたしました。両社で共通の性能監視指標に基づき想定を超える高負荷に対しても速やかに適切な対策を実施いたします。
    ( 2018年7月13日 開始済み )
  • ヤフー株式会社にて、ネットワークトラフィック制限を実施する処理プログラムに、設定値が正しい事をチェックする処理を追加改修いたしました。この改修により不適切な設定があった場合には処理は実行されません。
    ( 2018年7月12日 実施完了確認済み )

対応内容

06月19日 09時15分頃~
06月19日 16時30分頃
ストレージシステムが不安定となり断続的にサーバーが高負荷状態に陥る事象が発生
一部ログ出力の見直しをヤフー株式会社にて実施
06月22日 09時00分頃~
06月29日 19時30分頃
障害の兆候が見られたサーバーの入替え、およびストレージシステムの増強作業などを
ヤフー株式会社にて実施
06月29日 19時30分頃~
07月02日 12時00分頃
ストレージシステムで管理している2つのデータ領域の設定値変更などをヤフー株式会社にて順次実施
07月06日 20時00分頃~
07月09日 23時00分頃
データ移動の進捗に当初見込みから大幅な遅れが発生したことから、システム全体への影響を
最小限にするために外部ネットワークとの接続を遮断し、お客様のサービスご利用を全て停止して
ヤフー株式会社によるメンテナンスを実施
07月09日 23時00分頃 これまでの作業によるデータ移動の完了、および予定していたメンテナンス作業がすべて完了し、
お客様のサービスのご利用を再開
07月17日 08時30分頃 ヤフー株式会社からの障害報告、および安定稼働の継続をもって、本障害の復旧確認を完了