2019年8月23日17時40分頃から18時45分頃まで、boardへのアクセスが不安定になる事象が発生いたしました

2019年8月23日17時40分頃から18時45分頃まで、boardへのアクセスが不安定になる事象が発生いたしました。

ご迷惑をおかけいたしまして、申し訳ございません。
以下、事象の原因と今後の対策についてお知らせいたします。

 

原因

今回の事象は、boardのサーバーとして利用しているAWS(アマゾンウェブサービス)で障害が発生し、その影響がboardへ及んだことにより発生いたしました。

*AWSからの障害の詳細については、「東京リージョン (AP-NORTHEAST-1) で発生した Amazon EC2 と Amazon EBS の事象概要」をご覧ください。

 

上記AWSの説明によれば、AWS東京リージョンの中の1つのアベイラビリティゾーン(以下、AZ)で空調設備に障害があり、オーバーヒートによって、一部のサーバー(EC2・RDS)が影響を受けたとのことです。

 

boardにおける状況

AWS障害発生当初〜17時40分頃まで

AWSの障害は12:36頃から発生していましたが、この時点ではboardには直接的な影響はなく、通常どおりご利用いただける状況でした。AWSの説明によれば、今回の障害は単一のAZで発生し、またそのうちの一部のサーバーのみ影響を受ける状況であったため、boardが利用していたサーバーには影響がなかったものと考えられます。

また、AWSのステータスページでは、障害当初から「単一のAZでの障害」との報告があり、これに対してboardはマルチAZ構成(複数のAZにまたがってサーバーを配置している構成)を採用しているため、この時点では、仮に影響が生じた場合でも、短時間で復旧可能な規模に留まると想定していました。

 

なお、boardと連携している下記の外部サービスにおいては、この段階でAWSの障害の影響を受けたとの報告があったため、boardにおいても以下の影響が生じている可能性があります。

・クラウド会計ソフトfreeeが障害の影響を受けていたため、AWS障害が発生していた時間帯に、freeeへの連携に失敗している可能性があります。
・決済サービスのPAY.JPもAWS障害の影響を受けていたため、この時間帯に、カード情報の登録・決済に失敗していた可能性があります。

 

17時40分頃〜18時45分頃

その後、17時前にはAWSのステータスページにて「復旧し始めている」との情報が表示されていましたが、boardにおいては、17時40分頃から、断続的にエラーが表示される現象が発生し始めました。

この際、AWSのステータスページによれば、障害の対象はEC2・RDSとされていたため、それらを中心に確認しましたが、この点については問題なく稼働しており、一方で、監視状況や実際の挙動から、ALB(アプリケーションロードバランサ: サーバーへアクセスを振り分ける装置)がエラーを返している可能性が考えられました。

ALBは、冗長化を目的として複数のAZに分散されている仕組みであるため、今回障害が発生しているAZを除外したところ、エラーは発生しなくなりました。

 

すべてのアクセスでエラーが発生していたのではなく、一部のアクセスに対してエラーが出ていたこと、また上記対応の経緯などから、AWS側がマネージドサービスとして提供しているALBも今回の障害の影響を受けていたことが推定され、それによりboardへのアクセスの一部が影響を受けていた可能性が考えられます。

 

今後の対策

boardはAWSが推奨するマルチAZ構成を採用していましたが、今回のように、ALBが関わると考えられる障害においては、マルチAZ構成にしても影響を受ける可能性が残ると考えられます。また、そのようなケースに対しては、現時点では有用な回避策が明らかになっていないことから、今後も継続的な検討と検証を行う必要があると考えています。

また同時に、今回のように事前検証が難しい障害が発生した場合でも、より短時間での復旧を実現するために、監視ポイントの追加や細分化を行ったり、AZ単位での大規模障害が発生した際のリカバリ手順を整備したりするなど、発生した事象をより迅速に検知し、復旧させるための準備を早急に進めてまいります。

一覧に戻る
‹‹ ヘルプの利用可能権限欄に、現在ログイン中のユ... 会計連携機能のリニューアルと並行稼働について ››