タグ

troubleに関するfragarach_the_swordのブックマーク (5)

  • Downdetector

    © 2012-2024 Ookla, LLC., a Ziff Davis company. All Rights Reserved. Downdetector® is among the federally registered trademarks of Ookla® and may not be used by third parties without express written permission.

    Downdetector
    fragarach_the_sword
    fragarach_the_sword 2016/01/18
    障害の概況 | Down Detector
  • クラウドは「障害が起こる」前提で使う

    クラウドはそもそも、ユーザーのシステム運用負荷を下げられることがメリット。そのため、信頼性についてはある程度の割り切りが必要だ。それでも、クラウドの仕組みを知って、起こりうる障害に明示的に手を打てば、大きなトラブルを避けることができる。 これまで述べてきたように、クラウドの障害は「ストレージ障害」「仮想マシン障害」「データセンター設備障害」の三つに分類できる。利用者はこれらの障害が発生することを前提として、障害予防策を講じるべきだ。 例えば、ストレージ障害に備えて、データを定期的にバックアップする。仮想マシンの障害に備え、あらかじめ仮想マシンを複数台用意してクラスター構成にしておく。このような構成にしておけば、仮想マシンが異常終了した場合でも、別の仮想マシンに処理を引き継げる。データセンターの設備障害に備えるなら、異なるデータセンターにデータをバックアップしておく。 EC2は障害対策機能が

    クラウドは「障害が起こる」前提で使う
    fragarach_the_sword
    fragarach_the_sword 2011/12/03
    クラウドは「障害が起こる」前提で使う - クラウドのトラブル:ITpro
  • パフォーマンス - Heartful Communication

    ・良く見る情報として、「load average」,「CPU使用率」 ▼load average 処理を待っているプロセスの平均数(1分前,5分前,15分前) 値の見方としては、「値がCPUの数以下」であるのが望ましい。 1CPUであれば、1プロセスでCPUが100%動作している状態であるので、Load Averageは1.00になる 1を超えるということは、それだけ処理待ちのプロセスがあるということになり、 処理に時間がかかっているプロセスが発生していることになる。 値が2〜3であれば許容しても良い範囲(一時的であれば!)であるが、5を超えていれば原因を調べた方がいい ※Load Averageは「w」や「uptime」コマンドでも確認できる ▼CPU使用率 CPUがどれだけ使用されているかを%で表したもの us と sy を足したものが使用されているCPUの率.

    fragarach_the_sword
    fragarach_the_sword 2011/10/20
    パフォーマンス - Heartful Communication
  • Amazon EC2 障害の詳細とその教訓

    原文(投稿日:2011/04/29)へのリンク Amazon は先日,米国東部リージョンのアベイラビリティゾーンで発生したサービス障害に関する詳細な 報告書 を発表した。その分析や論評,今回の出来事から学ぶべき教訓 などの話題で,オンラインメディアは持ちきりだ。 今回の Amazon EC2 障害の 時間的経緯 の中で Eric Kidd 氏は,AWS のサービス中断に関連する一連の出来事について,外部的な視点から概説している。すべてが始まったのは 2011年4月21日 PDT(太平洋夏時間) 午前1時頃,Heroku がサービス機能に関する大量のエラーを出力し始めた時だ。障害は 4月24日 PDT 午後 7:30 頃,すべての RDS データベースがオンライン復帰したことを Amazon が発表するまで,ほぼ4日間続いた。その間,一部ユーザに対するサービスが停止,ないしは断続的に停止した

    Amazon EC2 障害の詳細とその教訓
    fragarach_the_sword
    fragarach_the_sword 2011/05/27
    InfoQ: Amazon EC2 障害の詳細とその教訓
  • [続報]Gmailの障害、「ストレージソフトのアップデートが原因」

    Googleは日時間の2011年3月1日、2月28日に発生したGmailの障害(関連記事)について、「ストレージソフトウエアをアップデートした際のバグが原因」と発表した。現在も、全Gmailユーザーの0.02%がメールにアクセスできない状態が続いている。 同社は28日早朝から、複数のGmailユーザーのメールが消失するトラブルが発生していることを同社のWebサイトで報告していた。被害ユーザーがGmailにログインすると、メールボックスが空になっているなどの現象が見られたという。 この障害の原因について、同社は「ストレージソフトウエアをアップデートした際のバグ」であるとブログ上で発表(該当ブログ)。直ちに問題のソフトウエアを旧バージョンに戻す措置を取ったという。 現在でも、全Gmailユーザーの0.02%はメールにアクセスできない状態が続いているが、同社によると、「Gmailのメールはテ

    [続報]Gmailの障害、「ストレージソフトのアップデートが原因」
    fragarach_the_sword
    fragarach_the_sword 2011/03/03
    [続報]Gmailの障害、「ストレージソフトのアップデートが原因」 - ニュース:ITpro
  • 1