[B! trouble] fragarach_the_swordのブックマーク

fragarach_the_sword id:fragarach_the_sword

troubleに関するfragarach_the_swordのブックマーク (5)

Downdetector
© 2012-2024 Ookla, LLC., a Ziff Davis company. All Rights Reserved. Downdetector® is among the federally registered trademarks of Ookla® and may not be used by third parties without express written permission.
fragarach_the_sword 2016/01/18
障害の概況 | Down Detector

trouble

domain

maintenance

information

share
リンク
クラウドは「障害が起こる」前提で使う
クラウドはそもそも、ユーザーのシステム運用負荷を下げられることがメリット。そのため、信頼性についてはある程度の割り切りが必要だ。それでも、クラウドの仕組みを知って、起こりうる障害に明示的に手を打てば、大きなトラブルを避けることができる。これまで述べてきたように、クラウドの障害は「ストレージ障害」「仮想マシン障害」「データセンター設備障害」の三つに分類できる。利用者はこれらの障害が発生することを前提として、障害予防策を講じるべきだ。例えば、ストレージ障害に備えて、データを定期的にバックアップする。仮想マシンの障害に備え、あらかじめ仮想マシンを複数台用意してクラスター構成にしておく。このような構成にしておけば、仮想マシンが異常終了した場合でも、別の仮想マシンに処理を引き継げる。データセンターの設備障害に備えるなら、異なるデータセンターにデータをバックアップしておく。 EC2は障害対策機能が
fragarach_the_sword 2011/12/03
クラウドは「障害が起こる」前提で使う - クラウドのトラブル：ITpro

cloud

architecture

trouble

ha

reliability

maintenance

iaas

paas

amazon

ec2
リンク
パフォーマンス - Heartful Communication
・良く見る情報として、「load average」,「CPU使用率」 ▼load average 処理を待っているプロセスの平均数(1分前,5分前,15分前) 値の見方としては、「値がCPUの数以下」であるのが望ましい。 1CPUであれば、1プロセスでCPUが100%動作している状態であるので、Load Averageは1.00になる 1を超えるということは、それだけ処理待ちのプロセスがあるということになり、処理に時間がかかっているプロセスが発生していることになる。値が2〜3であれば許容しても良い範囲(一時的であれば!)であるが、5を超えていれば原因を調べた方がいい ※Load Averageは｢w｣や｢uptime｣コマンドでも確認できる ▼CPU使用率 CPUがどれだけ使用されているかを%で表したもの us と sy を足したものが使用されているCPUの率.
fragarach_the_sword 2011/10/20
パフォーマンス - Heartful Communication

develop

trouble

linux

performance

vmstat

sysstat

sar

iostat

tips

reference
リンク
Amazon EC2 障害の詳細とその教訓
原文(投稿日：2011/04/29)へのリンク Amazon は先日，米国東部リージョンのアベイラビリティゾーンで発生したサービス障害に関する詳細な報告書を発表した。その分析や論評，今回の出来事から学ぶべき教訓などの話題で，オンラインメディアは持ちきりだ。今回の Amazon EC2 障害の時間的経緯の中で Eric Kidd 氏は，AWS のサービス中断に関連する一連の出来事について，外部的な視点から概説している。すべてが始まったのは 2011年4月21日 PDT(太平洋夏時間) 午前１時頃，Heroku がサービス機能に関する大量のエラーを出力し始めた時だ。障害は 4月24日 PDT 午後 7:30 頃，すべての RDS データベースがオンライン復帰したことを Amazon が発表するまで，ほぼ４日間続いた。その間，一部ユーザに対するサービスが停止，ないしは断続的に停止した
fragarach_the_sword 2011/05/27
InfoQ: Amazon EC2 障害の詳細とその教訓

cloud

casestudy

trouble

ec2

esb

amazon

aws
リンク
［続報］Gmailの障害、「ストレージソフトのアップデートが原因」
米Googleは日本時間の2011年3月1日、2月28日に発生したGmailの障害（関連記事）について、「ストレージソフトウエアをアップデートした際のバグが原因」と発表した。現在も、全Gmailユーザーの0.02％がメールにアクセスできない状態が続いている。同社は28日早朝から、複数のGmailユーザーのメールが消失するトラブルが発生していることを同社のWebサイトで報告していた。被害ユーザーがGmailにログインすると、メールボックスが空になっているなどの現象が見られたという。この障害の原因について、同社は「ストレージソフトウエアをアップデートした際のバグ」であるとブログ上で発表（該当ブログ）。直ちに問題のソフトウエアを旧バージョンに戻す措置を取ったという。現在でも、全Gmailユーザーの0.02％はメールにアクセスできない状態が続いているが、同社によると、「Gmailのメールはテ
fragarach_the_sword 2011/03/03
［続報］Gmailの障害、「ストレージソフトのアップデートが原因」 - ニュース：ITpro

article

google

gmail

gfs

障害

trouble

cloud

storage
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx