タグ

障害に関するunchemistのブックマーク (6)

  • なぜマイクロサービスは失敗するのか? - kawasima

    Eberhard Wolffさんのこのプレゼンの要約です https://www.youtube.com/watch?v=B3O-qYM-Kkw 共通のデータモデル 共通のデータモデルを通信に使う 各サービスで必要となるデータの内部モデルは異なるかもしれない データモデルが、共通ライブラリと同じ意味合いになる すべてのサービスが、最新のライブラリを使わなくてはならない 共通データモデルの変更は、す

    なぜマイクロサービスは失敗するのか? - kawasima
  • もし間違ってDROP DATABASEしてしまったら – area[nothing] : diary

    2007/ 01 02 03 04 05 06 07 08 09 10 2006/ 01 02 03 04 05 06 07 08 09 10 11 12 2005/ 01 02 03 04 05 06 07 08 09 10 11 12 2004/ 01 02 03 04 05 06 07 08 09 10 11 12 2003/ 01 02 03 04 05 06 07 08 09 10 11 12 2002/ 01 02 03 04 05 06 07 08 09 10 11 12 2001/ 01 02 03 04 05 06 07 08 09 10 11 12 2000/ 01 02 03 04 05 06 07 08 09 10 11 12 1999/ 01 02 03 04 05 06 07 08 09 10 11 12 1998/ 01 02 03 04 05 06 07 0

  • ディスクの障害の追いかけ方 | Turn Clockwise Or Otherwise

    以前書かせていただいた記事はいろんな所でいろんな受け取り方をされたようだ。多少の誤解もあるにせよ、きちんと自分が使っている記憶装置の理解をして、保守をして、バックアップを取ってくださるという方がわずかながらも増えたのであれば喜ばしい。記事の中ではわかりやすくするために多少の誤解を覚悟の上ではしょったところもある。今回は、少しばかり掘り下げてみたいとおもう。 ディスクの壊れ方の分類前回お話しさせて頂いた記事で私が勝手に命名した「半故障」という言葉を使わせていただいた。 「半故障」の定義は、「ドライブの内部で再試行をした結果うまくいってしまい、その時点では障害にならない」状態を言う。例をひとつ挙げると、「書き込み中メディアエラーが発生したが、代替トラックや代替セクターに書き込んだ際にうまくいったので、該当のコマンドは正常終了した」という状態である。[1]インターフェースとして SATA と S

    ディスクの障害の追いかけ方 | Turn Clockwise Or Otherwise
  • 障害発生時の対応フロー(初期対応、本格対応、再発防止) - 勘と経験と読経

    タイムラインで目に付いたこの記事を読んで考えたこと。 システム障害と僕達はいかにして戦えば良いのか、障害対応について考えた - Qiita そういえば障害発生時の対応フローは、割と標準的なものが無いような気がする(不勉強で知らないだけかもしれないけれど)。共通フレーム2013でも細かい定義は無かったし、他の書籍で読んだ記憶も無い。というわけでいったん経験的な知恵をアウトプットしてみようかと。 基的な流れ 割と自分のイメージと似た障害対応フローが公共系システムのドキュメントとして公開されてたので流用する。ここから拝借したもの。 図にもあるように、基的な流れは リカバリー対応(初期対応、一次対応) トラブル復旧作業(格対応) 再発防止 が一般的だと思っている。 初期対応のフレーム 初期対応で考えることはだいたいこんな感じ。あわててプログラムを修正する前にやることがある。 問題調査のために

    障害発生時の対応フロー(初期対応、本格対応、再発防止) - 勘と経験と読経
  • ログインできないec2インスタンスを調査する | DevelopersIO

    はじめに サーバを運用しているといろいろなことが起こります。 今回はなんらかのトラブルによりインスタンスが正常に起動しない、 ログインできなくなった場合の対応方法をご紹介します。 障害インスタンンスはAmazon LinuxでrootボリュームはEBSということで話を進めていきます。 障害インスタンスを停止する 正常に起動しない、ログインができないインスタンスをstopします。 サーバにログインできないのでマネジメントコンソールやAPIでstopします。 障害インスタンスのルートボリュームをデタッチする ルートボリュームのEBS IDを確認してVolumesへ移動します。 ・DescriptionのRoot Device 「/dev/xvda」をクリック また後でアタッチし直すのでRoot Device名はメモしておきます。 ・EBS ID をクリック ・Volumesに移動します。 ・A

    ログインできないec2インスタンスを調査する | DevelopersIO
  • データセンター移転とDRBD - Cybozu Inside Out | サイボウズエンジニアのブログ

    @ymmt2005 こと山泰宇です。今回は去る 5 月から 6 月にかけて行った、cybozu.com のデータセンター移転作業について、失敗してしまったことを中心に解説します。 失敗と書いたのは、移転作業中に何度か、一部のお客様環境でストレージ高負荷による障害を起こしてしまったためです。移転作業自体はスケジュール通り進行し、6 月第二週に完了しています。障害に関しては、こちら(PDF)でお詫びとご報告をしていますが、この記事では技術面ならびに障害を引き起こすにいたった背景について詳述します。 移転に至った背景 移転方式の検討 ストレージ同期の方法 DRBD による同期の詳細 まずは自社環境を移転、成功 そして障害は発生した なぜ障害につながったのか まとめ 移転に至った背景 まず、なぜデータセンターを移転することにしたかを説明します。 端的に言うと、当時のデータセンターが手狭になり拡張

    データセンター移転とDRBD - Cybozu Inside Out | サイボウズエンジニアのブログ
  • 1