タグ

障害に関するrx7のブックマーク (120)

  • 【1月23日追記】12月23日、24日に発生しました障害に関するご報告

    いつもSkebをご利用いただき、誠にありがとうございます。 12月23日12時よりskeb.jpにアクセスできない大規模な障害が発生しておりましたが、12月24日07時に復旧いたしました。 12月23日、および12月24日が納品期限のリクエストは納品期限を12月25日23時59分までに延長させていただきます。 みなさまには多大なご迷惑をお掛けしましたことをお詫び申し上げます。 障害につきまして詳細をご報告させていただきます。 概要日時: 12月23日12時22分〜12月24日7時00分 (JST) ダウンタイム: 18時間38分 内容: skeb.jpにアクセスできない不具合 原因: SkebはすべてのサーバとシステムをHerokuに設置していたが、障害発生時刻より同サービスのアカウントが理由の通知なく利用できなくなった。 解決: Herokuの一切の利用を中止し、すべてのサーバとシステ

    rx7
    rx7 2022/12/24
    お疲れ様でした。エンタープライズ契約とは...
  • au通信障害、原因は通信設備の故障による輻輳 通信規制で対処中【修正あり】

    KDDIは7月2日午後5時、同日午前1時35分ごろから続いているモバイル通信サービスの通信障害の原因について、通信設備の障害によるものと明かした。 【追記:2022年7月2日午後7時30分 午後7時時点での情報の他、障害原因がVoLTE交換機の故障だと確認済みの旨を追記しました】 【修正:2022年7月3日午後1時45分 当初、障害原因はVoLTE交換機の故障としていましたが、KDDIが3日に行った会見の中で、障害のきっかけとなったのはメンテナンス作業で交換した新しいルーターの不具合であることが明らかになったため、記述を修正しました】 (続報:au通信障害でKDDI社長が謝罪 影響回線数は最大で3915万 同社史上最大規模) 設備の不具合により、トラフィックが一部のVoLTE交換機に集中(輻輳)した結果として、通信がつながりにくい状況が起きているという。同社は輻輳の軽減のため、各ユーザーの

    au通信障害、原因は通信設備の故障による輻輳 通信規制で対処中【修正あり】
    rx7
    rx7 2022/07/02
    輻輳ということは、復旧までもうしばらく時間を要すかもって感じかな。頑張れー。
  • みずほ銀行 障害の原因はハードディスクの経年劣化(テレビ朝日系(ANN)) - Yahoo!ニュース

    みずほ銀行は8月から先月まで4回発生したシステムなどの障害について、ハードディスクの経年劣化などが原因だったと公表しました。 みずほ銀行は8月20日に店頭での取引の一部ができなくなった障害について、データセンターのハードディスクが稼働から6年経って劣化していたことに気付かず、故障したことが原因だと明らかにしました。 この際、バックアップシステムに切り替えようとしましたが、入力すべき追加の指示を飛ばしたため失敗しました。 8月23日や先月8日に100台以上のATMが一時停止したケースではネットワーク機器に静電気などが生じエラーが発生した可能性が高いということです。 再発防止のため、みずほ銀行は6年前のシステム構築に携わった富士通や当時の技術者らとの関係を強化する方針です。

    みずほ銀行 障害の原因はハードディスクの経年劣化(テレビ朝日系(ANN)) - Yahoo!ニュース
    rx7
    rx7 2021/10/09
    タイトルがおかしくて、監視不足と切り替えミスが原因ですよね。ディスクが経年劣化するのは既知の事実。
  • トラブル対応は全く無駄 - 最速配信研究会(@yamaz)

    ミスリードを誘うタイトルでお送りしております。 トラブル対応は全く無駄だと思う。もちろん「トラブルが起きてるんだからトラブル対応しなきゃに決まってるだろ」といった話ではない。 いきなり話が変わるが、私の奥さんは看護師で、結婚当初私が風邪を引くと優しくしてくれるのかな?と思ってたけど、毎回どえらく怒られていた。曰く 風邪は基的に予防できる病気 なのに風邪を引くのは怠慢な証拠 風邪を引くと会社休まないとだし、お金も時間も浪費するので当に意味がない いや、全くごもっともでぐうの音も出ない正論としかいいようがない。 さて翻って、みなさん自身がおもりするシステムの健康をちゃんと見てるだろうか? 上記の言葉をシステムトラブルに置き換えてみよう。 トラブルは基的には予防し得る なのにトラブルを起こしてしまうのは怠慢な証拠 トラブルを起こしたら対応にかかるエンジニア工数や顧客対応の工数はドブに捨てて

    トラブル対応は全く無駄 - 最速配信研究会(@yamaz)
    rx7
    rx7 2021/02/21
  • Googleの45分間ダウンの原因は認証ツールのストレージクォータの問題

    Googleの「Workspace」を含む同社の多くのサービスが12月14日の午後9時ごろから約45分間使えなくなっていた障害の原因は、各種サービスにログインするための認証ツールのストレージクォータの問題だったと、Googleが同日、英Guardianなどのメディアに声明文を送った。 Googleの広報担当者によると、このダウンの原因は、Googleとサードパーティのサービスへのログイン方法を管理する認証ツールの障害だったという。認証を処理するサービスのためのストレージが不足すると自動的に割当を増やす(ストレージクォータ)ツールが正常に動作しなかった。 この問題により、GmailやGoogleカレンダーなど、利用するためにログインが必要なサービスが利用できなくなった。また、Googleの認証プラットフォームを利用するサードパーティのサービスでも、ユーザーがログインできなくなっていた。Go

    Googleの45分間ダウンの原因は認証ツールのストレージクォータの問題
  • MacBook ProでSMCリセットをかけたら色々なおった話 - 元RX-7乗りの適当な日々

    先月、仕事用の MacBook Pro が届きました。(買ってもらいました。) 今回はしばらくフルリモートワークがメインになりそうなので、16インチのモデルです。 前回は、オフィスの中でMTGすることも多かったので、13インチモデルを使っていたのですが、16GBのメモリが足りなくなるシーンであったり、ビデオ会議でファンが全開&日本語入力がままならなくなる時がある・・・みたいなことがあり、今回はメモリを32GBにしてGPUついているやつにしようかと。となると16インチです。 とはいえ、やっぱり持ち運ぶと、重いですね・・・。13インチとの差は明確に感じます。(当たり前) 個人的には、待望の物理Escキー!やっぱり良いですね。 シザーキーボードは、昔のMacBookのキーボードに戻ったかのような打ち心地です。バタフライキーボードもあのペチペチした感じもさほど嫌いではなかったのですが、耐久性に難が

    MacBook ProでSMCリセットをかけたら色々なおった話 - 元RX-7乗りの適当な日々
    rx7
    rx7 2020/08/01
    blogged.
  • 6月10日に発生しましたIBM Cloudのネットワーク障害に関するご報告

    主要カテゴリー IBM Cloud Blog IBM Data and AI IBM Consulting IBM Partner Ecosystem IBM Sustainability Software Client Engineering IBM テクニカル・サポート 社員が語る「キャリアとIBM」 IBM Cloud Blog IBM Cloud News IBM クラウド・ビジョン IBM Cloud アップデート情報 IBM Cloud チュートリアル IBM Data and AI IBM Watson Blog アナリティクス Data Science and AI SPSS Modeler ヒモトク Db2 オートメーション IBM Consulting デジタル変革(DX) アプリの開発とモダナイゼーション 製品/サービス ソフトウェア ハードウェア サービス 無料評価

    6月10日に発生しましたIBM Cloudのネットワーク障害に関するご報告
    rx7
    rx7 2020/06/11
    "サードパーティのネットワークプロバイダーが不正なルート広告を行ったため、" これで全リージョンもっていかれるの...??
  • Google Cloudの主要サービスが10時間ものあいだ障害発生。原因は分散アクセスコントロールへの大量の変更要求が引き起こしたメモリ不足

    Google Cloudの主要サービスが10時間ものあいだ障害発生。原因は分散アクセスコントロールへの大量の変更要求が引き起こしたメモリ不足 Google Cloudは、米国太平洋時間の3月26日木曜日16時50分(日時間27日金曜日 午前8時50分)頃から約10時間ほどのあいだ、Google Compute EngineやCloud Storage、Cloud SQLなどをはじめとする主要なサービスで障害を起こしていました。 受けた影響はリージョンごとに異なりますが、ほぼすべてのリージョンで何らかの影響を受けたようです。 Googleはその原因についての調査結果を発表。原因はGoogle Cloud内部でアクセスコントロールを司る部分に障害が発生したことだったと説明しました。 アイデンティティマネジメントへの大量の更新要求がキャッシュサーバの障害に クラウド内部では、APIへのアクセス

    Google Cloudの主要サービスが10時間ものあいだ障害発生。原因は分散アクセスコントロールへの大量の変更要求が引き起こしたメモリ不足
  • アマゾンで他人の“注文履歴”が見えてしまう状態に--同社は「現在調査中」

    通販サイトの「Amazon.co.jp」で、他人の注文履歴が表示されてしまうエラーが、9月26日から一部のユーザーの間で起きているようだ。 Amazon.co.jpで注文履歴を選ぶと、そこに身に覚えのない注文履歴が並んでいるという報告がTwitterなどで相次いでいる。名前や住所なども閲覧できる状態だという。 CNET Japan編集部でも確認したところ、同様の事象が起きているスタッフがいた。東京都内で暮らしているが、届け先の住所が「鹿児島県」になっていた。 アマゾンジャパンに同件について問い合わせたところ「Amazonは、お客様のセキュリティとプライバシーを大変重要に考えています。件については認識しており、現在調査を進めております」との回答を得た。続報があり次第、お伝えする。 【追記】同社は9月28日9時30分に「事象は解決し、お問い合わせいただいたお客様にはご連絡をしています」とコ

    アマゾンで他人の“注文履歴”が見えてしまう状態に--同社は「現在調査中」
  • Linux サーバの RAID (MD) 運用で、複数のディスクが切り離されてしまった場合の mdadm を使った復旧例 - 元RX-7乗りの適当な日々

    先月の話ですが、自宅にある比較的古いファイルサーバの電源を入れたところ、バックアップ用に RAID6 で組んでいる MD デバイスが見えなくなってしまいました。 古いサーバで、おそらく電源がダメになってきているのではないかと思っていますが、深夜に寝ぼけ眼でアレコレやった結果、どうやら復旧したみたいなので、また発生したときのためにログを貼り付けておきます。 # cat /proc/mdstat Personalities : [raid6] [raid5] [raid4] md0 : active raid5 sdl1[4] sdk1[2] sdj1[1] sdi1[0] 5860535808 blocks super 1.1 level 5, 512k chunk, algorithm 2 [4/4] [UUUU] bitmap: 1/15 pages [4KB], 65536KB chu

    Linux サーバの RAID (MD) 運用で、複数のディスクが切り離されてしまった場合の mdadm を使った復旧例 - 元RX-7乗りの適当な日々
    rx7
    rx7 2019/09/16
    blogged.
  • Apple TV 4K で ⚠️ (警告マーク) が表示されて起動しなくなった話 - 元RX-7乗りの適当な日々

    6月下旬頃に、ふとリビングの Apple TV 4K を見てみると、正面のインジケーターランプが点滅していて、何だろう?と思い TV をつけてみると、↑の画面が表示されていて、全く動かない。し、起動しているのかもわからない。 ⚠️ support.apple.com/appletv/restore警告マークが表示されたままフリーズしている状態。 はて?と思い、とりあえず電源を切って再起動しても同じ状態のまま。 Apple のサポートサイトへ ということで、素直に画面の指示に従い、 https://support.apple.com/appletv/restore へアクセスすると、 Apple TV 4K をお使いの場合 Apple TV 4K でソフトウェアをアップデートしようとした際に ⚠️ が表示される場合や、テレビの画面が黒くなり、Apple TV の前面の LED ランプが点滅す

    Apple TV 4K で ⚠️ (警告マーク) が表示されて起動しなくなった話 - 元RX-7乗りの適当な日々
    rx7
    rx7 2019/07/15
    blogged.
  • 重大事故の時にどうするか?|miyasaka

    ヤフー時代の部下から突然メッセンジャーが。 「以前宮坂さんが緊急対応時に残して頂いた言葉を今度セミナーで使っていいですか?」 と。 リーダーの仕事はいっぱいあるけどなかでも大きな仕事の一つは重大事故の発生の時の陣頭指揮。平時は部下で回せるようにするのがマネジメントだけど、危機の時まで部下にまかせるわけにはいかない。 お恥ずかしながらヤフー在職中の22年で何度か重大事故を起こし関係者の人に多大な迷惑をかけてしまった。その度にその陣頭指揮をとった。 結果的にヤフーのなかでもっとも深刻な事故対策をやった人の一人じゃなかろうか。そのなかからノウハウ的なものがたまってきたものを部下にメモしておくってあげたものを彼は覚えていてくれたらしい。 彼いわく危機対応の時にすっごく役にたって指針になったといってくれて送ってくれた。 ひょっとしたら他の人にも参考になるかとおもって(若干訂正してますが)ここに残して

    重大事故の時にどうするか?|miyasaka
  • 2018年12月6日に発生した携帯電話サービスの通信障害に関するおわび | 企業・IR | ソフトバンク

    このたび、2018年12月6日(木)午後1時39分ごろから午後6時4分までの間、全国で“ソフトバンク”および“ワイモバイル”の4G(LTE)携帯電話サービス、固定電話サービスの「おうちのでんわ」がご利用できないまたはご利用しづらい状況が発生していました。また、「SoftBank Air」についても、一部地域でご利用できないまたはご利用しづらい状況が発生していました。障害は、全国をカバーするエリクソン社製の交換機のソフトウエアに異常が発生したことによるものです。 お客さまには、多大なるご迷惑とご不便をお掛けしましたことを深くおわび申し上げます。弊社では今回このような事象が発生したことを重く受け止め、再発防止策の徹底を図り、サービスの安定的な運用に向けて全力で取り組んでいきます。 記 1. 発生期間 2018年12月6日(木)午後1時39分ごろ~同日午後6時4分ごろ 2. 影響サービス “ソ

    2018年12月6日に発生した携帯電話サービスの通信障害に関するおわび | 企業・IR | ソフトバンク
    rx7
    rx7 2018/12/07
    "エリクソン社製"と書く必要があったのだろうか・・・。私が心配することではないが大丈夫ですか。
  • GitHubが障害を総括、43秒間のネットワーク断が1日のサービス障害につながった:データベースの不整合解消に時間 - @IT

    GitHubが障害を総括、43秒間のネットワーク断が1日のサービス障害につながった:データベースの不整合解消に時間 GitHubは2018年10月30日(米国時間)、2018年10月21日16時頃(米国太平洋時)から約24時間にわたって発生した障害に関する分析報告を、同社のブログに掲載した。これによると、ネットワーク機器の部品交換で生じた43秒のネットワーク接続断が、GitHubのメタデータ管理データベースの不整合を引き起こし、復旧に時間を要したという。 GitHubは2018年10月30日(米国時間)、2018年10月21日16時頃(米国太平洋時)から約24時間にわたって発生した障害に関する分析報告を、同社のブログに掲載した。これによると、ネットワーク機器の部品交換で生じた43秒のネットワーク接続断が、GitHubのメタデータを管理するデータベースの不整合を引き起こし、復旧に時間を要した

    GitHubが障害を総括、43秒間のネットワーク断が1日のサービス障害につながった:データベースの不整合解消に時間 - @IT
  • 失敗を学びに変える「障害報告書」の書き方 ─ RettyのCTOがGoogleで学んだ「問題を隠さない文化」 - エンジニアHub|Webエンジニアのキャリアを考える!

    失敗を学びに変える「障害報告書」の書き方 ─ RettyのCTOがGoogleで学んだ「問題を隠さない文化」 人間は失敗するものです。エンジニアもまたしかり。Retty株式会社の樽石CTOが考える、失敗を学びに変える考え方とノウハウを紹介します。 はじめまして。Retty株式会社でCTOを務める樽石将人( @taru0216)です。Rettyにおける技術の責任者として不確実性の高いシステム開発を成功に導くよう牽引したり、メンバーが働きやすくなるような仕組みづくりを行ったりしています。 子供の頃からパソコンに親しみ、新卒一期生でレッドハットに就職して、Rettyに入社するまでGoogle楽天を経てきました。エンジニアとして活動して約30年。日々失敗し続けていますし、過去には大規模サービスを止めてしまったこともあります。 人間である以上、バグやエラーは必ず起こるもの。エンジニアは失敗を繰り返

    失敗を学びに変える「障害報告書」の書き方 ─ RettyのCTOがGoogleで学んだ「問題を隠さない文化」 - エンジニアHub|Webエンジニアのキャリアを考える!
  • 三菱UFJニコスのシステム障害の原因が判明、3個のHDDが同時に故障

    マスターデータから中間加工ファイルを作成するバッチ処理のシステムでHDDが故障し、障害が発生した。三菱UFJニコスによれば、HDD15個で一連の機能を果たしており、そのうち3個が同時に故障した。「2個までの同時障害は自動復旧可能な仕組みを設けていたが、3個の故障は想定外だった」(広報)。同社はシステムやHDDの開発企業を明らかにしていないものの、「発生確率は極めて低いとの報告を受けている」という。 故障したHDDは、障害が発生した2017年12月26日中に交換したが、利用会員の売上データ処理などに遅れが発生した。一部の利用会員に2重請求が発生したほか、請求が遅れるなどの事態につながった。同社はシステム機器の監視体制を強化するなどして対策を講じるという。

    三菱UFJニコスのシステム障害の原因が判明、3個のHDDが同時に故障
    rx7
    rx7 2018/02/09
    同時に壊れるより可能性が高い話としては、実は2つ壊れている事に気付けてなくて、3つ目の故障で動かなくなって気付くというパターン...
  • https://jp.techcrunch.com/2017/03/03/20170302aws-cloudsplains-what-happend-to-s3-storage-on-monday/

    https://jp.techcrunch.com/2017/03/03/20170302aws-cloudsplains-what-happend-to-s3-storage-on-monday/
  • Amazon S3が一時ダウン、米国東部リージョンで大規模障害。肝心のヘルスダッシュボードまで巻き込まれて表示が乱れ、AWS公式ツイッターアカウントが状況報告

    Amazon S3が一時ダウン、米国東部リージョンで大規模障害。肝心のヘルスダッシュボードまで巻き込まれて表示が乱れ、AWS公式ツイッターアカウントが状況報告 AWSの米国東部リージョン(US-EAST-1、バージニア北部)において、遅くとも日時間午前4時頃からAmazon S3の障害が大規模に発生。約3時間後の午前6時50分頃に復旧作業が終了し、通常運用に戻ったことがAWSから報告されています。 TechCrunchの記事やZDNetの記事によると、この障害でSlackのファイル共有やSlideShareのスライドのダウンロード、Business Insider、IFTTTなどさまざまなサービスで障害が発生。 さらにAmazon S3はAWS自身が提供するさまざまなサービスの基盤にもなっているため、同リージョンで提供している多数のサービスにもエラー率が上昇するなどの影響がありました。

    Amazon S3が一時ダウン、米国東部リージョンで大規模障害。肝心のヘルスダッシュボードまで巻き込まれて表示が乱れ、AWS公式ツイッターアカウントが状況報告
  • Amazon.co.jp:システム障害はなぜ二度起きたか みずほ、12年の教訓の TOSHI!!さんのレビュー

    この1度目のシステム障害を、対応ベンダのうちの1社として見ていた者です。 確かに、ここまで掘り下げるのは大変だったでしょう。しかしながら、例えば、実務レベルの暗闘や困惑は 不十分というか、日経という立ち位置からか書かれていません。 私自身は別プロジェクトに居ましたが、ATM系の開発を社(当時)が請け負っており、そのマネージャーが 懇意の同僚でした。彼は、オブザーバとしてながら、実際の実務レベルミーティングに参加していたのです。 真の原因は、統合するシステムそのものの設計書・仕様書レベルで、負け組(=新システム開発に乗れな かったカイシャ)が、意図的なイヤガラセで、「現状」の仕様や設計を開示しなかったことにあります。 システムというのは、使えば必ず手直し(所謂、バグだけでなく、法律改正に対応する修正もあります)が 多々発生します。都度、「その場しのぎのパッチ当て」から「キチンと予算を組んだ修

    Amazon.co.jp:システム障害はなぜ二度起きたか みずほ、12年の教訓の TOSHI!!さんのレビュー
    rx7
    rx7 2016/10/18
  • ING銀行の基幹データセンター、消防訓練で消火ガス噴射の衝撃音が大量のハードディスクとサーバを破壊。ATMや決済サービスが停止に

    ING銀行の基幹データセンター、消防訓練で消火ガス噴射の衝撃音が大量のハードディスクとサーバを破壊。ATMや決済サービスが停止に オランダに社を置く大手金融機関INGの基幹データセンターで、消防訓練のため消火ガスの噴射をしたところ予想以上に大規模な衝撃音が発生。大量のハードディスクやサーバが故障したと報道されています。 Fire drill knocks ING bank's data centre offline - BBC News ING Bank pays back fees to clients affected by system crash in Romania A Loud Sound Just Shut Down a Bank's Data Center for 10 Hours | Motherboard これにより9月10日土曜日の朝から夜まで、同社のATMやカード

    ING銀行の基幹データセンター、消防訓練で消火ガス噴射の衝撃音が大量のハードディスクとサーバを破壊。ATMや決済サービスが停止に
    rx7
    rx7 2016/09/13
    ほへー。これからエンプラ系システムの要件定義や負荷試験に「消化ガス噴射時のサービス継続」という項目が追加されるのだろう(違)