タグ

障害に関するrochefortのブックマーク (18)

  • 管理者用初期化URLを踏んでWebサービスのデータをふっとばした話 - Qiita

    自己紹介 職のエンジニアではありませんが、ちょっとICT系に詳しそうなやつって感じで、部署のサーバ管理を任されたりもしています。 背景 私の(当時所属していた)部署では、毎年、数週間かけて前年の各人の業務実績をとりまとめて一つの冊子(PDF)にするという仕事があり、この作業を少しでも自動化するため、Webサービスが内製されました。当初は単純に各ユーザが自分の業務実績一覧をテキストで用意してアップロードするというものでしたが、秘伝のタレのように毎年少しずつ改良されたり、大幅に作り直されて別システムから業務データを取り込んでからブラウザ上で編集できるようになったりしつつ、なんやかんやあって私が引き継ぎます。他にやりたい人もなく、ひとり鯖管です。OSはCentOS6でした。 このシステムでは、毎年新しいデータを編集するため、その作業開始時にデータを初期化する必要があります。この作業も自動化し、

    管理者用初期化URLを踏んでWebサービスのデータをふっとばした話 - Qiita
    rochefort
    rochefort 2020/12/31
    へーすごい。rmって復旧できるんだ。
  • [障害対応] ALB で502エラーが発生!!その時あなたはどうする!? | DevelopersIO

    「ALB で502エラーが出たら、どうやって原因究明したら良いのだろう?」 ってお悩みではありませんか?今回は、「ALB の502エラーのおさらい」と私が実施している「障害切り分け方法」を紹介します。最後には、「実際にあった原因」もいくつか紹介します。 それでは早速やっていくっ! ALB の502エラーのおさらい HTTP 502: Bad Gateway 説明: 登録されたインスタンスから送信された応答をロードバランサーが解析できなかったことを示します。 考えられる原因としては、 Application Load Balancer のトラブルシューティング - HTTP 502: Bad Gateway の記載が参考になります。 (一部抜粋) 接続の確立を試みているときに、ロードバランサーがターゲットから TCP RST を受信した。 接続の確立を試みているときに、ロードバランサーがター

    [障害対応] ALB で502エラーが発生!!その時あなたはどうする!? | DevelopersIO
  • 10日間 で AWS Lambda 関数を 28億回 実行した話|デロイト トーマツ ウェブサービス株式会社(DWS)公式ブログ

    はじめに こんにちは、エンジニアの内山です。 最近は AWS を使ったサーバレス開発に従事しています。 今回は、サーバレス開発時にやらかしてしまったお話です。 どんなことが起こった? プログラムのバグが原因で、AWS Lambda 上で再起呼び出しの無限ループが起こりました。さらに発生時にはそのことに気づけませんでした。 発生時から 10 日後の月末に、請求額が想定よりも異常に高いという報告を受け、その時点で初めて無限ループが起こっていることが発覚しました。 10 日間 で、AWS Lambda 関数が 28億回__ほど実行されており、付随するサービス(X-Ray/CloudWatch Logsなど)の料金も加わって、__27万円 ほどの料金が発生してしまいました。 経緯 ある Lambda 関数から別の Lambda 関数を非同期で実行する処理を実装していました。実際とは少し違いますが、

    rochefort
    rochefort 2020/01/03
    これは怖い
  • 「あれ、チュートリアルから始まった」。僕とキャッシュとサイレントリリース。 - Qiita

    「このアプリバージョンではこのAPIサーバーにアクセスさせる」というロジックを実現します。 上記の表の場合だと、バージョン0.0.1と0.0.2のアプリではhttps://api.xxx.jp、バージョン0.0.3のアプリではhttps://api.vrf.xxx.jpのAPI URLがゲーム内で使われます。 この仕組みがある理由は下記の通りです。 ストアに申請を出すアプリのAPI番環境でなければならない → アプリ内にAPIサーバーの向き先としてhttps://api.xxx.jpが設定されている → ストアに申請を出すタイミングでサーバー側のソースに更新をかけたい場合、ユーザーが触っている番環境(https://api.xxx.jpのサーバー)に更新をかけるとアプリをアップデートするまで動かなくなるので、更新をかけられない → 申請時にはリリースするアプリの向き先を一時的に、リリ

    「あれ、チュートリアルから始まった」。僕とキャッシュとサイレントリリース。 - Qiita
    rochefort
    rochefort 2020/01/03
    apcキャッシュはありがち
  • rsyncの悲劇 〜本番環境を消し飛ばす前に覚えておきたいこと〜

    この記事は番環境でやらかしちゃった人 Advent Calendar 2019 17日目の記事です。 はじめまして、ダーシノ(@bc_rikko)です。 突然ですが、懺悔します。 私は転職して10ヶ月で2回も番環境をぶっ飛ばしました。お客様をはじめ、関係各位には多大なるご迷惑をおかけしたことを、ここでお詫び申し上げます。 1回目は2015年11月27日、入社27日目のこと。 gitの設定ミスにより壊れたブランチをmasterにforce pushしてしまい、CIが流れて番環境が壊れた。原因はpush.defaultなのだが、詳しくはすでに記事を書いているのでそちらを読んでほしい。 2回目は翌年9月1日、入社してちょうど10ヶ月たった日のことだ。 またしても番環境をぶっ飛ばした。しかも、前回より盛大に……。 タイトルにもあるようにrsyncコマンドが原因だ。 当記事では、この「rsy

    rsyncの悲劇 〜本番環境を消し飛ばす前に覚えておきたいこと〜
    rochefort
    rochefort 2020/01/03
    rsyncはちょいちょい悲劇を産む
  • 稼働中の商用ネットワークでVRRPの切替検証を実施しちゃった話 - Qiita

    ご挨拶 初めまして @moriya-snj です。 この記事は「番環境でやらかしちゃった人 Advent Calendar 2019 - Qiita」の15日目の記事です。 みなさん盛大にやらかしている様で安心しております。 今回は私が社会人3ヶ月目でやらかした重大事故の記録を包み隠さず暴露するとともに当時フォローしてくださった先輩や上司お陰でなんとかこの業界で生き抜くこと出来ていることの感謝をお伝えすべく、キーボードに手を伸ばしております。 何をしでかしたか 顧客AがIP電話を導入するため、新たにVoIP用ネットワークを構築することとなった。 機器の設置等は別部署が行うため、設置依頼を出し、完了の報告をもらったため、ネットワーク機器のコンフィグなどを流し込み疎通確認などを行うこととなった。 疎通確認が完了し、お次はVRRPの切替確認を行おうとしたが、ここで誤って稼働中の顧客Bのネットワ

    稼働中の商用ネットワークでVRRPの切替検証を実施しちゃった話 - Qiita
    rochefort
    rochefort 2020/01/03
    いい会社
  • cron哀歌~typoを笑うものはtypoに泣く~他 - Qiita

    この記事は「番環境でやらかしちゃった人 Advent Calendar 2019」の12日目です。 https://qiita.com/advent-calendar/2019/yarakashi-production (想像以上に人気のカレンダーに参加してしまい、正直なところ、戦々恐々としております……) はじめに ほとんどの方ははじめまして、 @NACK と申します。 エンジニアになって何十年も経ちますが、未だに、ここに書いた「やらかし」は夢に見ます。 皆さんにご笑覧いただいて、私も一緒に笑えるようになればいいなあ……と思い、今回の企画に参加させていただきました。 というわけで、ぜひ笑いとばしていってください。もしくは、今後のみなさんの業務に、ほんの少しでもお役に立てれば幸いです。 用語説明 typoとは 入力ミスのこと。"typographical error"の略。 http:/

    cron哀歌~typoを笑うものはtypoに泣く~他 - Qiita
    rochefort
    rochefort 2020/01/03
    crontab -r オプションいらんやろ
  • postgresのデータを盗まれた話 - のんびりやの日記

    はじめに さっぶ。どうも、だーやまんです。 この記事は、番環境でやらかしちゃった人 Advent Calendar 2019 - Qiitaの11日目の記事です。 これは、中途半端な知識でサービスを運用していた結果、タイトル通りの大失敗をしてしまったお話です。個人開発での出来事なので、業務で起きたことかと胃薬を握られていた方はご安心ください。 語るのもすごい恥ずかしいレベルですが、戒めのために晒しておきます。 この記事を読んでほしい人 初めてインターネット上にサービスを公開しようとしている人 喋太郎の利用者様(この場をお借りして、改めてお詫び申し上げます。当に申し訳ございませんでした。) 背景とか Discord読み上げBot 「喋太郎」にてやらかしました www.dayaman.work 利用者が約10万人 さくらのVPSにてAppサーバ2台、DBサーバ1台で運用 各サーバの死活監視

    postgresのデータを盗まれた話 - のんびりやの日記
    rochefort
    rochefort 2020/01/03
    インターネット経由でのDBアクセスは中々香ばしい
  • VSCodeの操作ミスでGCP Cloud Composerの裏側k8sをお掃除した話 - Qiita

    tl;dr 筆者はvim派でVSCode初心者。でも勧められたので数カ月ぶりに起動してみた。 Pluginを色々入れていたので、サイドバーにはたくさんのアイコン。なにこれ楽しい。 Cloud Codeタブを触っていたら…指先が震えてトラックパッド誤操作。「Delete Cluster」を押してしまう。 その時たまたま偶然、GCPのオーナー権限を持つIAMで認証していた。 盛大にやらかして復旧が手間だったが、いくつかの理由で障害として顕在化しなかった。 というお話 何をやらかしたのか やらかし当時、筆者はGCPでデータ処理基盤の開発を行っていました。vimとzshが大好きで、開発のすべてをこの2つで済ませてましたが、同僚にVSCodeを猛プッシュされたので使ってみることにしました。 VSCodeは数ヶ月前にインストールしたもののそのときは結局使わず。数ヶ月ぶりの起動でした。 インストール時に

    VSCodeの操作ミスでGCP Cloud Composerの裏側k8sをお掃除した話 - Qiita
    rochefort
    rochefort 2020/01/03
    これは怖い
  • GCP Projectを消しちゃった話 - 839の日記

    この記事は「番環境でやらかしちゃった人 Advent Calendar 2019」の7日目です。 qiita.com 個人の趣味でやっていたやらかしなので、あまり大した内容ではありませんがご容赦ください。。 背景 趣味で運用していたVPSのサーバをGKEに移そうとしていました。 段階的に移行を進めていたため問題が発生した時点ではapp群はVPSで動いており、Cloud DNSのみGCPに移行済みな状態でした。 なぜ起こったのか Firebaseのプロジェクトを消してしまい、それに伴ってGCP側のプロジェクトも消えてしまいました。 背景に記載した通り、段階的に移行を進めていたことと以下のような理由が重なり消した直後は気づいていませんでした。 HTTPアクセスによる外形監視を入れていなかったため、VPS上のサービスが接続不可になっていることに気づかなかった VPS上のプロセス監視(macke

    GCP Projectを消しちゃった話 - 839の日記
  • crontab database ~君がしでかしてくれたもの~ - Qiita

    この記事は番環境でやらかしちゃった人のアドベントカレンダー2日目の記事です。 内容的にそろそろ時効だと思うので供養のために書きました。 追記。そういえば時期をちゃんと書いてなかったけど事件が起きたのは去年2018年、つまり仕込み(ヲイ)は2017年の話です ぶっちゃけネタ記事ですw (たまたま見つけて参加してみただけなのに昨日の記事の伸びっぷりを見て戦々恐々としてる TL;DR DB移行作業において、テスト期間中は常に最新のデータで処理できるように書いておいたプログラムをcrontabで実行していた。最終的に番に合わせて日時を調整していたが、そのことを失念し1年後に再実行されてしまい、番データが1年前に巻き戻る事故発生。 crontab は分、時、日、月、曜日を指定できるが、1年後に帰ってくるから気をつけてね。という話。 惨劇はなぜおこってしまったのか 結論から言えばcrontabの

    crontab database ~君がしでかしてくれたもの~ - Qiita
  • いつものように本番作業してたはずなのに - Qiita

    この記事は「番環境でやらかしちゃった人 Advent Calendar 2019」の1日目です。 https://qiita.com/advent-calendar/2019/yarakashi-production なかなか濃いラインナップが期待されますが、まずはさらっといきたいと思います。 具体性が乏しい部分もあると思いますが、そこはお察しください。。。 やらかし 背景(前提条件) いっていに昔の話です ETL(データ加工)サーバ 数十を超えるシステムからデータを集める BIツールなどで活用できるように各種加工処理を行い、DBなどにロードする 繁忙の違いはあれど、24/365で常時一定量の処理は稼働している 複数のチームが共存しているサーバ アプリ面では比較的疎 ETL処理のリリース前に番サーバ上で試験をする取り決めになっていた 性能や番相当データのテストが安全に行えるような環境

    いつものように本番作業してたはずなのに - Qiita
    rochefort
    rochefort 2020/01/03
    なかなかやなぁ
  • Amazon EC2ダウンでInstagram等のWebサービスに障害発生

    Instagram Support @InstagramHelp We're currently experiencing technical difficulties and we're working to correct the issues. Thanks for your patience 2012-06-30 12:16:03

    Amazon EC2ダウンでInstagram等のWebサービスに障害発生
  • AWSの障害に起因したHerokuの障害について、Herokuによるレポートが公開されたので要点を翻訳しました(全訳ではありません)。「だ、... - Sooey

    AWSの障害に起因したHerokuの障害について、Herokuによるレポートが公開されたので要点を翻訳しました(全訳ではありません)。「だ、である」調にしたため多少偉そうに見えるかもしれませんが、原文はとても誠実な表現で書かれていますので、その点は誤解なきよう。 一部、文意が汲めなかった部分は原文を併記していますので、ご意見・ご指摘などがありましたら@junyaまでお願いします(@irohirokiさん、アドバイスありがとうございます)。 Resolved: Widespread Application Outage Herokuを4年間運用してきて最大の障害 専用データベースを利用している大規模アプリケーションでは最大16時間のダウンタイム 共有データベースを利用している小規模アプリケーションでは最大60時間のダウンタイム アプリケーションのデプロイについてはプラットフォームの広範囲にわ

  • Amazon Web Servicesの障害はなぜ起こったのか アマゾンが詳細な経緯と対策を発表 − @IT

    2011/04/30 米Amazon Web Services(AWS)は米国時間4月29日午後、同社のブロックストレージサービス「Amazon Elastic Block Store(EBS)」および、リレーショナルデータベースサービスの「Amazon Relational Database Service(RDS)」における約4日間にわたる障害につき、詳細な経過報告と対策を発表した。これによると、障害のきっかけはネットワークの構成変更作業におけるミスだった。同社は今回の障害が複数のAvailability Zone(AZ)に影響を与えた理由も説明した。 AWSが発表した今回の障害に関する説明(英語) EBSはAWSの仮想サーバサービスであるAmazon EC2のインスタンスから、仮想ディスクとして使える永続ストレージサービス。実態としてはディスクを備えたノード(コンピュータ)の集合体を

    rochefort
    rochefort 2012/04/04
    コントロ
  • 弊社データセンターにおける通信障害について|プレスルーム|日鉄ソリューションズ

    日9時30分頃、弊社データセンターにおいて通信障害が発生いたしました。この障害は、データセンター内のテナント様が行なっていた工事中に誤って回線を切断したことによるものです。 この障害により、株式会社ディー・エヌ・エー様の「Mobage」を始めとするお客様サービスにアクセス障害が発生しており、現在、日中に復旧すべく全力を挙げております。 皆様には多大なご迷惑をお掛けし、お詫び申し上げます。 以上

    弊社データセンターにおける通信障害について|プレスルーム|日鉄ソリューションズ
    rochefort
    rochefort 2011/08/26
    まぁ、別に暫く止まっても害ないっしょ
  • HootSuiteやFoursquareがダウン Amazon EC2にトラブルか

    4月21日午後(日時間)、Twitterクライアント「HootSuite」や位置情報ゲーム「Foursquare」などが相次いでダウンした。午後8時時点で復旧していない。 各サービスが利用しているクラウドサービス、Amazon EC2にトラブルが生じているもようだ。 HootsuiteやFoursquareに加え、Q&Aサイト「Quora」など、米国系の著名なサイトがこの影響でダウンしている。

    HootSuiteやFoursquareがダウン Amazon EC2にトラブルか
    rochefort
    rochefort 2011/04/22
    うう、こわい
  • [速報]mixiが障害の経緯を発表。原因はお盆のアクセス急増ではなく、memcachedの異常終了

    8月10日の17時20分頃から12日未明までの長時間にわたり、サービスが利用不能もしくは利用しにくい状況になっていた「mixi」。数度の断続的な復旧ののちに、日12日午前1時50分頃には復旧が完了し、現時点で全面的に復旧しているようです。 その障害の経緯について株式会社ミクシィの広報からプレスリリース「『mixi』のアクセス障害のお詫び及び復旧に関するお知らせ」として発表されました。 原因はアクセスの急増ではなかった プレスリリースの中で、今回の障害の原因は以下のように説明されています。 『mixi』のデータベースへの負荷軽減のために導入しているデータキャッシュシステムが複数同時に異常終了したことに伴い、データベースへの負荷が急増したため『mixi』を閲覧しづらい状態となりました。 高負荷かつ特殊な状態でのみデータキャッシュシステムの異常終了が発生していたため、根的な原因の究明に時間が

    [速報]mixiが障害の経緯を発表。原因はお盆のアクセス急増ではなく、memcachedの異常終了
    rochefort
    rochefort 2010/08/12
    memcached側へはフィードバックされるんだろうけど、もう少し詳細知りたいなぁ。
  • 1