[B! 障害] rochefortのブックマーク

管理者用初期化URLを踏んでWebサービスのデータをふっとばした話 - Qiita

自己紹介本職のエンジニアではありませんが、ちょっとICT系に詳しそうなやつって感じで、部署のサーバ管理を任されたりもしています。背景私の（当時所属していた）部署では、毎年、数週間かけて前年の各人の業務実績をとりまとめて一つの冊子（PDF）にするという仕事があり、この作業を少しでも自動化するため、Webサービスが内製されました。当初は単純に各ユーザが自分の業務実績一覧をテキストで用意してアップロードするというものでしたが、秘伝のタレのように毎年少しずつ改良されたり、大幅に作り直されて別システムから業務データを取り込んでからブラウザ上で編集できるようになったりしつつ、なんやかんやあって私が引き継ぎます。他にやりたい人もなく、ひとり鯖管です。OSはCentOS6でした。このシステムでは、毎年新しいデータを編集するため、その作業開始時にデータを初期化する必要があります。この作業も自動化し、

rochefort 2020/12/31

へーすごい。rmって復旧できるんだ。

linux
障害

リンク

[障害対応] ALB で502エラーが発生！！その時あなたはどうする！？ | DevelopersIO

「ALB で502エラーが出たら、どうやって原因究明したら良いのだろう？」ってお悩みではありませんか？今回は、「ALB の502エラーのおさらい」と私が実施している「障害切り分け方法」を紹介します。最後には、「実際にあった原因」もいくつか紹介します。それでは早速やっていくっ！ ALB の502エラーのおさらい HTTP 502: Bad Gateway 説明: 登録されたインスタンスから送信された応答をロードバランサーが解析できなかったことを示します。考えられる原因としては、 Application Load Balancer のトラブルシューティング - HTTP 502: Bad Gateway の記載が参考になります。 (一部抜粋) 接続の確立を試みているときに、ロードバランサーがターゲットから TCP RST を受信した。接続の確立を試みているときに、ロードバランサーがター

rochefort 2020/02/03

リンク

10日間で AWS Lambda 関数を 28億回実行した話｜デロイトトーマツウェブサービス株式会社（DWS）公式ブログ

はじめにこんにちは、エンジニアの内山です。最近は AWS を使ったサーバレス開発に従事しています。今回は、サーバレス開発時にやらかしてしまったお話です。どんなことが起こった？プログラムのバグが原因で、AWS Lambda 上で再起呼び出しの無限ループが起こりました。さらに発生時にはそのことに気づけませんでした。発生時から 10 日後の月末に、請求額が想定よりも異常に高いという報告を受け、その時点で初めて無限ループが起こっていることが発覚しました。 10 日間で、AWS Lambda 関数が 28億回__ほど実行されており、付随するサービス(X-Ray/CloudWatch Logsなど)の料金も加わって、__27万円ほどの料金が発生してしまいました。経緯ある Lambda 関数から別の Lambda 関数を非同期で実行する処理を実装していました。実際とは少し違いますが、

rochefort 2020/01/03

これは怖い

障害

リンク

「あれ、チュートリアルから始まった」。僕とキャッシュとサイレントリリース。 - Qiita

「このアプリバージョンではこのAPIサーバーにアクセスさせる」というロジックを実現します。上記の表の場合だと、バージョン0.0.1と0.0.2のアプリではhttps://api.xxx.jp、バージョン0.0.3のアプリではhttps://api.vrf.xxx.jpのAPI URLがゲーム内で使われます。この仕組みがある理由は下記の通りです。ストアに申請を出すアプリのAPIは本番環境でなければならない → アプリ内にAPIサーバーの向き先としてhttps://api.xxx.jpが設定されている → ストアに申請を出すタイミングでサーバー側のソースに更新をかけたい場合、ユーザーが触っている本番環境（https://api.xxx.jpのサーバー）に更新をかけるとアプリをアップデートするまで動かなくなるので、更新をかけられない → 申請時にはリリースするアプリの向き先を一時的に、リリ

rochefort 2020/01/03

apcキャッシュはありがち

障害

リンク

rsyncの悲劇〜本番環境を消し飛ばす前に覚えておきたいこと〜

この記事は本番環境でやらかしちゃった人 Advent Calendar 2019 17日目の記事です。はじめまして、ダーシノ(@bc_rikko)です。突然ですが、懺悔します。私は転職して10ヶ月で2回も本番環境をぶっ飛ばしました。お客様をはじめ、関係各位には多大なるご迷惑をおかけしたことを、ここでお詫び申し上げます。 1回目は2015年11月27日、入社27日目のこと。 gitの設定ミスにより壊れたブランチをmasterにforce pushしてしまい、CIが流れて本番環境が壊れた。原因はpush.defaultなのだが、詳しくはすでに記事を書いているのでそちらを読んでほしい。 2回目は翌年9月1日、入社してちょうど10ヶ月たった日のことだ。またしても本番環境をぶっ飛ばした。しかも、前回より盛大に……。タイトルにもあるようにrsyncコマンドが原因だ。当記事では、この「rsy

rochefort 2020/01/03

rsyncはちょいちょい悲劇を産む

障害

リンク

稼働中の商用ネットワークでVRRPの切替検証を実施しちゃった話 - Qiita

ご挨拶初めまして @moriya-snj です。この記事は「本番環境でやらかしちゃった人 Advent Calendar 2019 - Qiita」の15日目の記事です。みなさん盛大にやらかしている様で安心しております。今回は私が社会人3ヶ月目でやらかした重大事故の記録を包み隠さず暴露するとともに当時フォローしてくださった先輩や上司お陰でなんとかこの業界で生き抜くこと出来ていることの感謝をお伝えすべく、キーボードに手を伸ばしております。何をしでかしたか顧客AがIP電話を導入するため、新たにVoIP用ネットワークを構築することとなった。機器の設置等は別部署が行うため、設置依頼を出し、完了の報告をもらったため、ネットワーク機器のコンフィグなどを流し込み疎通確認などを行うこととなった。疎通確認が完了し、お次はVRRPの切替確認を行おうとしたが、ここで誤って稼働中の顧客Bのネットワ

rochefort 2020/01/03

いい会社

障害

リンク

cron哀歌～typoを笑うものはtypoに泣く～他 - Qiita

この記事は「本番環境でやらかしちゃった人 Advent Calendar 2019」の12日目です。 https://qiita.com/advent-calendar/2019/yarakashi-production （想像以上に人気のカレンダーに参加してしまい、正直なところ、戦々恐々としております……）はじめにほとんどの方ははじめまして、 @NACK と申します。エンジニアになって何十年も経ちますが、未だに、ここに書いた「やらかし」は夢に見ます。皆さんにご笑覧いただいて、私も一緒に笑えるようになればいいなあ……と思い、今回の企画に参加させていただきました。というわけで、ぜひ笑いとばしていってください。もしくは、今後のみなさんの業務に、ほんの少しでもお役に立てれば幸いです。用語説明 typoとは入力ミスのこと。"typographical error"の略。 http:/

rochefort 2020/01/03

crontab -r オプションいらんやろ

障害

リンク

postgresのデータを盗まれた話 - のんびりやの日記

はじめにさっぶ。どうも、だーやまんです。この記事は、本番環境でやらかしちゃった人 Advent Calendar 2019 - Qiitaの11日目の記事です。これは、中途半端な知識でサービスを運用していた結果、タイトル通りの大失敗をしてしまったお話です。個人開発での出来事なので、業務で起きたことかと胃薬を握られていた方はご安心ください。語るのもすごい恥ずかしいレベルですが、戒めのために晒しておきます。この記事を読んでほしい人初めてインターネット上にサービスを公開しようとしている人喋太郎の利用者様(この場をお借りして、改めてお詫び申し上げます。本当に申し訳ございませんでした。) 背景とか Discord読み上げBot 「喋太郎」にてやらかしました www.dayaman.work 利用者が約10万人さくらのVPSにてAppサーバ2台、DBサーバ1台で運用各サーバの死活監視

rochefort 2020/01/03

インターネット経由でのDBアクセスは中々香ばしい

障害

リンク

VSCodeの操作ミスでGCP Cloud Composerの裏側k8sをお掃除した話 - Qiita

tl;dr 筆者はvim派でVSCode初心者。でも勧められたので数カ月ぶりに起動してみた。 Pluginを色々入れていたので、サイドバーにはたくさんのアイコン。なにこれ楽しい。 Cloud Codeタブを触っていたら…指先が震えてトラックパッド誤操作。「Delete Cluster」を押してしまう。その時たまたま偶然、GCPのオーナー権限を持つIAMで認証していた。盛大にやらかして復旧が手間だったが、いくつかの理由で障害として顕在化しなかった。というお話何をやらかしたのかやらかし当時、筆者はGCPでデータ処理基盤の開発を行っていました。vimとzshが大好きで、開発のすべてをこの2つで済ませてましたが、同僚にVSCodeを猛プッシュされたので使ってみることにしました。 VSCodeは数ヶ月前にインストールしたもののそのときは結局使わず。数ヶ月ぶりの起動でした。インストール時に

rochefort 2020/01/03

これは怖い

障害

リンク

GCP Projectを消しちゃった話 - 839の日記

この記事は「本番環境でやらかしちゃった人 Advent Calendar 2019」の7日目です。 qiita.com 個人の趣味でやっていたやらかしなので、あまり大した内容ではありませんがご容赦ください。。背景趣味で運用していたVPSのサーバをGKEに移そうとしていました。段階的に移行を進めていたため問題が発生した時点ではapp群はVPSで動いており、Cloud DNSのみGCPに移行済みな状態でした。なぜ起こったのか Firebaseのプロジェクトを消してしまい、それに伴ってGCP側のプロジェクトも消えてしまいました。背景に記載した通り、段階的に移行を進めていたことと以下のような理由が重なり消した直後は気づいていませんでした。 HTTPアクセスによる外形監視を入れていなかったため、VPS上のサービスが接続不可になっていることに気づかなかった VPS上のプロセス監視(macke

rochefort 2020/01/03

gcp
障害

リンク

crontab database ～君がしでかしてくれたもの～ - Qiita

この記事は本番環境でやらかしちゃった人のアドベントカレンダー２日目の記事です。内容的にそろそろ時効だと思うので供養のために書きました。追記。そういえば時期をちゃんと書いてなかったけど事件が起きたのは去年2018年、つまり仕込み（ヲイ）は2017年の話ですぶっちゃけネタ記事ですｗ（たまたま見つけて参加してみただけなのに昨日の記事の伸びっぷりを見て戦々恐々としてる TL;DR DB移行作業において、テスト期間中は常に最新のデータで処理できるように書いておいたプログラムをcrontabで実行していた。最終的に本番に合わせて日時を調整していたが、そのことを失念し１年後に再実行されてしまい、本番データが１年前に巻き戻る事故発生。 crontab は分、時、日、月、曜日を指定できるが、１年後に帰ってくるから気をつけてね。という話。惨劇はなぜおこってしまったのか結論から言えばcrontabの

rochefort 2020/01/03

障害

リンク

いつものように本番作業してたはずなのに - Qiita

この記事は「本番環境でやらかしちゃった人 Advent Calendar 2019」の1日目です。 https://qiita.com/advent-calendar/2019/yarakashi-production なかなか濃いラインナップが期待されますが、まずはさらっといきたいと思います。具体性が乏しい部分もあると思いますが、そこはお察しください。。。やらかし背景（前提条件）いっていに昔の話です ETL（データ加工）サーバ数十を超えるシステムからデータを集める BIツールなどで活用できるように各種加工処理を行い、DBなどにロードする繁忙の違いはあれど、24/365で常時一定量の処理は稼働している複数のチームが共存しているサーバアプリ面では比較的疎 ETL処理のリリース前に本番サーバ上で試験をする取り決めになっていた性能や本番相当データのテストが安全に行えるような環境

rochefort 2020/01/03

なかなかやなぁ

障害

リンク

Amazon EC2ダウンでInstagram等のWebサービスに障害発生

Instagram Support @InstagramHelp We're currently experiencing technical difficulties and we're working to correct the issues. Thanks for your patience 2012-06-30 12:16:03

rochefort 2012/06/30

ec2
障害

リンク

AWSの障害に起因したHerokuの障害について、Herokuによるレポートが公開されたので要点を翻訳しました（全訳ではありません）。「だ、... - Sooey

AWSの障害に起因したHerokuの障害について、Herokuによるレポートが公開されたので要点を翻訳しました（全訳ではありません）。「だ、である」調にしたため多少偉そうに見えるかもしれませんが、原文はとても誠実な表現で書かれていますので、その点は誤解なきよう。一部、文意が汲めなかった部分は原文を併記していますので、ご意見・ご指摘などがありましたら@junyaまでお願いします（@irohirokiさん、アドバイスありがとうございます）。 Resolved: Widespread Application Outage Herokuを4年間運用してきて最大の障害専用データベースを利用している大規模アプリケーションでは最大16時間のダウンタイム共有データベースを利用している小規模アプリケーションでは最大60時間のダウンタイムアプリケーションのデプロイについてはプラットフォームの広範囲にわ

rochefort 2012/05/20

リンク

Amazon Web Servicesの障害はなぜ起こったのかアマゾンが詳細な経緯と対策を発表 − ＠IT

2011/04/30 米Amazon Web Services（AWS）は米国時間4月29日午後、同社のブロックストレージサービス「Amazon Elastic Block Store（EBS）」および、リレーショナルデータベースサービスの「Amazon Relational Database Service（RDS）」における約4日間にわたる障害につき、詳細な経過報告と対策を発表した。これによると、障害のきっかけはネットワークの構成変更作業におけるミスだった。同社は今回の障害が複数のAvailability Zone（AZ）に影響を与えた理由も説明した。 AWSが発表した今回の障害に関する説明（英語） EBSはAWSの仮想サーバサービスであるAmazon EC2のインスタンスから、仮想ディスクとして使える永続ストレージサービス。実態としてはディスクを備えたノード（コンピュータ）の集合体を

rochefort 2012/04/04

コントロ

リンク

弊社データセンターにおける通信障害について｜プレスルーム｜日鉄ソリューションズ

本日9時30分頃、弊社データセンターにおいて通信障害が発生いたしました。この障害は、データセンター内のテナント様が行なっていた工事中に誤って回線を切断したことによるものです。この障害により、株式会社ディー・エヌ・エー様の「Mobage」を始めとするお客様サービスにアクセス障害が発生しており、現在、本日中に復旧すべく全力を挙げております。皆様には多大なご迷惑をお掛けし、お詫び申し上げます。以上

rochefort 2011/08/26

まぁ、別に暫く止まっても害ないっしょ

障害

リンク

HootSuiteやFoursquareがダウン　Amazon EC2にトラブルか

4月21日午後（日本時間）、Twitterクライアント「HootSuite」や位置情報ゲーム「Foursquare」などが相次いでダウンした。午後8時時点で復旧していない。各サービスが利用しているクラウドサービス、Amazon EC2にトラブルが生じているもようだ。 HootsuiteやFoursquareに加え、Q＆Aサイト「Quora」など、米国系の著名なサイトがこの影響でダウンしている。

rochefort 2011/04/22

うう、こわい

リンク

［速報］mixiが障害の経緯を発表。原因はお盆のアクセス急増ではなく、memcachedの異常終了

8月10日の17時20分頃から12日未明までの長時間にわたり、サービスが利用不能もしくは利用しにくい状況になっていた「mixi」。数度の断続的な復旧ののちに、本日12日午前1時50分頃には復旧が完了し、現時点で全面的に復旧しているようです。その障害の経緯について株式会社ミクシィの広報からプレスリリース「『mixi』のアクセス障害のお詫び及び復旧に関するお知らせ」として発表されました。原因はアクセスの急増ではなかったプレスリリースの中で、今回の障害の原因は以下のように説明されています。『mixi』のデータベースへの負荷軽減のために導入しているデータキャッシュシステムが複数同時に異常終了したことに伴い、データベースへの負荷が急増したため『mixi』を閲覧しづらい状態となりました。高負荷かつ特殊な状態でのみデータキャッシュシステムの異常終了が発生していたため、根本的な原因の究明に時間が

rochefort 2010/08/12

memcached側へはフィードバックされるんだろうけど、もう少し詳細知りたいなぁ。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (11)

障害に関するrochefortのブックマーク (18)

お知らせ

今週のはてなブックマーク数ランキング（2025年1月第2週）

月間はてなブックマーク数ランキング（2024年12月）

今週のはてなブックマーク数ランキング（2025年1月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス