タグ

監視に関するhiroomiのブックマーク (52)

  • 計測する前に観察せよ ~ Observe. Don't measure for monitoring until you've observed - An Epicurean

    エンジニア大好き「推測するな、計測せよ」。これは、Plan 9, UTF-8Goの作者としても知られる、Rob Pike氏の Rob Pikes's 5 Rules of ProgrammingのRule 3.に由来すると認識している。以下に原文を引用する。 Rule 3. Measure. Don't tune for speed until you've measured, and even then don't unless one part of the code overwhelms the rest. Rob Pike's 5 Rules of Programming 訳すと以下のようになる。 「計測せよ。計測するまでチューニングをするな、そしてそこが支配的じゃないならチューニングするな。」 要は「チューニングする前に計測せよ」という主張で「推測」と言う言葉は出てこない。なの

    計測する前に観察せよ ~ Observe. Don't measure for monitoring until you've observed - An Epicurean
    hiroomi
    hiroomi 2024/10/21
    ”OK・NGの二値を定期的にチェックする旧来の死活監視やチェック監視だけではシステムを健全に監視することは困難である。極力数値化してメトリクスに対する閾値を設けて監視”エラーの出続けてるのはそうなるな。
  • 効果的なオンコール対応と障害対応

    成果を出しながら成長する、アウトプット駆動のキャッチアップ術 / Output-driven catch-up techniques to grow while producing results

    効果的なオンコール対応と障害対応
    hiroomi
    hiroomi 2024/09/12
    どう監視してるのか、優先順位をどうつけてるのかかな。NTT系列の電話系の流れ組んでるところが、この手のルール使うとって使わないか…。監視業務、初動対応>課長叩き起こしの前に開発元
  • 今日から始めるPrometheusによるシステム監視(1) 〜Prometheusの特徴とアーキテクチャ〜 | さくらのナレッジ

    この記事は2021年3月6日に行われたオープンソースカンファレンス 2021 Online/Springにおける発表を文章化したものです。 今回は「今日から始めるPrometheusによるシステム監視」ということで、Prometheusというツールについてご紹介をしていこうかなと思います。皆さんに「Prometheus完全に理解した」と言えるようになっていただきたい、というのが今回の目標です。 連載は3で構成されていて、それぞれ以下の内容を扱います。 Prometheusの特徴とアーキテクチャ(この記事) PrometheusとCNCF、Observability Prometheusを使ってみよう Prometheusとは Prometheus(プロメテウス)は、SoundCloudという海外音楽系サービスのエンジニアによって開発された監視システムです。もともと、Kubernete

    今日から始めるPrometheusによるシステム監視(1) 〜Prometheusの特徴とアーキテクチャ〜 | さくらのナレッジ
    hiroomi
    hiroomi 2024/05/27
    Prometheusによるシステム監視
  • 「改札内で宿泊したくない」モバイルSuicaシステム障害 JR東「サイバー攻撃と断定」(テレビ朝日系(ANN)) - Yahoo!ニュース

    10日、モバイルSuicaなどが使えなくなるシステム障害が発生しました。JR東日は「サイバー攻撃だった」と断定しました。 ■チャージできなくて改札に入れない人も JR東日によりますと、モバイルSuicaへのログインやアプリでのチャージなどのサービスがつながりにくくなるシステム障害が発生しました。 バスに乗ろうとしてチャージできなかった人 「なんでチャージできないんだろうなって、ずっとぐるぐる回ってるんですよ。現金で支払って。2駅くらい乗った後にチャージが完了しましたって」 別の男性はこう話します。 チャージできなくて改札に入れない人 「そもそも駅内に入れない」 「(Q.残高は?)残高15円なので、帰れないですね」 渋谷駅からおよそ1時間半かけて、東京・あきる野市の武蔵五日市駅まで帰ろうとしたところ、チャージができない状態になったといいます。再びチャージを試みますが…。 チャージできなく

    「改札内で宿泊したくない」モバイルSuicaシステム障害 JR東「サイバー攻撃と断定」(テレビ朝日系(ANN)) - Yahoo!ニュース
    hiroomi
    hiroomi 2024/05/15
    ”現金で支払って。2駅くらい乗った後にチャージが完了しましたって”いたたまれない。機能の監視と、ボトルネックの見える化できるところも監視かな。国交省以外にも金融庁、総務省からも怒られろ。
  • 【AWS】ぼくのかんがえたさいきょうの運用・監視構成 - Qiita

    AWSのインフラを運用・監視する上で使いやすいと思ったサービスを組み合わせて構成図を作成しました。それぞれのサービスの簡単な説明と類似サービスの紹介、また構成の詳細について説明していきます。 (開発で使用するようなサービスも紹介しますが、あくまでも運用・監視だけの構成です。) 各個人・企業によって環境は違うと思いますし、使いやすいと思うサービスは人それぞれだと思うので、これが正解という訳ではありませんが、参考にしてただければ幸いです。 参考になった教材を紹介した記事も作成しました。是非読んでみてください! 【AWS】さいきょうの運用・監視構成を作成するのに参考になった書籍 インフラエンジニア1年生がプログラミングを勉強するのに使った教材 全体図 こちらがAWSにおける"ぼくのかんがえたさいきょうの"運用・監視構成です。複雑で分かりづらいかと思うので、詳細に説明していきます。最後まで読めばこ

    【AWS】ぼくのかんがえたさいきょうの運用・監視構成 - Qiita
  • 監視の考え方 〜あるいは可観測性とはなんなのか〜 - estie inside blog

    みなさん、監視作ってますか? システムを作ったら、そのシステムを監視していく必要がありますよね。どうやったら「いい監視」が作れるのでしょうか。「いい監視」とそうでない監視との違いとは、いったいなんでしょうか。 今の時代、「監視」ではなくて「可観測性」、 Observability (o11y) の時代になっていて、良いプラクティスや考え方が色々とあります。 この記事は、監視や o11y についての考え方を社内に共有するため書いたものを、社外共有用に調整し直したものです。新しい Observability の時代を、一緒に生きていきましょう。 監視を作ろう あなたはシステムを作りました。そのシステムに「監視」をつけようと思ったとき、最初にすることはなんでしょうか? まずは、システムを何らかのツールで監視するところから始めましょう。やらなきゃはじまらない。 Nagios, Cacti, Mun

    監視の考え方 〜あるいは可観測性とはなんなのか〜 - estie inside blog
    hiroomi
    hiroomi 2023/02/20
    “システムが「動いている」こと、ユーザがサービスを「利用できている」ことを見ることが基本になります。”
  • DNS権威サーバのクラウドサービス向けに行われた攻撃および対策 〜後編〜 | さくらのナレッジ

    さくらインターネットのSRE室で室長を務めている長野です。 前編の記事では、DNSサーバへの攻撃手法や、実際に発生したさくらのクラウドのDNSアプライアンスへの攻撃の様子を紹介しました。それに続く記事では、このような攻撃に対してどのような対策を行ってきたかを紹介します。 水責め攻撃への対応と対策 ではここから、最初の攻撃が去年の夏にあってから、どういう対応と対策をしてきたのかを紹介したいと思います。 スタンバイ側のVRRPデーモンの停止 初回を思い出すと、CPU負荷が非常に上がり、100%近いCPUを使うようになって名前解決が遅延し、タイムアウトしたというのが、最初のアラートとして上がりました。 その中でよくよく調べると、VRRPで冗長化をしているのですけれども、その切り替えがパタパタ発生していたんですね。PowerDNSが落ちてしまった、タイムアウトしたというので切り替わります。ところ

    DNS権威サーバのクラウドサービス向けに行われた攻撃および対策 〜後編〜 | さくらのナレッジ
    hiroomi
    hiroomi 2023/02/18
    “CPU負荷が非常に上がり、100%近いCPUを使うようになって名前解決が遅延し、タイムアウト”
  • 使う前に知っておくべきサーバレスの意外な短所

    回避すべき問題点 サーバレスの長所はかなり分かりやすい。リソースのプロビジョニングを気にする必要がなくなり、生産性が向上する。自身のコードが実行したリソースにしか課金されず、スケーリングはプラットフォームが自動的に処理する。 だがどのようなアーキテクチャにも欠点はある。サーバレスを検討している開発者やIT部門は行動を起こす前にそうした欠点を認識しておく必要がある。 明らかな欠点は、恐らく制御が及ばなくなることだ。

    使う前に知っておくべきサーバレスの意外な短所
    hiroomi
    hiroomi 2022/02/27
    “これを回避するために、時間制約の厳しい関数を定期的に呼び出して稼働状態を維持する定期イベント関数をコーディングする開発者もいる。 ”“サーバレスデプロイの監視 ”
  • 冷蔵庫のアラームがなり続けていて故障かと思い説明書を確認したら、意外な内容が書かれていて結果的に命拾いした「家電のアラームのおかげで助かってる…」

    いそめしちかこ @iso_meshi 日立の冷蔵庫のマニュアルを作った人に感謝したい話をします。 昨日冷蔵庫に巨大な白菜を入れた後から「ピピッピピッピピッピピッピピッ」というアラームが2分おきぐらいに鳴り続けるようになったんです。 閉め忘れ防止アラームかな?と思って扉を何度も確認したけど、音が止まず。もしや壊れた?→ 2021-12-19 09:13:34 いそめしちかこ @iso_meshi と思って説明書を出してきました。そしたら、「ピピッ」5回のアラームについては記述がない。 その代わりに「近くに音の出る家電はありませんか?」って項目があったんですよね。 それで、冷蔵庫から少し視点を外してみたら、なんと、ガスコンロのグリルが空焚き状態になってたんです…😱→ 2021-12-19 09:13:35 いそめしちかこ @iso_meshi 屈んだ時に腰が当たってうっかりスイッチがオンにな

    冷蔵庫のアラームがなり続けていて故障かと思い説明書を確認したら、意外な内容が書かれていて結果的に命拾いした「家電のアラームのおかげで助かってる…」
    hiroomi
    hiroomi 2021/12/20
    “ガスコンロのグリルが空焚き状態になってたんです”エネルギー消費するもの使うときは、証明つけっぱなしでもよさそうね。
  • シンプル監視 | さくらのクラウド マニュアル

    概要¶ 「シンプル監視」は、設定した監視方法・監視間隔でサーバなどに対してのネットワーク疎通監視(ping, tcp)やアプリケーション監視(http, smtpなど)を行ったり、さくらのクラウドの請求情報から課金額の監視を行い、疎通が無くなったりしきい値を超えた場合に任意の通知方法でお客様に連絡するサービスです。 サービス仕様の詳細については以下の通りです。

    シンプル監視 | さくらのクラウド マニュアル
  • 「こういうのでいいんだよ こういうので」廃棄防止に開発されたワクチン保管用冷凍庫の温度を自動的に監視するシステムが「分かる人ほど唸る」代物だった

    さらしる @sarasiru ワクチン廃棄防止へ 冷凍庫の温度自動監視システム導入 埼玉 www3.nhk.or.jp/news/html/2021… 自動監視!冷蔵庫に温度監視APIとか組み込んであるのか!?とか思ったら温度計をwebcamが監視しているという絵面で「そうきたかー」と思った。 pic.twitter.com/PwCsqKgkyv 2021-06-10 22:35:30

    「こういうのでいいんだよ こういうので」廃棄防止に開発されたワクチン保管用冷凍庫の温度を自動的に監視するシステムが「分かる人ほど唸る」代物だった
    hiroomi
    hiroomi 2021/06/12
    ”遠方地のボイラーや電気室のメーターを監視するシステムも同じような感じの”あーお手軽に、確実に監視して、アラートが上がったら適切処置。組み込んだのに買い直す、もしくは、にしてもそもそもあるの。
  • 米NY市警、ロボット犬の運用中止 反発の声強く

    【4月30日 AFP】米ニューヨーク市警(NYPD)は29日、今年2月から事件現場に試験導入した犬型ロボット「デジドッグ(Digidog)」について、運用を中止すると発表した。導入をめぐって市民から反発の声が上がっていた。 NYPDはAFPに対し、デジドッグの開発元である米企業ボストン・ダイナミクス(Boston Dynamics)との契約を4月22日で終了したことを認めた。当初の契約は8月末までで、契約金は9万4000ドル(約1020万円)だった。 デジドッグは、ボストン・ダイナミクスのロボット犬「スポット(Spot)」をNYPDが昨年レンタルし、カスタマイズした機体。遠隔操作が可能で、足場の悪い場所を移動したり障害物をよけたりしながら周囲を写真・動画で撮影し、情報を収集できる。NYPDは、AI人工知能)を搭載したデジドッグが「人命を救い、人々を守り、警官を守る」助けになるとうたってい

    米NY市警、ロボット犬の運用中止 反発の声強く
    hiroomi
    hiroomi 2021/05/02
    “立てこもり事件でもデジドッグを活用した。 反対派は、ロボット犬の導入で米警察当局の軍事化が浮き彫りになったと批判。”いきなりレベル上げると反感をかうから、敷地内巡回で警告と呼び出しからスタートか。
  • 監視の設定方法(一覧)

  • ゼロからはじめるAzure(14) Application Insightsを使ったアプリケーションの監視

    はじめに Application Insightsは、Webアプリケーションのパフォーマンス管理のためのAzureのサービスです。さまざまなアプリケーションと統合して、パフォーマンス状況の集計や異常の検知などを一括で管理することができる横断的なソリューションとなっています。今回は、サンプルアプリケーションにApplication Insightsを統合し、さまざまなデータの収集と確認方法やアラームの通知方法などについて説明していきます。 Application Insightsとは Application Insightsは、一般的にAPM(アプリケーション性能管理)ツールと呼ばれる製品のひとつです。APMツールはログの収集、アプリケーションの応答時間やレスポンス状態の監視を通してアプリケーションの稼働状況の管理を行います。稼働状況のデータを収集することで、アプリケーションに異常が発生した

    ゼロからはじめるAzure(14) Application Insightsを使ったアプリケーションの監視
  • Microsoftのオンライン会議ツール「Microsoft Teams」がダウン

    Microsoftのオンライン会議ツールである「Microsoft Teams」が、一時的にダウンして使用不可となりました。障害発生の原因はMicrosoft 365の認証システムに行ったアップデートにあるようです。 Microsoft Teams is still recovering after an outage Monday afternoon - The Verge https://www.theverge.com/2021/3/15/22332539/microsoft-teams-down-outage-connectivity-issues Microsoft Teamsが使用できなくなったのは日時間で2021年3月16日の5時30分頃ですが、それ以前からMicrosoftは「Microsoft 365へのアクセス」に問題が生じていたことを検知しており、同日の4時40分に

    Microsoftのオンライン会議ツール「Microsoft Teams」がダウン
    hiroomi
    hiroomi 2021/03/17
    “日本時間で2021年3月16日の5時30分頃ですが、それ以前からMicrosoftは「Microsoft 365へのアクセス」に問題が生じていたことを検知”
  • プラグイン:Site24x7

    プラグインでアプリスタック全体の監視と統合を実現 新しい技術の登場に合わせて日々増え続けるSite24x7のプラグインから選択することで機能拡張したり、ニーズに合わせて独自のプラグインを生成することにより、ビジネスに影響を及ぼす要素を網羅的に分析します。 サインアップするまずは無料でお試しください

    プラグイン:Site24x7
  • Site24x7

    Website Track uptime for website, APIs, and applications using synthetic checks.

    hiroomi
    hiroomi 2021/03/12
    日本語説明の「webサイト監視 サーバー監視 アプリケーション性能監視」の区分けが良かった。監視対象のアーキテクチャやものの見方、考え方で変わる。結果すぐ対応したいのと、翌営対応ぐらいは確認したい。
  • 監視ツールをZabbixからSite24x7に移行した話 | mmjテックブログ

    こんにちは、大学の教務システムの開発をしているエンジニアのaです。 mmjでは、昨年から今年にかけて監視ツールの全社的な移行を行いました。 これまではZabbixサーバを自前で立てて運用していましたが、このたびSaaSの監視サービスであるSite24x7を導入しました。 この記事で監視ツールの技術選定と、次のブログでSite24x7プラグインの自作方法を簡易的にお伝えしようと思います。 Site24x7とはなにか Site24x7とは、Zoho社によって開発されたクラウド監視ツールです。 AWSなどのクラウド環境とオンプレミス環境の両方に対応しています。 https://www.site24x7.jp/ 移行の理由 移行の理由として、大きく以下の点が挙げられます。 ・Zabbixは自前でサーバを運用する必要があり、管理コストがかかり続ける ・Zabbix独自のUIや概念がわかりづらく、学習

    監視ツールをZabbixからSite24x7に移行した話 | mmjテックブログ
    hiroomi
    hiroomi 2021/03/12
    “東京・長野・大阪の3箇所から死活監視を行い、3ロケーション全部で障害が出たら、みたいな判断にすることで、監視側での問題ではないことを保証できます”
  • Microsoft 365 (旧称 Office 365)監視をツールで簡単に実現 | M365 Manager Plus

    クラウド型ワークスペースでサービスが停止した場合、事象の把握をサービスプロバイダーに依存しなければならないことにうんざりしていませんか?私達は、サービスプロバイダーのほとんどが、サービス停止、ユーザーアクション、および、即座の対応が必要な他の重要情報に対して、即時にアラートを送信しないことを知っています。 私達がMicrosoft 365 (旧称 Office 365)用の完璧なソリューション、M365 Manager Plusを作り上げたのはそのためです。必要に応じてアラートを受信ボックスに通知します。レポートはスケジュール化して、PDFHTML、XLS、またはCSV形式でエクスポートできます。更にM365 Manager PlusはPowerShellスクリプティングの実行が不要です。必要なのはM365 Manager PlusでMicrosoft 365アカウントを構成して、後は私

  • ZABBIXの通知メールをスレッド化してみる | Pocketstudio.jp log3

    監視ツール ZABBIX には、トリガ(障害)発生時にメールを送信する機能があります。ただ、このメールはスレッド化(階層化)されません。通知・復旧毎にメールを送信している場合や、複数の監視環境が入り乱れてしまうと、どのアラートが対応中で、どのアラートが復旧しているのか、状況確認に手間取る場合があります。↓大量に届く通知メールの想像イメージ もしも、ZABBIXのメールがスレッド化していたら、仕事が楽になるのになぁ…と思い、少しスクリプトを書いてみました。少々甘いところはありそうですが、ひとまず自分が必要な機能は実装できたので、公開します。 ■ZABBIXの通知メールをスレッド化したい!概要 まずはじめに、メーラーで表示されるメールをスレッド化するために必要なものは、RFC 2822 で定義されています。やりたい事はシンプル。ZABBIXが通知するメール毎に、ヘッダを付与するだけで、スレッド

    hiroomi
    hiroomi 2020/10/19
    “Message-ID: を作成し、関連するメールは、すべてこの Message-ID に対する Reference: を指定するだけです。”