Online-Dokumentation, die hilft: Strukturen, Prozesse, Tools
Online-Dokumentation, die hilft: Strukturen, Prozesse, Tools
AWSのログ管理についてはいくつか考えるポイントがあると思います。 どのログを保存するか。 CloudWatch Logs(以下CW Logsと記載)とS3のどちらに保存するか、もしくは両方に保存するか などなど。 システムの特性によるところも多いかと思いますが、自分の中でのログ管理のベースラインが定まりつつあるので、頭の整理がてらまとめます。 自分の中での大まかな方針としては以下です。 S3に保存できるものは基本S3に保存する。 以下の場合は、CW Logsに保存する。必要に応じてS3に転送する。 アラームを出したい場合 さっとCW Logs Insightでログを確認したい場合 CW Logs に出さざるを得ない場合 全体像としては以下になります。 なおあくまで個人的な経験に基づくものなので、実際にはシステムの特性を踏まえて方針の決定が必要かと思います。 またこれは必要、これは不要など
Amazon Web Services (以下AWS)の利用開始時にやるべき設定作業を解説します。AWSの利用開始とは、AWSアカウントの開設を意味しますが、より安全に利用するため、AWSアカウント開設直後にやるべき設定がいくつかあります。この連載ではその設定内容を説明します。 AWS Organizationsを使用することで、複数のアカウントに自動的にこういった初期設定を行うことも可能ですが、この連載では新規で1アカウントを作成した場合を前提とします。複数アカウントの場合も、基本的な考え方は同じになります。 設定作業は全19個あり、作業内容の難しさや必要性に応じて以下3つに分類しています。 少なくともMUSTの作業については実施するようにしましょう。 MUST :アカウント開設後に必ず実施すべき作業 SHOULD :設定内容の検討または利用方法を決定のうえ、可能な限り実施すべき作業 B
こんにちは、AI 基盤部の大谷です。 最近は兼務で MLOps 以外にも様々なシステムを構築しています。 弊社では全社的にオンプレミスからクラウドに、よりマネージドに寄せていこうという大きな指針が定められています。 (参考: フルスイングの記事 ) しかし、古くから運用されているサービスなどでは、未だにオンプレミスで構築されているものも少なくありません。 また、クラウドにホストされている場合でも、マネージドサービスを完全に活用しきれていない場合もあり、EC2 ベースの IaaS な構成はまだまだ多く存在しています。 とあるサービスでも、クラウド化はされているものの、マネージドサービスを活用しきれていないメール配信システムが運用されていました。 一般にメール配信システムは、挙動の違う複数のメールプロバイダにスムーズに配信するために多くのことを気にする必要があり、その分管理コストも高くなりがち
処理が複雑でジョブの依存関係を定義したい場合は、AWS Batch 単体で制御するか、より複雑な場合は Step Functions を用いて Lambda、ECS(Fargate)、AWS Batch(Fargate) を組み合わせる。 AWSにおけるバッチ処理の選択肢 ざっくりとした選択肢は下記。 Lambda ECS(Fargate) AWS Batch(Fargate) これらのサービスに実際は SQS や Step Functions を組み合わせることもあるので選択肢はさらに広がる。 ちなみに、SQS + Fargate(常時起動でポーリング) という構成や、SQS + Lambda + Fargate(都度実行) という構成は、AWS Batch が Fargate に対応した現在は特にメリットがないので取り扱わない。 2021/5/2 追記 「常時リクエストがくるユースケー
[AWS][Fargate]ECS Scheduled TasksによるNAT Gatewayの通信費肥大化について投稿者: adachin 投稿日: 2021/04/082021/04/08 まずはNAT Gatewayの膨大な通信費を見てほしい….(驚愕) ECS/FargateでECS Scheduled Tasksを運用していると、NAT Gatewayの通信費が膨大にかかってしまうことがあると思います。今回はこちらをどのようにコストを削減したのかブログしたいと思いますので、ぜひ参考にしてみてください。まずは経緯から! 経緯 改善する前の構成図を書いてみました。ECS/Fargateで動作しているAppコンテナ(Private subnet)ですが、デプロイ時やECS Scheduled TasksでのバッチはNAT Gatewayを経由してECRからDocker imageをpu
Cloud Operator Days Tokyo は、クラウドの運用者に焦点を当てた技術者向けの新しいテックイベントです。AWS環境の運用を手がけるアイレット株式会社のインフラエンジニア古屋氏が、実際にやってしまったしくじりを紹介。原因と対策を語ります。まずは「Athenaで170万円請求」「EC2が復旧できない」 というしくじりから。(全2回) しくじり先生 on AWS 古屋啓介氏(以下、古屋):では「しくじり先生 on AWS」ということで、始めたいと思います。よろしくお願いします。今日は、AWS環境を使って日々運用していく中で発生した、しくじり、失敗事例。そしてそのしくじりの原因と、そこから得られた教訓についてお伝えしようと思います。 今日このお話を聞いたみなさんの中で「あ、うちの環境どうっだったかな?」と、思われる方もいらっしゃるかもしれません。今日お伝えすることの中で、ちょっ
こちらは iRidge Advent Calendar 2020 20 日目の記事です。 サーバーサイドエンジニアの @orfx がお送りします。 TL;DR AWS の NAT ゲートウェイには通信のアイドル状態が350秒以上続くと、タイムアウトする仕様があります。 インターネット接続が 350 秒後に中断される 問題 インスタンスはインターネットにアクセスできますが、350 秒後に接続が切断されます。 原因 NAT ゲートウェイを使用する接続が 350 秒以上アイドル状態のままになっていると、その接続はタイムアウトします。 ソリューション 接続が中断されないように、接続を介して追加のトラフィックを開始することができます。または、インスタンスで、350 秒未満の値で TCP キープアライブを有効にできます。 NAT ゲートウェイのトラブルシューティング この仕様によって、例えばリクエスト
※ 2020-12-22 追記あり はじめに この記事は GLOBIS Advent Calendar 2020 - Qiita 17日目の記事です。 GLOBIS SRE チームでは2020年初頭より、 Kubernetes (Amazon EKS) を用いたインフラ環境の全面的な刷新に取り組んでいます。この新たな環境では Infrastructure as Code で環境の9割はコード化するという目標を立てており、 Terraform を積極的に活用しています。 この記事では、そんな弊チームでの Terraform の使い方についてまとめていきます。書き始めたら書きたいことが湯水のように湧いてきてしまったので、FAQ形式でまとめてみました。気になるところを拾い読みしてみてください。 Terraform 全般 Q. Terraform で何を管理していますか AWS がメインの環境なの
秋のスポットインスタンス祭り ~ そろそろクラウドネイティブなコスト最適化はじめてみませんか? 発表資料です https://awsj-compute.connpass.com/event/192302/
こんにちは、スタディサプリ ENGLISH SREグループの大島です。 オンライン英語学習サービスであるスタディサプリ ENGLISHは2015年10月のリリース1)当時は英語サプリという名前でリリースしていましたから5年が経ち、おかげさまでサービスを拡充させることができています。リリース当初からインフラにはコンテナを採用し、長い間AWSのコンテナオーケストレーションサービスのAmazon Elastic Container Service(以下、ECS)で運用してきましたが、この度ECSからAmazon Elastic Kubernetes Service(以下、EKS)に移行しました。 今回の記事では、その歴史の変遷となぜEKSにしたのかというところを書いていきたいと思います。 コンテナと歩んできた5年間 まず、ECSからEKSに移行しようと思ったきっかけの前に、インフラの歴史を少し振
AWS Lambdaの環境がどのようになっているか、ユーザが用意したLambdaファンクションがどんな感じで実行されるかってあたりを可能な限り詳しく説明したいと思います。 はじめに 大前提 コールドスタート/ウォームスタート コントロールプレーン/データプレーン アイソレーション AWS Lambdaのコンポーネント群 同期実行かつ初回呼び出し(コールドスタート)、もしくはスケーリング 同期実行かつ再利用(ウォームスタート) 非同期実行 スケールアップ エラーハンドリング リトライ その他 ネットワーク まとめ はじめに この投稿は2020年9月29日の21時から開催予定のイベント(ライブストリーミング)で話す内容です。 serverless-newworld.connpass.com もし間に合えば、かつ時間があればぜひライブ配信のほうにも参加ください。 (2020.09.30 upda
こちらのコールドスタート関連については弊社岩田の資料が大変わかりやすいのでオススメです。 Serverless Meetup Osaka #5 で「VPC Lambda×RDSのデメリットについて正しく理解しよう!!」というテーマで発表してきました #serverlessosaka | DevelopersIO では次のコードを見てください。 import time class sleep_class(): def __init__(self): time.sleep(2.0) self.init_time = time.time() def lambda_handler(event, context): s = sleep_class() print(s.init_time) 初期化に2秒ほどかかるsleepクラスがあります。これをLambdaで複数回実行すると次のような結果になります。
Lambdaのhandler外に、ライブラリの初期化コードなどを書く場合があります。 普段、何気なく書いていますが、Lambdaの仕組み的にhandler外(メソッド以外)のコードはコールドスタート時の1回だけ実行されます。 そのため、「現在時刻を変数に初期設定したとき、意図的に更新しない限り、Lambdaが複数回実行されても同じ時刻を指す」という状態になったりします。 注意:同じLambda環境の場合です。新しいLambda環境で実行される場合(スケールアウト、コード変更、時間経過など)は、それぞれのLambda環境で1回目と2回目以降で同様です。 実際に試してみました。 最初に結論 弊社岩田の資料より 下記の発表資料が超わかりやすいです!(他の内容もタメになるのでおすすめです!) Serverless Meetup Osaka #5 で「VPC Lambda×RDSのデメリットについて
こんにちは(U・ω・U) AWS事業部の深澤です。 さて僕はこれまで次のようなブログを書いてきました。 全部で15ポイントもあるのですが、今までの中から厳選して5つの特に注意したいポイントをピックアップしオンライン開催されたJAWS DAYS 2020のランチセッションで登壇/発表してきました。 資料 動画 解説 ポイント1: 通信費 AWSではわずかではありますが、通信を行うと課金が発生します。AWSから外への通信は$0.114(12.33円)/GB、リージョン間通信の場合は$0.09(9.74円)/GB、同一リージョンであっても異なるAZへの通信は$0.01/GB(1.08円)です。 こちらはEC2だけでなく他のサービスも含めたサービス間通信の合計であることに注意してください。ディザスタリカバリで複数リージョンに跨ったりログを他のリージョンに転送したりして意外と料金が上がりがちです。
技術部 SRE グループの鈴木 (id:eagletmt) です。クックパッドでは Codenize.tools を用いて様々なリソースをコードで管理してきましたが、現在では大部分が Terraform へと移行しています。Terraform の使い方等については既に沢山のドキュメントや紹介記事があるので本エントリでは触れず、なぜ Terraform へと移行しているのか、どのように Terraform を利用しているのかについて書いていきます。 Terraform 移行の理由 クックパッドでは自分と同じく SRE グループに所属している菅原 (id:winebarrel) によって開発された Codenize.tools のツール群を利用して IAM、Route 53、CloudWatch Alarm、CloudWatch Events 等をコードで管理し、いわゆる GitOps を実践
TL; DR 以前、社内向けにDocker/Kubernetes入門の勉強会を開催したのですが、今回はそれに引き続き、AWS Fargateに関する勉強会を開きました。 speakerdeck.com 資料の目的 前回の勉強会の資料についてはこちらをご覧ください。 inductor.hatenablog.com 今回の勉強会については、前回Kubernetesに入門してからそこそこ概要を理解した前提で、AWSのマネージドサービスであるECSやFargateの実態や、その特徴について理解してもらうために開きました。 ECS初心者がつまづきがちな、FargateとECSを比較してしまう問題や、そもそもECSというサービスの立ち位置などについて改めて解説した資料となっています。 インフラ向けではありますが、開発者が見てもわかりやすくなるよういくつか前提知識のスライドも含めていますので、もしよけれ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く