第10回Cassandra勉強会にて発表したスライドに、勉強会後のフィードバックを反映させた物です。Read less
はじめに ネットワークに接続されたセンサ機器の普及により、IoT(Internet of Things)が注目を集めています。IoTでは様々なセンサ機器が膨大なデータを生成するため、システムが管理するデータ量は急激に増加しています。このような膨大なデータを管理するためのデータストアとして、RDBと比較して高い性能とスケーラビリティを持つNoSQLが注目を集めています。 「Apache HBase」(以降、HBase)はNoSQLの1つで、センサ機器が生成する時系列データを管理するための有力なデータストアとして注目されています。本連載では、HBaseを用いたシステム設計のノウハウと、1,000万個のスマートメータから収集したデータによる性能検証の結果を紹介します。 今回は、まずNoSQLにおけるHBaseの位置付けを説明し、その後でHBaseの概要とアーキテクチャについて説明します。 NoS
題名そのまま。repairの挙動をdatastaxのドキュメント読んでも良く分からない、ヽ(`Д´#)ノ ムキー!!となっている所をまたも@yukimさんに教えて貰いました。 なので忘れないようにメモです。 nodetool repairとは nodetool --helpで出力されている使い方は以下の通り repair [keyspace] [cfnames] - Repair one or more column family (use -pr to repair only the first range returned by the partitioner) 直訳すると一つ以上のcolumn familyを修復します。-prオプションを付けて実行するとパーティショナーの初めのレンジだけrepairを実行しますこの直訳だけではなんのこっちゃですね。 repairを実行する目的 rep
Cassandra の Column Family は、全体としては以下のような2次元のMapのような構造をしています。 上記の RowKey は CQL では Partition Keyと呼ばれていて、この Partition Key 単位でノードにデータが配置されます。 また、CQLでは主キーかつPartition Keyでない ColumnKey をClustering Columnと呼んでいます (名前の通り、あるPartition中でこのキーでKVの塊をつくるから)。 単一パーティションにread/write が大量に発生すると、特定のノードの負荷が上がることになります。 負荷分散を考慮してPartition Keyを決める必要があります。 refs: http://ameblo.jp/principia-ca/entry-11886808914.html CQL で作ったデータ
NoSQL データベースは特定のデータモデル専用に構築されており、最新のアプリケーションに合わせて簡単にスケールできる柔軟なスキーマにデータを格納します。NoSQL データベースは、開発、機能性、パフォーマンスを大規模かつ容易に実現できるという点で広く評価されています。このページには、NoSQL データベースを理解して使用するための参考資料が含まれています。 モダンアプリケーションは、NoSQL データベースで解決できるいくつかの課題に直面しています。例えば、アプリケーションは、ソーシャルメディア、スマートセンサー、サードパーティのデータベースなどのさまざまなソースからの大量のデータを処理します。このような異なるデータのすべてが、リレーショナルモデルにきちんと合うわけではありません。表形式の構造を適用すると、冗長性、データの重複、および大規模なパフォーマンスの問題が発生する可能性があります
List of Time Series Databases Updated: Dec 2019 This is not an exhaustive list. I am no longer actively maintaining this list. Open source These are either time series databases or general-purpose databases that work well with time series. Some are layers on top of existing databases. Aerospike High performance, in-memory, NoSQL Akumuli Written in C++ Query language based on JSON over HTTP Can be
↓↓↓↓訂正あります。↓↓↓↓ 2018/07/02に株式会社エフコード社内で行われた勉強会のスライドです。 訂正版(随時更新中): https://docs.google.com/presentation/d/15HOMfAbtdWwO48njcB8IdkN3kVAMu3wsmZo0O3S-f_4/edit?usp=sharing 専門家による資料・専門家向けの資料ではありません。自分自身で学習し、論文・文献等を読解してまとめた内容となります。間違い等あるかもしれませんが、あれば是非コメント頂ければと思います。 【訂正事項】 スライド16: 誤:たった一つのプロセスが故障しただけでも有限時間で合意できない 正:たった一つのプロセスが故障しうるだけでも有限時間で合意できない スライド20: 誤: 重要: あるschedule σ1, σ2 がdisjoint (nodeが被ってない) なら
Cassandraのストレージエンジンを入れ替えて高速化した「Rocksandra」、Instagramがオープンソースで公開。Javaのガベージコレクションによる遅延を大幅に解消 Instagramは、NoSQLデータベースのCassandraで発生していたJavaのガベージコレクションに起因する遅延を解消し、高速化した改良版Cassandraをオープンソースで公開したと発表しました。 ストレージエンジンとしてキーバリューストアの「RocksDB」を用いたことから、同社はこの改良版Cassandraを「Rocksandra」と呼んでいます。 JavaのガベージコレクションがCassandraの遅延を発生させている 同社がRocksandraの開発に至った経緯は、エンジニアブログ「Open-sourcing a 10x reduction in Apache Cassandra tail
この記事はリクルートライフスタイル Advent Calendar 2016の25日目の記事です。 データエンジニアリンググループ・ゆるふわAwesome機械学習エンジニアのtomomotoです。主にデータ分析や機械学習を中心に、データ活用を推進したり、システム開発したり、フリー素材になったりしています。 本記事では、今更ではありますが、KVSの仕組み概要について、HBaseとCassandraを例にして紹介したいと思います。(仕事、クリスマス、結婚記念日、何も関係ないです!) KVSとは そもそもKVSとは、なんでしょうか?名前の通りKeyValueStoreであることが条件だとすると、KeyからValueをとってくるDataBaseということになりますが、それで十分なのでしょうか?そうするとファイル名(Key)でファイル情報(Value)をとってくるファイルシステムもKVSということに
Cassandra Day - Tokyo 開催 日本Cassandraコミュニティが協力するDatastax社主催の「Cassandra Day - Tokyo」が6月1日にウェスティンホテル東京にて開催されます。詳細及び申込は以下のUR...
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog システム統括本部アーキテクト室 今野です。 昨年は、Twitter,Facebookを始めとするクラウド各社で新規の分散システム開発のプロジェクトが相次いで発表された年でした。これらの新しい分散システムを開発する理由や、その背景にあるものは何なのでしょうか? 今回は、昨年末に開催された高信頼性分散システム系の国際学会であるSRDS 2014[1]の発表内容に関連する論文の話題も踏まえて、昨今のクラウド各社の分散システムの動向について整理してみます。 分散システムにおけるクラウド各社の動向 近年の分散データベースの世界では、AmazonのDynamo[2]やFacebookのCassandra[3]などを代表とする結果整合性(Eve
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く