「Apache Spark」は、データエンジニアリングや機械学習のワークロード用の非常に人気が高い実行フレームワークだ。Databricksのプラットフォームに利用され、「Azure HDInsight」「Amazon EMR」「Google Cloud Dataproc」など、オンプレミスとクラウドベースの両方の「Hadoop」サービスで利用できる。また、「Mesos」クラスタでも実行できる。 だが、Mesosを使わず、「Hadoop YARN」の文字列を付加することなしに「Kubernetres」(k8s)クラスタでSparkのワークロードを実行したい場合はどうなのだろうか?Sparkはまず、バージョン2.3のリリースでKubernetes固有の機能を追加し、バージョン2.4でそれを改善したが、完全に統合された方法で、Sparkをk8sでネイティブで実行させるのは、まだ難しい場合がある
Try Red Hat products and technologies without setup or configuration fees for 30 days with this shared Openshift and Kubernetes cluster.
Apache Sparkを、Apache Groovy+Grapesを使って、スクリプトで動かしてみようかなと。 いや、ローカル動作でいいので、少しお手軽にApache Sparkを使う方法が欲しくてですね…。 サンプルとしては、こちらのドキュメントを見ながらGroovyスクリプトにしていこうと思います。 Spark SQL, DataFrames and Datasets Guide / Data Sources CSVファイルを読んでみる例ですね。 ドキュメントと同じく、CSVファイルはexampleのものを使用してみます。 $ wget https://raw.githubusercontent.com/apache/spark/master/examples/src/main/resources/people.csv こんなやつですね。 people.csv name;age;jo
Get emerging insights on innovative technology straight to your inbox. At Banzai Cloud we run and deploy containerized applications to our PaaS, Pipeline. Java or JVM-based workloads, are among the notable workloads deployed to Pipeline, so getting them right is pretty important for us and our users. Java/JVM based workloads on Kubernetes with Pipeline Why my Java application is OOMKilled Deployin
A powerful new IDE to build, test, and run Apache Spark applications on your desktop for free! Build enterprise-grade functionally rich Spark applications with the aid of an intuitive drag-and-drop user interface and a wide array of pre-built Spark operators. Sponsored Post. Apache Spark is one of the most popular big data frameworks today. Even though Spark’s popularity has grown significantly, u
The content of this page hasn't been updated for years and might refer to discontinued products and projects. Apache Spark on Kubernetes series: Introduction to Spark on Kubernetes Scaling Spark made simple on Kubernetes The anatomy of Spark applications on Kubernetes Monitoring Apache Spark with Prometheus Spark History Server on Kubernetes Spark scheduling on Kubernetes demystified Spark Streami
Amazon Web Services ブログ AWS Glue – 一般提供開始 本日、AWS Glue の一般提供開始がアナウンスされました。Glue はフルマネージドでサーバレス、そして、クラウド最適化された ETL(extract, transform, load) サービスです。Glue は他の ETL サービスやプラットフォームと、いくつかのとても重要な点で違いがあります。第1に、Glue はサーバレスです — リソースのプロビジョニングや管理を行う必要はありません。ジョブ、もしくは、クローリングを実行している間に Glue が使用したリソースに対する支払いのみで利用可能です(分単位課金) 。第2に、Glue のクローラです。 Glue のクローラは、複数のデータソース、データタイプ、そして、様々な種類のパーティションを跨いで、スキーマを自動的に検出・推測することができます。ク
Sparkでデータ処理プログラムを書くためのAPIには、RDDとDataFrameの二種類がある。2つのAPIを用いてwordcountを書いてみる。wordcountは、テキスト中の単語の出現回数を数えるプログラムであり、分散データ処理の必修課題である。 RDDは低レベルなAPIで、データのレコードにはスキーマがない。データ処理は、map関数やflatMap関数などリスト処理的な高階関数によって記述する。reduceByKeyなどいくつかの操作は、レコードが(key, value)のタプルであることを要求するが、その検査はジョブ投入時ではなく、タスク実行時に行われる。総じて、古式ゆかしいMapReduceの感覚で扱える。 DataFrameは高レベルのAPIで、データのレコードにはスキーマが適用される。データ処理は、SQLによって記述するか、あるいはホスト言語上のDSL(以下クエリDSL
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く