もう1年以上前の話になりますが、NetflixがSpark対応のScala用ノートブックPolynoteをOSS化したという話がありました。 netflixtechblog.com 既存のノートブックではScalaを使っていてもコード補完などがあまり効かないものが多く、まとまったコードを書くときは結局IDEを使うという感じになりがちなのですが、PolynoteはScalaを第一言語としてサポートする珍しいノートブックで、コード補完などの機能も充実しているようなので遅ればせながら試してみました。 インストール Sparkを使う場合、まずは先にSparkをインストールしておく必要があります。とりあえずローカルモードで動かすだけであればSparkのリリースディストリビューションをダウンロードして適当なディレクトリに展開しておくだけでOKですが、Polynoteは内部的にspark-submitコ
SparkにJDBCでアクセスするにはThriftserverを入れたりHive Metastoreが必要だったりで色々面倒なのですが、単体で利用可能な方法はないのかなと思って探してみたところ、以下のものを見つけたので試してみました。 github.com このJDBCドライバは以下のようなURLでJDBC経由でSparkSQLを使うことができます。 com.zensolution.jdbc.spark:/Users/foobar/temp/console?format=csv&csv.header=true&csv.delimiter=; SQL内でアクセスされているテーブルはクエリの実行前にテンポラリビューとして自動的に登録されます。たとえば以下のようなSQLを実行したとします。 SELECT * FROM people このJDBCドライバはまずクエリをパースし、このクエリの実行にp
ArchiveBox - A tool which maintains an additive archive from RSS feeds, bookmarks, and links using wget, Chrome headless, and other methods (formerly Bookmark Archiver). (In Development) archivenow - A Python library to push web resources into on-demand web archives. (Stable) ArchiveWeb.Page - A plugin for Chrome and other Chromium based browsers that lets you interactively archive web pages, repl
はじめに 最近データの整形等にSpark Shellを使っているのですが、使い方を忘れるので備忘録的なアレです。 Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.4.4 /_/ Using Scala version 2.11.12 (OpenJDK 64-Bit Server VM, Java 1.8.0_222) バージョンはこんな感じです。 データソース読み込み CSV(エンコーディング指定・ヘッダからカラム名を推定) val prods = spark.read.format("csv"). option("header", true). option("encoding", "shift_jis"). load("Prod.cs
なぜSpark? ビッグデータでデータサイエンスでマシンラーニングのアーティフィシャルインテリジェンスだからです。ビッグデータ分析はHadoopがデファクトスタンダードです、ということを最近入社した会社で生まれて初めて知りました。 SparkがあればMapReduceだけでは難しい分析やデータ処理もパパッとできてしまいます。 なぜClojure? 私はOCamlが大好きです。つまりJavaとかちょっとしんどいです。しかしSparkはJVM言語かPython(PySpark)を使うこと前提となっています。OCamlは残念ながらJVMでは動かないしPythonでもありませんので使えません。 普通だったらJavaかScalaなのですが、Javaを休日に使うのは勘弁して欲しいです。final List<String> someString = new ArrayList<String>();ってこ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く