「LINEヤフーDesign 公式note」 LINEヤフー株式会社のデザインに関連するさまざまな情報を発信するLINEヤフーDesign 公式noteです。
門脇@satoru_kadowakiです。今月のPython Monthly Topicsでは、Rust製の高速データフレームライブラリ Polars について紹介します。 Polarsとは Pythonでデータ分析に使用される主なライブラリに pandas があります。Polarsはpandasと同様にデータフレームというデータ構造オブジェクトを提供するサードパーティライブラリです。特にpandasを意識して作られており、メインページに「Lightning-fast DataFrame library for Rust and Python」とあるように、Rustによる高速処理を謳っています。 Polarsのリポジトリや関連ドキュメントは以下を参照してください。 Github: https://github.com/pola-rs/polars ユーザーガイド: https://pola
はじめに Println で標準出力してみると以下のように表示されるかと思います。(SHIFT-JIS形式なのでmacでみると文字化けしていますがひとまず置いておきます) 日本では一般的に CSV ファイルは Shift_JIS でエンコードされている事が多いです。Go 言語は内部のエンコーディングが UTF-8 なので、Shift_JIS な CSV ファイルを読み込むと文字化けします。 そこで便利なのが エンコーディングの変換は golang.org/x/text/transform が便利です。このパッケージと、golang.org/x/text/encoding/japanese を使う事で、os.Open で開いたファイルがさも初めから UTF-8 であるかの様に扱う事ができます。 どんな風に扱うか japanese パッケージには japanese.ShiftJIS や jap
2019年6月29日に開催されたCivic Tech Forum 2019の資料です。
そもそも既存はどんなロジック? RDBなんだからWhere句使ったら? なぜファイルにすると速くなるのか? 並列化と分散処理による高速化の可能性 COBOL使う必要あったの? Javaとかじゃダメだったの? まとめ TLを見てると以下の記事が少し話題になってました。 tech.nikkeibp.co.jp tech.nikkeibp.co.jp 対象の記事は有料会員じゃないと見れないのだけど事例としては以下みたい。 リソース - ユーザー事例 - COBOL製品 ユーザー事例 : マイクロフォーカス さて、この記事の驚きポイントは「1億レコードくらいのDB処理をRDBからCOBOL + CSVに変更してUnixサーバからWindowsサーバに変える事で性能を維持しつつコストを1/5くらいにした」という事でしょう。 「せっかく7割もあったSQLを全部COBOLに変えるとか時代に逆行しすぎ!」
エクセルでCSVを保存? 変換? CSVファイルをエクセルで開くと壊れる?? 仕事でCSVファイルを扱うことがあります。しかし、「CSVの意味」を本気で教えてくれる人はなかなかいません。それは、「CSV」を本質的に理解するには、その前提となる知識が必要で、仕事中にそんな面倒くさい説明をするヒマがないからです。 今回は、本当にCSVのことを知りたいのに誰も教えてくれないとお悩みの初心者の皆さんのために、CSVとは何か、を徹底的に解説します。 「リスト形式とCSV」完全マスターシリーズ(この記事は第2回です) 8個の基本パターンで完全習得「リスト形式」の教科書 本気で理解したい初心者のためのCSV勉強会資料 CSVファイルとExcelの関係を本気で理解するための確認テスト10問 初心者のためのCSV取り込み事例演習教材(勉強会資料) 初心者が「CSVで保存してアップ」を理解するのは意外と難しい
ITパスポート試験の団体申込者が利用するシステムに不具合があり、二つの団体申込者が申込情報のダウンロードを同時に行った結果、自らの情報のほかにもう片方の団体申込者に係る申込情報が記載されたファイルがダウンロードされ、個人情報等が漏えいしたという事案が発生しました。すでに漏えいした情報は破棄されたことを確認し、再発防止措置も講じましたので、ご報告いたします。 このような事態が発生したことは誠に遺憾であり、関係者の皆様に多大なご迷惑をおかけしたことを深くお詫び申し上げます。 1.経緯 2018年2月26日に二つの団体申込者が、ウェブサイトから申込情報をCSVファイルでダウンロードできる機能を同時に利用したところ、双方の申込情報が合わさって記載されたCSVファイルが双方でダウンロードされました。当該CSVファイルには、ITパスポート試験の受験申込者の受験番号、氏名、受験日、受験料金の支払いに用い
タイトル通りですが、とりあえず列挙 STATSPACK的なもの、ないの? ありません。 価格差考えてください。 TuningPack的なもの、ないの? (ry 過去に実行したSQL、誰がいつ実行したか追えないの? いわゆる監査ログってやつ。 無料でやりたいなら、generarl_logで全SQL吐いてください。 あとは有償/無償でプラグイン追加すればできるようになりますよ。 I/Oなり、なんらかのリソースを食うけどね。 監査やらない前提で必要スペック見積もっておいて、事故ってから騒ぐのやめてください。 クエリ遅いんだけど! Oracleと同じ感覚で一文でバッチリ取ってくる数百行のクエリ書いて悦に入ってないで、実行計画まず見てくれ。 MySQLで相関サブクエリが死ぬほど遅いってことは、一度でも自分で調べる意思があってググッていれば、嫌でも目に入るだろ。 まさにggrks(死語? この相談を受
はじめに こんにちは、データ分析部の久保 (@beatinaniwa) です。 今日は義務教育で教えても良いんじゃないかとよく思うWebクロールとスクレイピングの話です。 私自身、日頃は社内に蓄積されるニュース記事データや行動ログをSQLやPythonを使って取得・分析することが多いですが、Web上にある外部データを使って分析に役立てたいというシーンはままあります。 単独のページをガリガリスクレイピングしたいときなどは、下の1年半ぐらい前の会社アドベントカレンダーに書いたような方法でやっていけば良いんですが、いくつもの階層にわかれたニュースポータルサイトやグルメポータルサイトを効率よくクロール+スクレイピングするためには、それに適したツールを使うのがすごく便利です。 qiita.com そこでPython用スクレイピングフレームワークScrapyの登場です。 Scrapy | A Fast
米Twitterは6月10日(現地時間)、嫌がらせ対策の一環として、ブロックした相手のリストをユーザー同士で共有できるようにしたと発表した。向こう数週間中に全ユーザーに“ローリングアウト”する。 ブロックとは、Twitter上でかかわりたくないユーザーが自分をフォローしたり、自分のツイートを見たり、ダイレクトメッセージを送ったりできなくすること。ブロックした相手のリスト「ブロックリスト」は、[設定]→[ブロックしたアカウント]の「ブロックしているアカウント」で一覧表示できる。 新機能は、このブロックリストをCSVファイルとしてエクスポートし、そのファイルを他のユーザーに送ったり、受け取ったCSVファイルをインポートして自分のブロックリストに追加したりできるというものだ。 Twitterはミュートやブロックなどのユーザー体験改善ツールは多くの人が便利に使っているが、「Twitter上で大量の
Markdown形式のテーブル記法をいつまでたってもうろ覚えで、毎回検索したり、変換サイトにアクセスするのが面倒だったのでツールをつくりました。嘘です。Go書きたかっただけです。 使い方 CSVテキストを標準入力から受け取って整形済みのMarkdown形式テーブルを出力します。 $ mdt < hoge.csv | headerA | headerB | | ------- | ---------------------- | | short | very very long content | 連携 コマンドラインツールなので、pbpasteやAutomatorと組み合わせて好きなように使えます。 以下は、Automatorのサービスとして登録したmdtをGitHubのIssue作成時に呼び出している様子です。 便利っぽい。 機能 CSV/TSVに対応 タブ区切りにも対応しているのでエク
fputcsv と fgetcsv には $escape オプションがあります。 (fputcsv のマニュアルが更新されていませんが、PHP 5.5.4 で $escape オプションが追加されています。) この動作を勘違いしていたので、ちょっと整理しておきます。 前提 以下 fputcsv/fgetcsv ともにデフォルトの $delimiter = "," $enclosure = '"' として呼び出した前提で書きます。(説明文中で $delimiter とか $enclosure とか書いても読みづらいと思うので。) 動作は PHP 5.6.0 で、ソースは 現時点の master 最新版 を確認しました。 期待した動作(勘違い) 期待した動作は、 fputcsv を $escape = "\\"(デフォルト)で呼び出した場合、「"」は「\"」として、「\」は「\\」として出力さ
jq 前に以下のニコニコ動画のデータセットの記事でも使いましたが、jqコマンドはJSONを変形したり一部を抽出したりするのにとても便利なコマンドです ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm マニュアルを見ると、条件に応じた処理とか最大値を求めるとか意外と複雑な機能も使うことができます jq Manual 軽量JSONパーサー『jq』のドキュメント:『jq Manual』をざっくり日本語訳してみました | Developers.IO また以下のサイトでオンライン上で試せます jq play JSONをCSVに変換 JSONをCSVに直したい時があって使い方を調べたのでメモしておきます 単純な例 まずは単純に以下のようなJSONをCSVに変換します {"key1": 1, "key2": 2} 方法1 - 文字列展開 文字列中の\()の中身は展開さ
一部誤訳の指摘があったため、修正しました!ご迷惑おかけして申し訳ございません! あなたは自分でCSVを書いてみたいですか? フィールドはコンマで区切り、行は改行で分けます。簡単ですよね。数行書けば勝手が分かるというものです。 でも、ちょっと待ってください。 フィールド内にコンマがある場合は? ダブルクォート(”)で、該当のフィールドを囲みましょう。簡単ですね。 では、ダブルクォートで囲めるフィールドに例外はあるのでしょうか? フィールド内にダブルクォートがある場合は? フィールド内の各ダブルクォートに対して、ダブルクォートを二重化して適用しましょう。そうすれば元のダブルクォートをエスケープすることができます。 なお、二重化したダブルクォートと空フィールドを囲んでいるダブルクォート( ...,"",... )を勘違いしないように気を付けてください。 フィールド内に改行がある場合は? その場合
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く