タグ

2021年7月1日のブックマーク (16件)

  • 意思決定の理由の可視化が可能なグラフ構造の学習アルゴリズムの紹介 - ZOZO TECH BLOG

    ZOZO研究所の清水です。弊社の社会人ドクター制度を活用しながら、「社内外に蓄積されているデータからビジネスへの活用が可能な知見を獲得するための技術」の研究開発に取り組んでいます。 弊社の社会人ドクター制度に関しては、以下の記事をご覧ください。 technote.zozo.com 私が現在取り組んでいるテーマの1つに、「機械学習が導き出した意思決定の理由の可視化」があります。この分野は「Explainable Artificial Intelligence(XAI)」と呼ばれ、近年注目を集めています。 図.XAIに関連する文献数の推移(引用:https://arxiv.org/abs/1910.10045) その中でも今回はユーザに対するアイテムの推薦問題に焦点を当て、「なぜこのユーザに対して、このアイテムが推薦されたのか?」という推薦理由の可視化が可能なモデルを紹介します。 記事の概要

    意思決定の理由の可視化が可能なグラフ構造の学習アルゴリズムの紹介 - ZOZO TECH BLOG
    misshiki
    misshiki 2021/07/01
    “ユーザに対するアイテムの推薦問題に焦点を当て、「なぜこのユーザに対して、このアイテムが推薦されたのか?」という推薦理由の可視化が可能なモデルを紹介”Knowledge Graph Attention Network(KGAT)
  • pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments

    概要 分析のためにデータ集めしていると、たまに マジか!? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、? このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい。 サンプルデータ たまには実データ使おう、ということで WorldBankから GDPデータを落とす。以下のページ右上の "DOWNLOAD DATA" ボタンで CSV を選択し、ローカルに zip を保存する。解凍した "ny.gdp.mktp.cd_Indicator_en_csv_v2.csv" ファイルをサンプルとして使う。 http://data.worldbank.org/indicator/NY.GDP.MKTP.CD?page=1 補足 pandas の Remote Data Access で WorldBan

    pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments
    misshiki
    misshiki 2021/07/01
    “読み取り対象ファイルが メモリに乗らないほど大きい場合はどうするか? read_csv に chunksize オプションを指定することでファイルの中身を 指定した行数で分割して読み込むことができる。”
  • ゼロから作る時系列データベースエンジン

    軽量な時系列データベースエンジンをスクラッチで開発する機会があったので、どのように実装したのかを必要知識の解説を交えながらまとめていきます。 実装はGo言語によるものですが、記事のほとんどは言語非依存な内容となっています。 モチベーション 筆者は時系列データを扱うツールをいくつか開発しています。その中の一つであるAliは負荷テスト用のcliツールで、メトリクスをクライアント側でリアルタイム描画できるのが特徴です。リクエスト毎にレイテンシーなどの計測結果が際限なく書き込まれてくる中、同時に一定のクエリパフォーマンスが求められます。 これは言ってしまえば、簡易クエリ機能付きのpush型モニタリングシステムを単一ホストで実現するようなものです。 以前までの実装ではヒープ上の可変長配列にデータポイントを追加していくだけだったので、当然ながら時間の経過とともにメモリ使用量が増加していく問題を抱えて

    ゼロから作る時系列データベースエンジン
    misshiki
    misshiki 2021/07/01
    “軽量な時系列データベースエンジンをスクラッチで開発する機会があったので、どのように実装したのかを必要知識の解説を交えながらまとめ”
  • AIコード生成と著作権

    6月30日、GitHub CopilotというAIプログラミングツールのテクニカルプレビューが発表されました。 コメントなどから自動的にコードが生成されるアニメーションは、とてもセンセーショナルで今後のプログラミングのあり方を変えてくれそうな予感がします。AIコード生成は以前からTabnineなどがありましたが、GitHubが参入したことで、今後より一般的に普及しそうです。 そんな中、AIコード生成とGPLライセンスについてのツイートが少し話題になっているのを目にしました。 github copilot はgplのコードを学習してんならgithub copilotが生成するコードはgplなコードのderivative worksでしかあり得ねえだろうが、という指摘がされており一考の価値がある https://t.co/pacomctOzW — 7594591200220899443 (@s

    AIコード生成と著作権
    misshiki
    misshiki 2021/07/01
    “現状を整理すると日本の場合はAIが生成したコードには著作権がないことになります。”
  • sagemaker-studio-image-buildでSageMaker用のカスタムコンテナイメージをビルド&プッシュして利用する | DevelopersIO

    sagemaker-studio-image-buildでSageMaker用のカスタムコンテナイメージをビルド&プッシュして利用する データアナリティクス事業部の貞松です。 Amazon SageMakerではデータの前処理やモデル学習・推論のジョブ実行時に任意のライブラリや独自アルゴリズム(カスタムコード)を含むカスタムDockerコンテナイメージを使用することができます。 以前(概ねSageMaker Studio登場以前)は、カスタムコンテナイメージをSageMaker用にビルド→ECRにプッシュする為に、自前でビルド&プッシュ処理用のシェルスクリプトを実装する必要がありました。 現在はsagemaker-studio-image-buildというCLIツールを使用することで、Dockerfileを含むコンテナイメージに含めるリソースを準備してツールを実行するだけでSageMak

    sagemaker-studio-image-buildでSageMaker用のカスタムコンテナイメージをビルド&プッシュして利用する | DevelopersIO
    misshiki
    misshiki 2021/07/01
    “sagameker-studio-image-buildの概要と使用方法を解説し、実際にビルド&プッシュしたカスタムコンテナイメージをSageMakerで利用できることを確認”
  • Machine Learning made easy with Raspberry Pi, Adafruit and Microsoft - Raspberry Pi

    Machine Learning made easy with Raspberry Pi, Adafruit and Microsoft - Raspberry Pi
    misshiki
    misshiki 2021/07/01
    Microsoft Lobe+Adafruit+Raspberry Pi4で、機械学習の電子工作。
  • WHO outlines principles for ethics in health AI

    misshiki
    misshiki 2021/07/01
    “世界保健機関は、健康における人工知能の倫理的使用に関する6つの主要な原則を概説したガイダンス文書を発表”
  • WHOが「AIをヘルスケアに利用するための6つの基本理念」を策定、その内容とは?

    WHOが2021年6月28日に、今後のWHOの活動指針となる「すべての国で人工知能(AI)が公共の利益のために機能するようにするための6つの基理念」を発表しました。その中でWHOは、AIが人の自由や人権を侵害するものであってはならないことや、世界中のすべての人々がAIの恩恵を受けられるようにする必要性を訴えています。 WHO issues first global report on Artificial Intelligence (AI) in health and six guiding principles for its design and use https://www.who.int/news/item/28-06-2021-who-issues-first-global-report-on-ai-in-health-and-six-guiding-principles-f

    WHOが「AIをヘルスケアに利用するための6つの基本理念」を策定、その内容とは?
    misshiki
    misshiki 2021/07/01
    “人間の自律性を守ること、人間の幸福と安全および公共の利益を促進すること、透明性・説明可能性・理解可能性を確保すること、責任と説明責任の醸成、包括性と公平性の確保、レスポンシブで持続可能なAIの推進”
  • PyMC3を使ってベイズ推定、テストデータ(out-of-sample)に対する検証を実施する - Qiita

    はじめに 今度、マーケティング的な分析もすることになりそうです。私は今までベイズ推定をさわり程度に勉強してきましたが、実務でも使う機会が出てきそうです。時間的に余裕がある今のうちに勉強して手を動かし、自分用の備忘を兼ねて内容をここに書きます。 Pythonでベイズ推論を行うライブラリとしてPyMC3を使います。この記事では、PyMC3を使って、モデルの推定とテストデータに対する検証を行うまでを記載します。 参考 主に以下のPyMC3チュートリアルを参考にしています。 [1] Prior and Posterior Predictive Checks [2] Getting started with PyMC3 準備 AnacondaにPyMC3をインストールします。私の場合、Windows10 64bitに入れます。 ここで私はハマってしまいました。これはこちらの記事に書いていますので、参

    PyMC3を使ってベイズ推定、テストデータ(out-of-sample)に対する検証を実施する - Qiita
    misshiki
    misshiki 2021/07/01
    “PyMC3を使って、モデルオブジェクトを生成、prior predictive check、MCMCのサンプリングによるモデル推定、posterior predictive check、そしてテストデータ(out-of-sampleデータ)に対する検証まで”
  • 無料で使える「手書き文字認識AI」 ユーザーローカルが提供を開始

    ユーザーローカルによると「近年、業務効率改善やデータ活用のためにデジタル化を進める動きが活発になっており、そのためには文書のデジタル化が必要だ。しかし、手書き文字のOCR(光学文字認識)ではコストがかかり、デジタル化を妨げる要因となっていた」という。 くずし字や略字も認識 関連記事 無償で利用できる「数理、データサイエンス、AI」の教材を公開 東京大学 東京大学の数理・情報教育研究センターは「数理・データサイエンス・AIモデルカリキュラム」に準拠した教材の無償公開を開始した。クリエイティブ・コモンズ・ライセンス(CC BY-NC-SA)で利用できる。 「考えただけ」で文字を入力できるAIシステムを開発 脳の運動皮質に埋め込んだデバイスから得たデータをAIが解釈することで、四肢の不自由な患者がテキストでコミュニケーションできるシステムをスタンフォード大学の研究チームが開発した。 DXにはデジ

    無料で使える「手書き文字認識AI」 ユーザーローカルが提供を開始
    misshiki
    misshiki 2021/07/01
    事例“「ユーザーローカル手書き文字認識AI」の無償提供を開始した。日本語の手書き文字を含む画像からディープラーニングによって文字を読み取り、テキストデータに変換できる。”
  • 1枚の写真から動画を作成するディープラーニング手法を開発、ワシントン大

    ワシントン大学は2021年6月14日(米国時間、以下同)、1枚の滝の写真から、滝が流れ落ちる様子の動画を作成できるディープラーニング手法を開発したことを発表した。 この手法を使うと滝や煙、雲など、任意の流体をアニメーション化できる。作成した短い動画はシームレスにループし、流体がずっと動き続けているような印象を与える。ワシントン大学とFacebookに所属する研究者は2021年6月22日、「Conference on Computer Vision and Pattern Recognition」(CVPR 2021)で、このアプローチについてのプレゼンテーションを行った。 「写真はある瞬間を捉えるが、静止画では多くの情報が失われる。例えば、何がその瞬間をもたらしたか、物がどのように変わりつつあるかといった情報だ」(アレクサンダー・ホリンスキ氏)。ホリンスキ氏はこのディープラーニング手法に関

    1枚の写真から動画を作成するディープラーニング手法を開発、ワシントン大
    misshiki
    misshiki 2021/07/01
    事例“1枚の滝の写真から、滝が流れ落ちる様子の動画を作成できるディープラーニング手法を開発”
  • ELYZA, Inc. on Twitter: "NLPにおけるデータ拡張についての包括的なサーベイ https://t.co/2uga9mumo9 https://t.co/0e3T98minQ"

    misshiki
    misshiki 2021/07/01
    “NLPにおけるデータ拡張についての包括的なサーベイ”
  • An Empirical Survey of Data Augmentation for Limited Data Learning in NLP

    misshiki
    misshiki 2021/07/01
    “限定されたラベル付きデータ設定でのNLPのデータ拡張に関する最近の進捗状況の実証的調査”論文。
  • Google demonstrates leading performance in latest MLPerf Benchmarks

    misshiki
    misshiki 2021/07/01
    “MLPerfベンチマーク結果の最新ラウンドがリリースされ、GoogleのTPUv4スーパーコンピューターは大規模で記録的なパフォーマンスを示しました。”
  • データサイエンスのための確率統計 - 共立出版

    データサイエンスの数理的基礎付けとして確率と統計を学ぶことが書の目的である。書は高等学校で学ぶ確率のごく初歩と数学リテラシーを前提とするが、必要に応じて補習すれば十分であろう。書は確率論の基礎から始めて、推測統計の典型的なテーマである母数の推定と検定を扱う。統計処理の処方箋の提示で終わることなく、理論的な仕組みをできるだけ丁寧に記述することで、より深い理解を期待している。 さらに、多変量解析の典型として回帰分析と主成分分析の基を学ぶ。データを説明するモデルの構築として線形回帰モデルを扱い、構造的な特徴の抽出として主成分というアイデアを紹介する。 第1章 データの統計的扱い 1.1 データ 1.2 統計的な視点 第2章 1変量データ 2.1 1変量データの整理 2.2 代表値 2.3 ばらつき 2.4 標準化 2.5 発展的な話題 第3章 確率の初歩 3.1 確率の素朴な導入 3.2

    データサイエンスのための確率統計 - 共立出版
    misshiki
    misshiki 2021/07/01
    “2021年07月13日”新刊
  • 機械学習アルゴリズム - 共立出版

    書では、機械学習の分野を広く扱い、それらの最も基礎となる部分を説明しながら、数学やプログラミングを極力使わずして機械学習の世界全体へ初学者を連れ回すことを目的としている。扱う項目は、どれもがそれ一つで1冊のになるくらい奥の深いものばかりである。興味を持った項目について読者自身が次のステップとして理解を深めていけるよう、書にはロードマップ/カタログ的な側面も持たせている。書最大の特徴は、機械学習の設計図ともいえる「アルゴリズム」に着目する点にある。機械学習の「使い方」を扱ったは数多く出版されているが、機械学習の「作り方」を扱ったものはわずかである。既存のライブラリ等を使用すれば誰でも簡単に機械学習を実践できる一方で、ライブラリの中で実際にどのような計算が行われているかを理解している人は少ない。書で機械学習のアルゴリズムを身につけることにより、既存のライブラリを使用した受身の機械学

    機械学習アルゴリズム - 共立出版
    misshiki
    misshiki 2021/07/01
    “2021年06月09日”新刊