タグ

Rと統計に関するmisshikiのブックマーク (19)

  • Stanで動かすベイズ的機械学習 ~医療費データの分析例~ - ENGINEERING BLOG ドコモ開発者ブログ

    記事は、ドコモアドベントカレンダー2024 19日目の記事です🎄 こんにちは!NTTドコモ クロステック開発部の畑元です。業務ではヘルスケア領域におけるデータ分析AI開発を行っています。 この記事ではベイズ推論による機械学習とRStanを用いた分析例をご紹介します。データサイエンス分野の方には馴染みのある話かもしれませんが、私はよく忘れてしまうので頭の整理も兼ねて書いていこうと思います。 ※数式が崩れる方は、数式の上で右クリックして、Math Settings > Math Renderer > Common HTMLへ設定をご変更ください 1. はじめに 2. ベイズ推論について ベイズの定理 ベイズ推論 ベイズ的機械学習 3. 実際に動かしてみる 準備 探索的データ分析 ベイズ線形回帰 階層モデル 4. おわりに 参考書籍 1. はじめに 近年、AIに関する研究は急速に進歩し、あ

    Stanで動かすベイズ的機械学習 ~医療費データの分析例~ - ENGINEERING BLOG ドコモ開発者ブログ
    misshiki
    misshiki 2024/12/20
    “ベイズ推論による機械学習とRStanを用いた分析例をご紹介します。”
  • 「見せかけの回帰」の復習 - 渋谷駅前で働くデータサイエンティストのブログ

    先日のことですが、Querie.meでこんな質疑がありました。 これは非常にご尤もなご意見であり、実際この問題提起に近いシチュエーションを見かけたことは五の指では数え切れないくらいあります。ということで、今回の記事では元々の問題意識ともいえる「見せかけの回帰」について、久しぶりにちょっと復習を兼ねて書いてみようと思います。 そもそも「見せかけの回帰」とは何か 実際に見せかけの回帰において起きること 見せかけの回帰への対処法 差分系列に変換する VARモデルを使う 動的線形(状態空間)モデルやベイズ構造時系列モデルを使う Rコード そもそも「見せかけの回帰」とは何か このブログでは11年前に沖の輪読記事を書いた際に「見せかけの回帰」については一通り取り上げていますので、今回はその際の説明を引用するに留めます。 なお前提知識として先に書いておくと、以下に出てくる「単位根過程」というのは平

    「見せかけの回帰」の復習 - 渋谷駅前で働くデータサイエンティストのブログ
    misshiki
    misshiki 2024/10/03
    “そもそも「見せかけの回帰」とは何か、 実際に見せかけの回帰において起きること、 見せかけの回帰への対処法: 差分系列に変換する/VARモデルを使う/動的線形(状態空間)モデルやベイズ構造時系列モデルを使う、
  • 関数データに対する主成分分析 ~方法論の紹介とRによる実装~

    経時データが観測されたとき、各観測のデータを関数として扱いその特徴を定量化するための方法について紹介します。Rによる分析コードとその解説も入れています。 (p6の「こちらのページ」はp33を指しています)

    関数データに対する主成分分析 ~方法論の紹介とRによる実装~
    misshiki
    misshiki 2024/02/27
    全39ページのスライド資料。
  • Text2Landscape: Visualize a Text in Multiple Spaces with R — Force-directed networks, Biofabric, Word Embeddings, Principal Component Analysis and Self-Organizing Maps

    First Visualizations: Frequencies Let us first visualize word frequencies. We can get these frequencies with the quanteda package, which implies transforming the column of lemmas (text.lemmas$lemma) into a quanteda tokens object, then to a document-feature matrix. Doing so, we only retain significant parts of phrases (nous, proper nouns, verbs and adjectives). This only partially spares us the tas

    Text2Landscape: Visualize a Text in Multiple Spaces with R — Force-directed networks, Biofabric, Word Embeddings, Principal Component Analysis and Self-Organizing Maps
    misshiki
    misshiki 2023/07/03
    “Text2Landscape: R を使用して複数の空間内のテキストを視覚化する — 力指向ネットワーク、バイオファブリック、単語埋め込み、主成分分析、自己組織化マップ” いろいろできるしグラフが美しい。
  • 回帰分析ではlm()ではなくestimatr::lm_robust()を使おう / TokyoR100

    2022年7月23日に行われた、第100回R勉強会@東京(#TokyoR)での発表資料です。 https://tokyor.connpass.com/event/253867/ 資料で使っているRコードはこちらになります。 https://github.com/dropout009/TokyoR100

    回帰分析ではlm()ではなくestimatr::lm_robust()を使おう / TokyoR100
    misshiki
    misshiki 2022/07/25
    38ページのスライド資料。
  • Rを用いた データ解析の基礎と応用2022

    Step 3:データを可視化しよう! データ可視化の重要性 ggplot2でデータを眺めよう geom_histogram ヒストグラム geom_density 密度分布 geom_point 散布図 aes(color) 色を表現する facet_wrap, facet_grid グラフを分ける geom_boxplot 箱ヒゲ theme_*** 全体の雰囲気を変える color(aesの外) 線を特定の色にする fill(aesの外) 特定の色で塗りつぶす color(aesの中) 線を値に応じた色にする coord_cartesian 軸の範囲を変える labs タイトルや軸ラベルを書く/書き換える theme 文字の大きさなどを細かく設定 ggsave() 図をファイルとして保存 その他のグラフの描き方を知りたい方は ggplot2公式サイト Jaehyun Songさんの解説

    misshiki
    misshiki 2022/07/15
    “※ Step 1 ~ 6をクリックするとスライドが表示されます”
  • Rによる一般化線型モデル(GLM)

    はじめに 記事では、Rによる一般化線型モデル解析を紹介する。線型回帰、ロジスティック回帰、ポアソン回帰を行う。入門的な記事で記されている内容に加え、係数ベクトルによる算出、対比検定、offset項を用いたポアソン回帰による率比推定を記載した。 【参考文献】 一般化線形モデル入門 原著第2版 Modern Epidemiology 4th edition 目次 一般線型モデルと一般化線型モデル Package 一般線型モデル(LM) Cervical Dystonia longitudinal dataset Variables データの読み込み 線型回帰分析 係数ベクトルによる算出 例1: treat_c2群の16週目のtwstrs 例2: treat_c2群の治療効果 対比検定 一般化線型モデル(GLM) Byar & Greene prostate cancer data Varia

    Rによる一般化線型モデル(GLM)
    misshiki
    misshiki 2022/05/02
    “Rによる一般化線型モデル解析を紹介する。線型回帰、ロジスティック回帰、ポアソン回帰を行う。...係数ベクトルによる算出、対比検定、offset項を用いたポアソン回帰による率比推定を記載した。”
  • はじめに | がんばらないデータ加工

    webサイトは,技術書典12にて頒布したがんばらないデータ加工 Rによるくり返し作業入門 前編のオンラインバージョン こちらは随時updateされていく予定 概要 書の目的 データ加工での面倒な作業をRとRStudioで手軽に実行できるようになるための基礎知識を紹介 書の内容 Rのモダンな方法を使い,データ加工の過程(例:前処理、データクリーニング、データクレンジング、データラングリングなど)で用いる基関数の紹介 実際は核心の部分に入る前の準備段階までにとどまる。タイトルに「前編」とあるのはその理由による 基的にデータフレーム(1.6参照)の形になったきれいな構造を想定しているが,ここで解説した技術に熟達することで,その他のデータ形式や汚いデータ構造にも立ち向かえるようになる 執筆動機 書を書こうと思ったのは拙既刊書『Rで読むExcelファイル』と同じく,「RとRStudioを

    misshiki
    misshiki 2022/03/28
    技術書典12にて頒布した『がんばらないデータ加工 Rによるくり返し作業入門 前編』のオンライン版、とのこと。
  • 実践Data Scienceシリーズ Rではじめる地理空間データの統計解析入門 村上 大輔(著/文) - 講談社

    紹介 ★「いつか学ぼう」と思っていたなら、今!★ 初歩から実装まで悩まず進める! GISの基から始まり、今ホットな時空間データの解析まで解説。 サンプルコードと出力結果が詳細だから実践しながら学べる、最高のガイド! [主な内容] 第1部〈導入編〉 空間データの統計解析の基礎 第1章 はじめよう! 地理空間データの統計解析 第2章 統計学の基 第3章 回帰モデルの基 第4章 Rの基 第5章 Rによる空間データ処理・可視化の基 第2部〈基礎編〉 地域データの記述統計 第6章 空間相関と近接行列 第7章 大域空間統計量 第8章 局所空間統計量 第3部〈基礎編〉 地域データの統計モデリング 第9章 同時自己回帰モデル 第10章 条件付き自己回帰モデル 第4部〈基礎編〉 点データの統計モデリング 第11章 空間過程とバリオグラム 第12章 地球統計モデル 第13章 地理的加重回帰 第5部〈

    実践Data Scienceシリーズ Rではじめる地理空間データの統計解析入門 村上 大輔(著/文) - 講談社
    misshiki
    misshiki 2022/03/11
    “発売予定日 2022年4月6日”
  • 卒業論文のためのR入門

    Chapter 1 はじめに この文書は、卒業論文を書くためのRの使い方をできるだけコンパクトにまとめたものです。 読者は立命館大学総合心理学部森ゼミの学生をピンポイントに想定しています。 Rを用いた演習として「心理学データ解析法」の履修を推奨していますが、履修していなくてもわかるように構成しています。 卒業論文自体はWordで作成する想定で、Rで得られた結果をWordに貼り付ける(簡便な)方法を説明します。 一般的なRの入門文書としても参照できます。 説明の都合上、厳密さよりわかりやすさを重視した記述が多々あります。ご了承ください。 1.1 この文書で学ぶこと 具体的には、以下の項目を学習します。 R, RStudioをインストールし、基的な操作ができるようになる データをRStudioにインポートする インポートしたデータを分析可能な形に前処理する 記述統計を整理する データを可視化

    misshiki
    misshiki 2021/10/20
    ドキュメント。
  • stan推定後の可視化について Tokyo.R#94

    stan推定後の可視化に便利なパッケージとその関数について紹介します。 ・stanfitオブジェクトについて ・rstanパッケージの関数 ・bayesplotパッケージの関数 ・tidyverseでstanfitを扱う

    stan推定後の可視化について Tokyo.R#94
    misshiki
    misshiki 2021/09/13
    68ページのスライド資料。
  • データ解析に役立つおすすめR本とサイトをまとめました。 - Open Box with STAT

    ぼくは医学統計学と疫学が専門です。これらのデータ解析には主にRを使います。 かれこれ15年ほどRを使ってきました。当時、Rに関するまとまった情報は『The R Tips』しかありませんでした。時は流れ、今はたくさんRやサイトがあります。しかし、たくさんありすぎて何を見れば良いのか迷いますよね? そこで、ぼくの経験に基づき、おすすめする有益なR・サイトをまとめてみました! RとRStudioの環境構築 矢内先生の「RとRStudioのインストール方法の解説」サイト 基礎(網羅的) Rではじめるデータサイエンス RユーザーのためのRStudio実践入門 The R Tips Rクックブック 宋先生の「Rプログラミング入門の入門」サイト データハンドリング特化 宋先生の「dplyr入門 (dplyr 1.0.0対応)」Webページ 宋先生の「tidyr入門」Webページ 可視化特化 Rグラフ

    データ解析に役立つおすすめR本とサイトをまとめました。 - Open Box with STAT
    misshiki
    misshiki 2021/05/20
    “おすすめする有益なR本・サイト”
  • Forecasting Best Practices

    Skip to the content. Forecasting Best Practices Time series forecasting is one of the most important topics in data science. Almost every business needs to predict the future in order to make better decisions and allocate resources more effectively. This repository provides examples and best practice guidelines for building forecasting solutions. The goal of this repository is to build a comprehen

    misshiki
    misshiki 2020/04/21
    時系列予測のベストプラクティス
  • Rを使ったデータ処理

    このサイトは静岡大学情報学部「データ処理演習」で使用する目的に最適化されていますが,情報学特有のコンテンツではありません。初歩的なRの使用法および,Rを用いた統計解析を学びたい方に役立つものとなっているかと思います(作成者の専門は心理学)。 出力結果のグラフ等の画像は,出力された時の感動を奪わないように敢えてあまり載せていませんのでご了承ください。 適宜アップデートします。講義資料なども追加するかもしれません。 大文字や小文字,全角や半角,「 ' 」や「 " 」,「 ( 」や「 [ 」を混同して使ってしまった場合,コンピュータはエラーを返します。「そんなかたいこと言わずになんとかしてよ!」と感じるかもしれませんが,相手はパソコンです。あきらめましょう。人間は間違える生き物ですが,間違いを見つけて直せるのも人間です。 プログラムが動かない場合には,順を追って「どこまでは正しいのか」をゆっくり

    misshiki
    misshiki 2020/04/17
    “初歩的なRの使用法および,Rを用いた統計解析を学びたい方に役立つものとなっているかと思います(作成者の専門は心理学)”
  • 統計処理言語「R」の最新版が公開、次期「R 4.0.0」版の主な新機能も明らかに

    Microsoftは2019年12月13日(米国時間)、プログラミング言語「R」の最新版「R 3.6.2」について同社のRコミュニティーブログで紹介した。Rは、統計処理と処理結果のグラフィックス表示に向いたオープンソースの言語。併せて次期メジャーバージョン「R 4.0.0」の主な新機能についても触れた。 R 3.6.2は、既存リリースに小規模な改良を加えたマイナーリリース。WindowsmacOSLinuxで利用できる。 主な改良点は、ドットチャートに新しいオプションを加えたことや、グラフをスムーズにするためにメディアン法を使用する際に課題となる欠損値の処理を改善したことなどだ。加えて、幾つかのバグを修正し、処理性能を改善した。 一方、R 4.0.0では大きな変更が加わる予定だ。Rは、安定したβ版が公開されてから、2020年2月29日に20周年を迎える。それから間もなく、R 4.0.0

    統計処理言語「R」の最新版が公開、次期「R 4.0.0」版の主な新機能も明らかに
  • Revolutions

    Revolutions Milestones in AI, Machine Learning, Data Science, and visualization with R and Python since 2008 It was my great pleasure to present last week to the NYC Data Hackers on the topic of Copilot for R. If you haven't come across Copilot before, it's like an AI-based pair programmer that suggests new lines of code, and perhaps entire functions, based on context. In the presentation (video b

    Revolutions
  • R: The R Project for Statistical Computing

    Getting Started R is a free software environment for statistical computing and graphics. It compiles and runs on a wide variety of UNIX platforms, Windows and MacOS. To download R, please choose your preferred CRAN mirror. If you have questions about R like how to download and install the software, or what the license terms are, please read our answers to frequently asked questions before you send

    misshiki
    misshiki 2019/12/18
    “R is a free software environment for statistical computing and graphics.”
  • Microsoft R Application Network - The Microsoft R Portal

    misshiki
    misshiki 2019/12/18
    “Microsoft R Open is the enhanced distribution of R from Microsoft Corporation.”
  • 傾向スコアを用いた因果推論入門~実装編~ - 下町データサイエンティストの日常

    0. はじめに 1. 対象データ 2. 先に各手法の結果を確認 3.準備 4. 基礎集計~CMを見た人と見ていない人での目的変数の差~ 5. 因果推論の流れのおさらい 6. 傾向スコアモデリング 6.1 モデリング 6.2 テスト / コントロールの傾向スコアの可視化 6.3Rでの傾向スコアモデリングの実装 7. 傾向スコアマッチング 7.1 結構面倒なpython 7.2 R (Matchingライブラリ) 7.3マッチングの評価 8.IPW 9. ダブルロバスト 9.1 回帰モデル 9.2ダブルロバスト 10.Proximityマッチング 11.改めて、各種手法による推定因果効果のまとめ 12.まとめ 0. はじめに 理論編に引き続き、実装を行なっていきます。 pira-nino.hatenablog.com 実装はpythonとRの両方で行いました。 作業用のコードは以下のgithu

    傾向スコアを用いた因果推論入門~実装編~ - 下町データサイエンティストの日常
    misshiki
    misshiki 2019/08/05
    “因果推論”
  • 1