u++の備忘録

R

第85回R勉強会@東京 #TokyoR にて "R言語で「言語処理100本ノック 2020」" の題目で発表しました

第85回R勉強会@東京 #TokyoR にて、LT発表しました。2019年1月開催の第75回以来*1、久々の参加でした。 tokyor.connpass.com 発表の題目は "R言語で「言語処理100本ノック 2020」" で、4月に取り組んでいた「言語処理100本ノック 2020」の紹介*2&R言語での…

「Sports Analyst Meetup #6」開催報告&発表まとめ

「Sports Analyst Meetup #6」を開催しました。 新型コロナウイルス感染症の影響を勘案し、直前に懇親会の中止を決定しての開催となりました。参加者の方々にご了承いただいた上、当日は運営に温かいお声がけをいただきましたこと、心よりお礼申し上げます。…

RData形式のデータセットをPythonで読み込む

Tl;DR rdataパッケージ*1を用いて、次のようにRData形式のデータセットを読み込める。 import rdata parsed = rdata.parser.parse_file('../data/vouchers.rda') converted = rdata.conversion.convert(parsed) vouchers = converted['vouchers'] 『効果検証…

Japan.R 2019にて「KaggleとRコンペの紹介」の題目で発表しました

「kaggle その2 Advent Calendar」の7日目の記事です*1。本日開催された「Japan.R 2019」*2にて「KaggleとRコンペの紹介」の題目で発表しました。TokyoRでは2度発表したことがあるのですが*3*4、JapanRは初参加でした。幅広い世代の方が多様なジャンルの発表…

Glideで手軽にJapan.R 2019 の非公式アプリを作ってみた

R

「R Advent Calendar 2019」の6日目の記事です。qiita.com 概要 作り方 Google Spreadsheet 設計画面 アプリ構成 おわりに 概要 明日12月7日に開催される「Japan.R 2019」*1*2の非公式アプリを作ってみました。ea1gv.glideapp.io 作り方 11月6日に公開されて…

「Sports Analyst Meetup #1 」を開催&発表しました #spoana

はじめに 開催の背景 当日の発表内容 初心者向けスポーツ分析チュートリアル「目標達成に導くデータ分析」 LT 閉会後も・・・ おわりに はじめに 「Sports Analyst Meetup #1」を昨日2月24日に開催しました。多くの方に「楽しかった」と言っていただき、運営…

第75回R勉強会@東京 (#TokyoR) にて「17^2+19^2+37^2=2019」の題目で発表しました

本日開催された「第75回R勉強会@東京 (#TokyoR) 」にて「17^2+19^2+37^2=2019」の題目でLTをしました。tokyor.connpass.com2019年初の回ということで、題材は「素数と2019」にしました。primesパッケージを紹介し、2019にまつわる素数の話をしています。Rス…

Rを用いて般若心経を感情分析してみた

はじめに 感情分析とは Rのパッケージ 般若心経を感情分析 データの準備 分析結果 おわりに はじめに 本記事は、hiro.is(@youjo_DS)さんの以下のブログを読んで着想を得ました。loveshome.hatenablog.jp 感情分析とは 感情分析とは、その名の通り単語や文章…

第74回R勉強会@東京 (#TokyoR) にて「Soccer × Attribution Analysis」の題目で発表しました

本日開催された「第74回R勉強会@東京 (#TokyoR) 」にて「Soccer × Attribution Analysis」の題目でLTをしました。tokyor.connpass.com 発表内容 概要 課題と目的 手法 ケーススタディ 結果と考察 結論 所感 発表内容 概要 マーケティング分析の手法である「…

RとPythonで良さげなラベル付き散布図を書く

今回は、RとPythonで良さげなラベル付き散布図を書く方法についてまとめます。良さげ=プロットした点とラベルの位置が重ならないよう、適当にズラして表示してくれるR/ggplot2 にはggrepelというラベルの位置を自動調整してくれるパッケージがあったのです…

データ分析からの新規施策提案|SF Bay Area Bike Share, Kaggle

はじめに 某イベントにて、「データ分析からの新規施策提案」をテーマに資料を作成したのでブログでも共有します。 題材 SF Bay Area Bike Share | Kaggle 成果物 Speaker Deck Kaggle Kernel GitHub

【書評】『前処理大全』はNot Awesomeな局所解に気付かせてくれる本

前処理大全[データ分析のためのSQL/R/Python実践テクニック] 本橋智光 著,株式会社ホクソエム 監修 定価(本体3,000円+税) 技術評論社 gihyo.jp どんな本? データサイエンスの現場で遭遇する様々なトピック(抽出・集約・結合など)を題材に、R・Pytho…

R:error "cannot remove prior installation of package ‘xxxx’"

R

Rでパッケージ(今回の場合は”MASS”)をインストールする際、下記のようなエラーが出た。 cannot remove prior installation of package ‘MASS’エラーメッセージでググった結果「C:\Program Files\R\R-3.4.3\library」(パスはインストール設定やバージョン…

Rで棒グラフと折れ線グラフを重ねた図を作成 〜出生数・出生率を例に〜

R

下記のツイートを見て、出生数・出生率の推移を調べてみようと思った。初の予告退位で、統計に表れるような「産み控え」が発生するのか?は興味深い。「えっ?あなた平成うまれなの?」って子供が将来言われないように1年待つ人って、うちの親の感覚(自分の…

W杯ロシア大会の組み合わせ抽選結果を箱ひげ図で表してみた

グループごとにデータ数が4つしかないので箱ひげ図は不適切なのですが、グループ分けして箱ひげ図を書く練習としてやってみました。ざっくりと、開催国ロシアを含むAグループが比較的FIFAランキングが低めなこと、Cグループが熾烈なことなどが読み取れます。…

待ち行列モデルを用いてセブンイレブンのコンサルティングをしてみた

2015年に大学の授業で、待ち行列モデルを用いてセブンイレブンのコンサルティングをした際の資料が出てきたので、出せる部分のみ編集して共有します。 問題設定 大学の最寄り駅近くにあるセブンイレブンを利便性の都合上よく使うのですが、当時の店員のオペ…

【Jリーグ】勝ち点と新聞記事の登場数に相関があるか調べてみた

ふと気になって、勝ち点と新聞記事の登場数に相関があるか調べてみました。勝ち点を取るほど紙面に取り上げられる回数も増えるのではないかという仮説です。 検索対象 朝日新聞オンライン記事データベース「聞蔵(きくぞう)II ビジュアル」*1を用いて、1985…

Twitter提供のRパッケージ{AnomalyDetection}で日経平均株価の異常検知

R

データセット 日経平均株価のデータは、以下のサイトからダウンロードしました。2007年以降のデータをダウンロードし、結合して一つのcsvファイルを作ります。 http://k-db.com/indices/I101/1h 日付の列の処理 ダウンロード時点では"2007/01/01"のような形…

rでテキストファイルの文を1行ずつ分かち書き

今回は、前回の記事で作成したデータセットについて、分かち書きを実行します。分かち書きすることで、例えばword2vec*1など更なる分析に活用できます。 前回に引き続き利用するRパッケージRMeCab*2には、RMeCabTextという関数が用意されています。 RMeCabTe…

日経新聞のツイッター(@nikkei)で出現頻度の高い単語を抽出してみた

今回の記事では、自然言語処理の勉強として、日経新聞のツイッター(@nikkei)において出現頻度の高い単語を抽出します。 データセット 日経新聞のツイッター(@nikkei)の投稿文 期間:2017年6月7日~2017年7月26日 当該期間の3200件の投稿から、RTを除いた3047…

1試合当たり得点・失点から見る浦和レッズ・ペトロヴィッチ監督の凄さ

浦和レッズの監督を務めていたミハイロ ペトロヴィッチの解任が本日、発表されました*1。 細やかな不満はあるにせよ、5年半もの長きにわたり浦和レッズで魅力的なサッカーを展開してくれたことに深くお礼を申し上げます。 今回の記事では、1試合当たり得点・…

山本・地方創生相「アメリカのいい大学は田舎にしかない」発言を可視化して検証してみた

R

背景と目的 検証内容 データセットの作成 データの可視化 おわりに 脚注 背景と目的 朝日新聞デジタルは7月28日、山本幸三地方創生相の発言録として、以下のような内容*1を報じました。 (東京一極集中の是正に向けて東京23区内にある大学の定員を抑制する…

ディープラーニングで大相撲千秋楽の勝敗を予想してみる

11月場所で鶴竜が千秋楽前に7場所ぶりの優勝を決めました。 9月場所の千秋楽前にもこんな記事を書いたのですが、またしても相撲絡みの記事を書きたくなったので書きます。 今回はアホみたく流行っている「ディープラーニング」を使って、大相撲千秋楽の勝敗…

Error: invalid multibyte character in parser at line 1

R

このエラーが出て詰まった。が再起動したら解決。何だったんだ。。。

Error : requires numeric/complex matrix/vector arguments

R

Rを触っていたら、標題のエラーが出た。エラー文の通りに問題部分を as.matrix() で変換したら解決した。 R: Convert a Data Frame to a Numeric Matrix