R
第85回R勉強会@東京 #TokyoR にて、LT発表しました。2019年1月開催の第75回以来*1、久々の参加でした。 tokyor.connpass.com 発表の題目は "R言語で「言語処理100本ノック 2020」" で、4月に取り組んでいた「言語処理100本ノック 2020」の紹介*2&R言語での…
「Sports Analyst Meetup #6」を開催しました。 新型コロナウイルス感染症の影響を勘案し、直前に懇親会の中止を決定しての開催となりました。参加者の方々にご了承いただいた上、当日は運営に温かいお声がけをいただきましたこと、心よりお礼申し上げます。…
Tl;DR rdataパッケージ*1を用いて、次のようにRData形式のデータセットを読み込める。 import rdata parsed = rdata.parser.parse_file('../data/vouchers.rda') converted = rdata.conversion.convert(parsed) vouchers = converted['vouchers'] 『効果検証…
「kaggle その2 Advent Calendar」の7日目の記事です*1。本日開催された「Japan.R 2019」*2にて「KaggleとRコンペの紹介」の題目で発表しました。TokyoRでは2度発表したことがあるのですが*3*4、JapanRは初参加でした。幅広い世代の方が多様なジャンルの発表…
「R Advent Calendar 2019」の6日目の記事です。qiita.com 概要 作り方 Google Spreadsheet 設計画面 アプリ構成 おわりに 概要 明日12月7日に開催される「Japan.R 2019」*1*2の非公式アプリを作ってみました。ea1gv.glideapp.io 作り方 11月6日に公開されて…
はじめに 開催の背景 当日の発表内容 初心者向けスポーツ分析チュートリアル「目標達成に導くデータ分析」 LT 閉会後も・・・ おわりに はじめに 「Sports Analyst Meetup #1」を昨日2月24日に開催しました。多くの方に「楽しかった」と言っていただき、運営…
本日開催された「第75回R勉強会@東京 (#TokyoR) 」にて「17^2+19^2+37^2=2019」の題目でLTをしました。tokyor.connpass.com2019年初の回ということで、題材は「素数と2019」にしました。primesパッケージを紹介し、2019にまつわる素数の話をしています。Rス…
はじめに 感情分析とは Rのパッケージ 般若心経を感情分析 データの準備 分析結果 おわりに はじめに 本記事は、hiro.is(@youjo_DS)さんの以下のブログを読んで着想を得ました。loveshome.hatenablog.jp 感情分析とは 感情分析とは、その名の通り単語や文章…
本日開催された「第74回R勉強会@東京 (#TokyoR) 」にて「Soccer × Attribution Analysis」の題目でLTをしました。tokyor.connpass.com 発表内容 概要 課題と目的 手法 ケーススタディ 結果と考察 結論 所感 発表内容 概要 マーケティング分析の手法である「…
今回は、RとPythonで良さげなラベル付き散布図を書く方法についてまとめます。良さげ=プロットした点とラベルの位置が重ならないよう、適当にズラして表示してくれるR/ggplot2 にはggrepelというラベルの位置を自動調整してくれるパッケージがあったのです…
はじめに 某イベントにて、「データ分析からの新規施策提案」をテーマに資料を作成したのでブログでも共有します。 題材 SF Bay Area Bike Share | Kaggle 成果物 Speaker Deck Kaggle Kernel GitHub
前処理大全[データ分析のためのSQL/R/Python実践テクニック] 本橋智光 著,株式会社ホクソエム 監修 定価(本体3,000円+税) 技術評論社 gihyo.jp どんな本? データサイエンスの現場で遭遇する様々なトピック(抽出・集約・結合など)を題材に、R・Pytho…
Rでパッケージ(今回の場合は”MASS”)をインストールする際、下記のようなエラーが出た。 cannot remove prior installation of package ‘MASS’エラーメッセージでググった結果「C:\Program Files\R\R-3.4.3\library」(パスはインストール設定やバージョン…
下記のツイートを見て、出生数・出生率の推移を調べてみようと思った。初の予告退位で、統計に表れるような「産み控え」が発生するのか?は興味深い。「えっ?あなた平成うまれなの?」って子供が将来言われないように1年待つ人って、うちの親の感覚(自分の…
グループごとにデータ数が4つしかないので箱ひげ図は不適切なのですが、グループ分けして箱ひげ図を書く練習としてやってみました。ざっくりと、開催国ロシアを含むAグループが比較的FIFAランキングが低めなこと、Cグループが熾烈なことなどが読み取れます。…
2015年に大学の授業で、待ち行列モデルを用いてセブンイレブンのコンサルティングをした際の資料が出てきたので、出せる部分のみ編集して共有します。 問題設定 大学の最寄り駅近くにあるセブンイレブンを利便性の都合上よく使うのですが、当時の店員のオペ…
ふと気になって、勝ち点と新聞記事の登場数に相関があるか調べてみました。勝ち点を取るほど紙面に取り上げられる回数も増えるのではないかという仮説です。 検索対象 朝日新聞オンライン記事データベース「聞蔵(きくぞう)II ビジュアル」*1を用いて、1985…
データセット 日経平均株価のデータは、以下のサイトからダウンロードしました。2007年以降のデータをダウンロードし、結合して一つのcsvファイルを作ります。 http://k-db.com/indices/I101/1h 日付の列の処理 ダウンロード時点では"2007/01/01"のような形…
今回は、前回の記事で作成したデータセットについて、分かち書きを実行します。分かち書きすることで、例えばword2vec*1など更なる分析に活用できます。 前回に引き続き利用するRパッケージRMeCab*2には、RMeCabTextという関数が用意されています。 RMeCabTe…
今回の記事では、自然言語処理の勉強として、日経新聞のツイッター(@nikkei)において出現頻度の高い単語を抽出します。 データセット 日経新聞のツイッター(@nikkei)の投稿文 期間:2017年6月7日~2017年7月26日 当該期間の3200件の投稿から、RTを除いた3047…
浦和レッズの監督を務めていたミハイロ ペトロヴィッチの解任が本日、発表されました*1。 細やかな不満はあるにせよ、5年半もの長きにわたり浦和レッズで魅力的なサッカーを展開してくれたことに深くお礼を申し上げます。 今回の記事では、1試合当たり得点・…
背景と目的 検証内容 データセットの作成 データの可視化 おわりに 脚注 背景と目的 朝日新聞デジタルは7月28日、山本幸三地方創生相の発言録として、以下のような内容*1を報じました。 (東京一極集中の是正に向けて東京23区内にある大学の定員を抑制する…
11月場所で鶴竜が千秋楽前に7場所ぶりの優勝を決めました。 9月場所の千秋楽前にもこんな記事を書いたのですが、またしても相撲絡みの記事を書きたくなったので書きます。 今回はアホみたく流行っている「ディープラーニング」を使って、大相撲千秋楽の勝敗…
このエラーが出て詰まった。が再起動したら解決。何だったんだ。。。
Rを触っていたら、標題のエラーが出た。エラー文の通りに問題部分を as.matrix() で変換したら解決した。 R: Convert a Data Frame to a Numeric Matrix