u++の備忘録

R

Rを用いて般若心経を感情分析してみた

はじめに 感情分析とは Rのパッケージ 般若心経を感情分析 データの準備 分析結果 おわりに はじめに 本記事は、hiro.is(@youjo_DS)さんの以下のブログを読んで着想を得ました。loveshome.hatenablog.jp 感情分析とは 感情分析とは、その名の通り単語や文章…

第74回R勉強会@東京 (#TokyoR) にて「Soccer × Attribution Analysis」の題目で発表しました

本日開催された「第74回R勉強会@東京 (#TokyoR) 」にて「Soccer × Attribution Analysis」の題目でLTをしました。tokyor.connpass.com 発表内容 概要 課題と目的 手法 ケーススタディ 結果と考察 結論 所感 発表内容 概要 マーケティング分析の手法である「…

RとPythonで良さげなラベル付き散布図を書く

今回は、RとPythonで良さげなラベル付き散布図を書く方法についてまとめます。良さげ=プロットした点とラベルの位置が重ならないよう、適当にズラして表示してくれるR/ggplot2 にはggrepelというラベルの位置を自動調整してくれるパッケージがあったのです…

【書評】『前処理大全』はNot Awesomeな局所解に気付かせてくれる本

前処理大全[データ分析のためのSQL/R/Python実践テクニック] 本橋智光 著,株式会社ホクソエム 監修 定価(本体3,000円+税) 技術評論社 gihyo.jp どんな本? データサイエンスの現場で遭遇する様々なトピック(抽出・集約・結合など)を題材に、R・Pytho…

R:error "cannot remove prior installation of package ‘xxxx’"

R

Rでパッケージ(今回の場合は”MASS”)をインストールする際、下記のようなエラーが出た。 cannot remove prior installation of package ‘MASS’エラーメッセージでググった結果「C:\Program Files\R\R-3.4.3\library」(パスはインストール設定やバージョン…

W杯ロシア大会の組み合わせ抽選結果を箱ひげ図で表してみた

グループごとにデータ数が4つしかないので箱ひげ図は不適切なのですが、グループ分けして箱ひげ図を書く練習としてやってみました。ざっくりと、開催国ロシアを含むAグループが比較的FIFAランキングが低めなこと、Cグループが熾烈なことなどが読み取れます。…

待ち行列モデルを用いてセブンイレブンのコンサルティングをしてみた

2015年に大学の授業で、待ち行列モデルを用いてセブンイレブンのコンサルティングをした際の資料が出てきたので、出せる部分のみ編集して共有します。 問題設定 大学の最寄り駅近くにあるセブンイレブンを利便性の都合上よく使うのですが、当時の店員のオペ…

【Jリーグ】勝ち点と新聞記事の登場数に相関があるか調べてみた

ふと気になって、勝ち点と新聞記事の登場数に相関があるか調べてみました。勝ち点を取るほど紙面に取り上げられる回数も増えるのではないかという仮説です。 検索対象 朝日新聞オンライン記事データベース「聞蔵(きくぞう)II ビジュアル」*1を用いて、1985…

Twitter提供のRパッケージ{AnomalyDetection}で日経平均株価の異常検知

データセット 日経平均株価のデータは、以下のサイトからダウンロードしました。2007年以降のデータをダウンロードし、結合して一つのcsvファイルを作ります。 日経平均株価 1時間足 時系列データ CSVダウンロード 日付の列の処理 ダウンロード時点では"2007…

rでテキストファイルの文を1行ずつ分かち書き

今回は、前回の記事で作成したデータセットについて、分かち書きを実行します。分かち書きすることで、例えばword2vec*1など更なる分析に活用できます。 前回に引き続き利用するRパッケージRMeCab*2には、RMeCabTextという関数が用意されています。 RMeCabTe…

日経新聞のツイッター(@nikkei)で出現頻度の高い単語を抽出してみた

今回の記事では、自然言語処理の勉強として、日経新聞のツイッター(@nikkei)において出現頻度の高い単語を抽出します。 データセット 日経新聞のツイッター(@nikkei)の投稿文 期間:2017年6月7日~2017年7月26日 当該期間の3200件の投稿から、RTを除いた3047…

1試合当たり得点・失点から見る浦和レッズ・ペトロヴィッチ監督の凄さ

浦和レッズの監督を務めていたミハイロ ペトロヴィッチの解任が本日、発表されました*1。 細やかな不満はあるにせよ、5年半もの長きにわたり浦和レッズで魅力的なサッカーを展開してくれたことに深くお礼を申し上げます。 今回の記事では、1試合当たり得点・…

山本・地方創生相「アメリカのいい大学は田舎にしかない」発言を可視化して検証してみた

R

背景と目的 検証内容 データセットの作成 データの可視化 おわりに 脚注 背景と目的 朝日新聞デジタルは7月28日、山本幸三地方創生相の発言録として、以下のような内容*1を報じました。 (東京一極集中の是正に向けて東京23区内にある大学の定員を抑制する…

ディープラーニングで大相撲千秋楽の勝敗を予想してみる

11月場所で鶴竜が千秋楽前に7場所ぶりの優勝を決めました。 9月場所の千秋楽前にもこんな記事を書いたのですが、またしても相撲絡みの記事を書きたくなったので書きます。 今回はアホみたく流行っている「ディープラーニング」を使って、大相撲千秋楽の勝敗…

Error: invalid multibyte character in parser at line 1

R

このエラーが出て詰まった。が再起動したら解決。何だったんだ。。。

Error : requires numeric/complex matrix/vector arguments

R

Rを触っていたら、標題のエラーが出た。エラー文の通りに問題部分を as.matrix() で変換したら解決した。 R: Convert a Data Frame to a Numeric Matrix