u++の備忘録

LightGBMでdownsampling+bagging

はじめに データセットの作成 LightGBM downsampling downsampling+bagging おわりに はじめに 新年初の技術系の記事です。年末年始から最近にかけては、PyTorchの勉強などインプット重視で過ごしています。その一環で不均衡データの扱いも勉強しました。ク…

東大の本郷キャンパスから柏キャンパスまで歩いてみた

2019年初挑戦として、東大の本郷キャンパスから柏キャンパスまで歩いてみました。世間では箱根駅伝もやってるし、新年初挑戦として東大の本郷キャンパスから柏キャンパスまで歩いてみようかなと。のんびり頑張ります。 pic.twitter.com/M3LNzO78KW— u++ (@up…

2018年の振り返りと2019年の目標

TL;DR 2018年は飛躍の年でした 2019年も引き続き頑張ります TL;DR 2018年 仕事をした はてなブログを今年も書いた Kaggleを本格的に始めた 競技プログラミングも始めた イベント参加・登壇をするようになった はてなブログの読者が増えた 2019年 2019年の目…

2018年のKaggleの"leak"を眺めてみる

はじめに 2018年のKaggleでは、何かと "leak" という単語が話題になった印象があります。https://www.kaggle.com/docs/competitions#leakage今回は、Meta Kaggleのデータを分析し、2018年のコンペで話題になった "leak" を眺めてみました。Meta Kaggle 分析…

【Kaggleのフォルダ構成や管理方法】タイタニック用のGitHubリポジトリを公開しました

はじめに Kaggleのタイタニック GitHubリポジトリ 執筆の経緯 大まかな方針 参考にした情報 フォルダ構成 configs data input output features logs models notebook scripts utils 計算の実行 Git管理 おわりに はじめに 本記事では、Kaggle用フォルダ構成…

日付のフォーマットが混在するDataFrameを扱う

はじめに 今回は日付のフォーマットに関する試行錯誤のメモです。 "Zuerich monthly sunspot numbers 1749-1983" データセット 時系列データで遊びたくて "Zuerich monthly sunspot numbers 1749-1983" というデータセットをcsvでダウンロードしてみました。…

u++の成果物

ブログ はてなブログ (過去の人気エントリはこちら) 対外発表 「Soccer × Attribution Analysis」, 第74回R勉強会@東京 (#TokyoR) , 2018年11月10日 「kaggler-ja driven learning なぜ質問に答え、どう学んでいるか」, Kaggle Tokyo Meetup #5, 2018年12月1…

Christmas Tree Drawn with LightGBM

It is Christmas, so I painted Christmas tree with LightGBM.This post is highly inspired by the following post:tjo.hatenablog.comThe data was downloaded from the author's Github. And I added new data containing a new label representing the …

LightGBMでクリスマスツリーを描く

本記事は、kaggle Advent Calendar 2018 その2の25日目の記事です。意図的にフライングして前日の24日、クリスマスイブに投稿します。qiita.comクリスマス用の記事として、LightGBMでクリスマスツリーを描いてみました。なお「決定境界を用いて絵を描く」と…

2泊3日京都・大阪独り旅に行ってきました

単なる旅行記。12月21〜23日に、2泊3日の京都・大阪の独り旅に行ってきました。普段あまり旅行をしないので、記録として残しておきます。12/21(金)に有給とって、21〜23日くらいで関西いく予定を立ててる。今の所、京都・奈良の寺院を回るくらいしか考えてい…

第43回阪大AIメディカル研究会にて「野球データ分析ハッカソン準優勝解法と特徴量重要度」の題目で発表しました

はじめに 12月22日に開催された「第43回阪大AIメディカル研究会」にて「野球データ分析ハッカソン準優勝解法と特徴量重要度」の題目で発表しました。下記の記事で取り上げたハッカソンのについての発表です。upura.hatenablog.com12月21〜23日に京都・大阪に…

pandas.DataFrameに祝日の特徴量を作る

はじめに 昨日公開した下記の記事で、以下のような感想を書きました。 祝日フラグは、手動で作成したので地味に辛かった思い出があります。 upura.hatenablog.com何となく書いたボヤキだったのですが、ありがたいことに次のリプライを頂きました。休日フラグ…

signate「国立公園の観光宿泊者数予測」コンペで10位でした

本記事は、kaggle Advent Calendar 2018 その2の21日目の記事です。qiita.com はじめに 但し書き コンペの概要 関連コンペ 特徴 日付に関する特徴 公共交通検索ログデータに関する特徴 カテゴリ変数 気象データに関する特徴 使わなかったデータ モデル その…

redashのpythonデータソースでカラム名を指定する時に使える型

BIツールのredashでpythonデータソースを使う際、カラム名を指定するために以下の関数を用いる。 add_result_column(result, column_name, friendly_name, column_type) redash.ioここで4つ目の引数 "column_type" を指定した際に「この型はサポートしていま…

「競プロ忘年会 in 東京 2018」のメモと感想 #kyopro

競技プログラミングの勉強&モチベーション・アップのため、「競プロ忘年会 in 東京 2018」に参加してきました。kyopro.connpass.com 「unit propagationと最大流と分枝限定法」@wata_orz 「アメリカ大学院留学で後悔していること: 競技プログラミング編」@k…

TF-IDFを用いた「Kaggle流行語大賞2018」【kaggle Advent Calendar 14日目】

本記事は、kaggle Advent Calendar 2018の14日目の記事です。12日目で最後の予定でしたが、穴が空いていたので2日ぶり6回目の投稿です。qiita.com はじめに 本記事では、年の瀬ということで「Kaggle流行語大賞2018」という題材に取り組みます。具体的には、…

Kaggleでソロ銀メダルを取った時にスマホでしていたこと【kaggle Advent Calendar 12日目】

本記事は、kaggle Advent Calendar 2018の12日目の記事です。qiita.com少しネタ要素が強いですが、Kagglerあるあるな記事だと思います。今年の8月に終了した「Santander Value Prediction Challenge」にて、私はソロで銀メダルを獲得できました。upura.haten…

遺伝的プログラミングによる特徴量生成でLightGBMの精度向上【kaggle Advent Calendar 11日目】

本記事は、kaggle Advent Calendar 2018の11日目の記事です。qiita.com 執筆のきっかけ 先日参加したKaggle Tokyo Meetup #5 の ikiri_DS の発表「Home Credit Default Risk - 2nd place solutions -」にて、遺伝的プログラミングで生成した特徴がLocal CV、…

『Kaggle Ensembling Guide』はいいぞ【kaggle Advent Calendar 7日目】

本記事は、kaggle Advent Calendar 2018の7日目の記事です。qiita.comTwitterでこのAdvent Calendarに書く話題を募集したところ、次のようなリプを頂きました。あと Kaggle で多用される Ensemble のテクニックに関する記事も読んでみたいです。特に Stackin…

validationの切り方いろいろ(sklearnの関数まとめ)【kaggle Advent Calendar 4日目】

本記事は、kaggle Advent Calendar 2018の4日目の記事です。qiita.com はじめに 重要な視点 scikit-learnに用意されている関数 KFold StratifiedKFold GroupKFold ShuffleSplit GroupShuffleSplit StratifiedShuffleSplit TimeSeriesSplit 回帰問題の場合 必…

Cross Validationはなぜ重要なのか【kaggle Advent Calendar 3日目】

本記事は、kaggle Advent Calendar 2018の3日目の記事ということにします。本日、このAdvent Calendarに空きがあると気付いたので、穴埋めの形で急遽記事を執筆しました。僕が遅刻したわけではありません。qiita.comTwitterでこのAdvent Calendarに書く話題…

Kaggle Tokyo Meetup #5 にて「kaggler-ja driven learning」の題目で発表しました

本記事は、kaggle その2 Advent Calendar 2018の1日目の記事だったことにしました(2018年12月11日付)。qiita.com12月1日に開催された「Kaggle Tokyo Meetup #5」にて「kaggler-ja driven learning なぜ質問に答え、どう学んでいるか」の題目でLTをしました…

u++というアカウント名の由来

2013年の秋、大学の知人の勧めでTwitterを始めました。その時、一番仲良い知人が「U」というアカウント名だったので、パロディで「u」と命名しました。この時代から僕のTwitterを知っている人は、相当な古参ですね。時は経て、自身の進路を決めるタイミング…

ブレインパッド「白金鉱業 Meetup Vol.4」に参加しました

11月29日、ブレインパッド主催の「白金鉱業 Meetup Vol.4」に参加しました。brainpad-meetup.connpass.comブレインパッドが定期的に実施している勉強会の第4回で、今回から「Platinum Data Meetup」より名称変更しました。今回は発表が3件あり、特に自分も出…

【Mac, 2018】Go実行環境の構築 (goenv, vscode)

Go

環境 macOS High Sierra 10.13.6 zsh Go実行環境の構築 goenv brew install goenv.zshrc の設定 # goenv export PATH="$HOME/.goenv/bin:$PATH" eval "$(goenv init -)" # go export GOPATH=$HOME/.go PATH=$PATH:$GOPATH/bin設定反映 source ~/.zshrc Goの…

【論文メモ】不均衡データの「頑健な」クラスタリングによる教師なしの異常検知

RDEC: Integrating Regularization into Deep Embedded Clustering for Imbalanced Datasets ネットワーク正則化手法「virtual adversarial training (VAT)」と、クラスタリング手法「deep embedding clustering (DEC)」を統合したクラスタリング手法「regul…

【論文メモ】非専門家向けの調査に基づく、インタラクティブな機械学習ツールの設計

Grounding Interactive Machine Learning Tool Design in How Non-Experts Actually Build Models Machine Learning (ML)の「非専門家」が実際にMLソリューションを構築する方法を調査 非専門家特有の可能性と、陥りやすい落とし穴が明らかになった 例えば、…

Rを用いて般若心経を感情分析してみた

はじめに 感情分析とは Rのパッケージ 般若心経を感情分析 データの準備 分析結果 おわりに はじめに 本記事は、hiro.is(@youjo_DS)さんの以下のブログを読んで着想を得ました。loveshome.hatenablog.jp 感情分析とは 感情分析とは、その名の通り単語や文章…

第74回R勉強会@東京 (#TokyoR) にて「Soccer × Attribution Analysis」の題目で発表しました

本日開催された「第74回R勉強会@東京 (#TokyoR) 」にて「Soccer × Attribution Analysis」の題目でLTをしました。tokyor.connpass.com 発表内容 概要 課題と目的 手法 ケーススタディ 結果と考察 結論 所感 発表内容 概要 マーケティング分析の手法である「…

AtCoderのレートが1000になりました

昨日のABC113に参加し、A〜Cの3完でレートが1018になりました。 https://beta.atcoder.jp/users/upura競技プログラミングを始めた当初、記事では明示していませんでしたがレート1000が一つの目標だったので、ひとまず嬉しいです。upura.hatenablog.com本記事…