u++の備忘録

2018-01-01から1年間の記事一覧

Jリーグ2018年シーズンの勝ち点推移を可視化 pythonでデータ取得から可視化まで

2018年シーズンのJ1リーグでは、序盤にサンフレッチェ広島が独走していましたが、7月のW杯中断明けごろから失速。後半になって追い上げた昨年王者の川崎フロンターレに首位を譲る展開になっています。川崎フロンターレの驚異的な追い上げがどの程度か気にな…

【論文メモ】強化学習を用いないGANによる文生成モデル「LaTextGAN (latent-space GAN for text)」

Adversarial Text Generation Without Reinforcement Learning どんなもの? 強化学習を使用しないGANによる文生成モデル「LaTextGAN (latent-space GAN for text)」を提案 オートエンコーダを利用して文の低次元表現を学習させて生成器に伝播させることで、…

独立したデータ分析チームを作るべきか否か #分析リーダーズトーク へ行って考えた

昨日開催された「Data Analyst Leaders Talk! #2」に行ってきました。connpass.comイベントの書き起こし的な記事は他で挙がっているので、そちらに譲ります。www.grisoluto.com本記事では、私がデータ分析チームについて抱いていた疑問に焦点を当て、パネル…

「ベースボールデータハッカソン」エンジニアリング部門で準優勝しました

昨日と本日の2日間にわたって開催された「パ・リーグ×パーソル ベースボールデータハッカソン」にて、エンジニアリング部門で準優勝しました。techplay.jp賞品として、パリーグ6球団タオルセットを頂きました。ありがとうございました。本記事では、ハッカソ…

技術書典5で弊社の機械学習活用事例を紹介します

2018年10月8日に池袋サンシャインシティで開催される技術書典5に、弊社のエンジニア有志で執筆した書籍を頒布します。techbookfest.org私は第1章「機械学習を用いた日経電子版Proのユーザ分析」を担当しました。私は弊社にて、営業・マーケティング向け…

【Mac, 2018】pyenv/minicondaでのpytorch利用環境構築のメモ

『現場で使える!PyTorch開発入門 深層学習モデルの作成とアプリケーションへの実装』に取り組むに当たって、自分なりの環境構築のメモ。 www.shoeisha.co.jp minicondaのインストール pyenv install miniconda-latest pyenv local miniconda-latest パッケ…

【論文メモ】Neural Networkを用いた特徴量の重要度の計算方法

Importance of Feature Selection for Recurrent Neural Network Based Forecasting of Building Thermal Comfort International Conference on Adaptive and Intelligent Systems 2014: Adaptive and Intelligent Systems pp 11-19 https://link.springer.c…

Pythonで動く形態素解析ツール「nagisa」を使ってみた

はじめに nagisaとは 使ってみた nagisaの利点 文字単位の双方向LSTMを採用しており、URLや顔文字に頑健 単語分割の方法を調整できる nagisaの課題 おわりに はじめに PyCon2018でポスター展示があったらしく、フォロワーさんの投稿で存在を知りました。形態…

ランダムフォレストなど木系のアンサンブルモデルの解釈性を高める「Feature Tweaking」

はじめに GitHub 手法の概要 論文 著者による紹介動画 日本語文献 「featureTweakPy」の使い方 Requirements Download Package import Random Forest Prediction Using function() Hyper Parameters Setting Cost Function Setting Sample Data for Demonstr…

2週間のシアトル出張に行きます

明日14日から27日までの2週間、会社の都合でシアトルに出張します。弊社のR&D部署が主導する出張で、米国の最新技術動向の視察として、2週間にわたって技術系のイベント参加や現地企業訪問などを実施予定です。私は昨年の10月に入社したので、期せずして帰国…

Udemy講座「手を動かしながら2週間で学ぶAWS基本から応用まで」を修了したので感想など

Udemyの講座「手を動かしながら2週間で学ぶAWS基本から応用まで」を修了した*1ので、受講の動機や感想などをまとめます。 講座の概要 本講座は、オンライン学習プラットフォームの「Udemy」で先日*2にリリースされた講座です。タイトルの通りAWSを基礎から応…

Adversarial Validationのメモ

はじめに 下記の英語記事から要旨を抜粋して、日本語でまとめた。fastml.com fastml.com Adversarial Validationとは いつ使う? TrainデータとTestデータの分布が異なる場合 → Trainデータから適切にValidationデータを作成するのが難しい → Kaggleの場合、…

【論文メモ】29組のデータアナリストに同じデータセットと同じ質問を与えても、分析結果がバラバラだったという研究

どんなもの? 29グループ(計61人)のデータアナリストに、同じデータセットと同じ質問を与えたときの分析アプローチのバラツキを分析。質問は「サッカーの主審は、肌の白い選手に比べて肌の黒い選手にレッドカードを与える可能性が高いですか?」。 分析ア…

阪神タイガース、今季初の八回から逆転勝利 昨日までの「0勝50敗」は他チームと比べ酷い数字か検証する

はじめに データの取得 データの前処理 データの分析 まとめ はじめに 本日朝、サンスポに次の記事が掲載されました。阪神タイガースは今季、「七回終了時にリードを許している試合で0勝50敗」という少し衝撃的なデータです。www.sanspo.comこの記事に刺激さ…

Kaggle APIとLINE APIを用いたKernelの新規投稿を通知する仕組みの構築

はじめに システムの概要 launchdによる定期実行 Kaggle APIの実行 前回実行時からKernelの情報に差分があるか確認 LINE APIでの通知 デモンストレーション おわりに 脚注 はじめに Kaggle*1において、上位の成績を収めるためには日々投稿されるDiscussionや…

KaggleのSantander Value Prediction Challengeで銀メダルを取るためにしたこと(85th place solution)

注釈 初回公開時から89→90→85位に順位変動しました。Santander Value Prediction Challengeが本日終わり、順位は8985位で銀メダルでした。既にdiscussionに解法を投稿していますが、ブログにも日本語で共有します。 85th place solution 主な戦略は、以下の…

【Pandas】ある条件の列名の列を足し合わせる

業務で書いた。いろいろググったのでメモ。 要件 以下のようなテーブルがあったときに、2018年6月の合計を計算したい、つまり"201806"から始まる列の値を足し合わせたい。 user id 20180601 20180602 20180603 20180604 … 20180807 aaaaa 0 500 0 500 … 1000…

競技プログラミングを始めた&ABC104

競技プログラミングを始めました。「AIが〜」というオジサンではなく、きちんと自分の手を動かせる人間でありたいという気持ちです。 やったこと 環境構築 C++ Visual Studio Code 下記サイトを参考にしました。 VSCodeで始める競技プログラミング(環境構築…

Jリーグの戦評、「1秒あまり」で自動作成 Jリーグ公式サイトからテキスト速報をスクレイピングして試合を要約する

はじめに 神戸新聞社が開発した「経過戦評ロボットくん」 Jリーグ版を作った 生成した戦評 アルゴリズムの概要 テキスト速報のスクレイピング ゴールが入ったプレーか否かの判定 文言を微調整して戦評を作成 おわりに はじめに 先日(2018年7月24日)公開さ…

【論文メモ】プライバシーを守るDeep Neural Network 暗号化したMNISTでも分類性能97%

2P-DNN : Privacy-Preserving Deep Neural Networks Based on Homomorphic Cryptosystem https://arxiv.org/abs/1807.08459 Qiang Zhu, Xixiang Lv / School of Cyber Engineering, Xidian University, Xian 710071, China 概要 Microsoft Azure, Amazon AWS…

25歳になりました

本日、下記の記事でも書いた通り、25歳の誕生日を迎えました。なんかキリの良い数字な気がするので、直近1年の振り返りと今年の目標をつらつらと書きます。upura.hatenablog.com ↑お祝いで食べたケーキ(の代わり) 24歳の1年でやったこと 大学院を退学した …

pythonのunittestでコマンドライン引数をテストする方法と注意点

以下の記事で作ったプログラムにおいて、コマンドライン引数をテストするケースがありました。少なくとも日本語ではまともな記事が存在しなかったので、本記事ではその手法をまとめます。upura.hatenablog.com テストする関数 テストコード 解説 コマンドラ…

遺伝的アルゴリズムでAIに自分の誕生日を祝ってもらう

突然ですが、本日7月25日は僕の誕生日です。とはいえ、特に誰かが祝ってくれるわけでもないので「無いなら作る」というエンジニア精神で、誕生日を祝ってくれるプログラムを実装しました。GitHub github.com システム要件 システムの実装 [要件1] コマンドラ…

「Kaggleとは〇〇である」何と言えば一般の人に通じるのか問題

最近Kaggleにハマっているのですが、非エンジニアの友人に「Kaggleとは何か」を説明するのが難しいと感じています。本記事では、僕の試行錯誤と結果をまとめます。もし良い説明方法をお持ちの方がいたら、ぜひ教えてください。 想定する説明の状況 サイトで…

Instagramすらやってない20代エンジニアが、10代に人気の「Tik Tok」をやってみた(ダウンロードから投稿まで+感想)

Tik Tokとは ダウンロード 起動 アカウント設定 動画編集 動画投稿 所感 Tik Tokとは Tik Tokは、端的に言うと「15秒」という短時間限定の動画編集&投稿サイトです。短時間のため投稿や閲覧の障壁が低く、SNS的な要素も併せ持つことで、10代を中心に人気を…

『ウォールストリート・ジャーナル式図解表現のルール』第1章まとめ

下記の本の第1章をまとめて勉強会で発表した時の資料。kanki-pub.co.jp

岡山県&三重県の魅力を語ったプレゼン資料

僕が所属していた研究室には、夏の合宿の行き先をプレゼンで決める文化がありました。以下は、2年分の僕の発表資料です。こういう叙情的な資料も、たまには作ります。 岡山県 三重県

【論文メモ】カリウムGICの水酸化処理によるグラフェンへの剥離

授業の一環でゴリゴリの化学系論文を読んでまとめたときの発表資料。 読んだ論文 www.jstage.jst.go.jp

2年前にAutoencoderをChainerで実装したときの発表資料とコード

Google Driveを整理していたら発掘された。研究室での「Deep Learning勉強会」での発表資料。当時もDeep Learning流行ってた気がするけど、ここまでブーム続くとは思っていなかった。 GitHub github.com

RとPythonで良さげなラベル付き散布図を書く

今回は、RとPythonで良さげなラベル付き散布図を書く方法についてまとめます。良さげ=プロットした点とラベルの位置が重ならないよう、適当にズラして表示してくれるR/ggplot2 にはggrepelというラベルの位置を自動調整してくれるパッケージがあったのです…