u++の備忘録

KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」のPython実装

今回は、KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」を紹介します。Rでの実装は公開されていますが、Pythonでの実装は確認できなかったので、自前のPython実装も公開しています。github.com アルゴリズムの概要 Pythonでの例 可視化のた…

【論文メモ】世代による政治ニュース記事の閲覧傾向の違いの分析

どんなもの? グノシーにおけるユーザ行動履歴を用い、政治に関するニュース記事の閲覧傾向が世代によってどのように異なるのかを分析。最初に世代ごとのPVランキングを作成し、後に順位の差分が大きい記事を取り上げることで、若い世代は政策に中高年は政局…

matplotlib.pyplot.histとseaborn.distplotの違い

seaborn.distplotの公式ドキュメントには「matplotlib.pyplot.histを使っている」と記載がある。 This function combines the matplotlib hist function (with automatic calculation of a good default bin size) with the seaborn kdeplot() and rugplot()…

【書籍メモ】実践Node.jsプログラミング|第1章 Node.js に、ようこそ!

www.shoeisha.co.jp この章で扱う概念 サーバサイド開発に、なぜJavaScriptが重要なのか ブラウザはJavaScriptを使って、どのようにI/Oを処理するのか サーバ上のNodeは、どのようにI/Oを処理するのか DIRTyアプリケーションとは何を提供するのか。どうして…

"Uncaught SyntaxError: Unexpected token u in JSON at position 0"の対処法

Uncaught SyntaxError: Unexpected token u in JSON at position 0 at JSON.parse (<anonymous>) 環境 Node.js (v8.10.0) 対処法 上記のエラーが出た時は、どこかでundefinedのものをJSON.parse()してしまっている。丁寧に処理を追いかけ、原因発生箇所を見つける。</anonymous>

【Python, networkx】max_weight_matchingの裏側

はじめに max_weight_matching() について Documentation どういう関数? アルゴリズムの詳細 bipartite.maximum_matching() について Documentation どういう関数? グラフ理論のマッチングアルゴリズムの紹介スライド はじめに 以下の記事で用いた "max_we…

勾配ブースティング決定木を用いたマーケティング施策の選定

はじめに 勾配ブースティング決定木とは 決定木とは アンサンブルとは バギング ブースティング Pythonでの実装例 データの準備 データの可視化 モデルの構築(クロスバリデーション) テストデータに適用 説明変数の重要度の算出 はじめに 今回は、勾配ブー…

二部グラフの最大マッチング問題|Python実装

参考にした実装 ina17.hatenablog.jp 改良点 setのエラーの回避 setでは .items() が使えないので回避した 条件分岐の追加 パッケージの都合で(3, 9)の組み合わせが(9,3)の順で出力される場合が考慮されていなかったので修正した Python実装 import networkx…

安定結婚問題|ゲール-シャプレイ (Gale-Shapley) アルゴリズムのPython実装

概要 安定結婚問題 - Wikipedia 参考にした実装 cielan.hateblo.jp 改良点 アルゴリズム修正 とある男がプロポーズする際に、好みの女からプロポーズするように修正した 引数の追加 男4人・女3人など、男女の数が同一でないパターンにも対応できるようにした…

データ分析からの新規施策提案|SF Bay Area Bike Share, Kaggle

はじめに 某イベントにて、「データ分析からの新規施策提案」をテーマに資料を作成したのでブログでも共有します。 題材 SF Bay Area Bike Share | Kaggle 成果物 Speaker Deck Kaggle Kernel GitHub

Oculus Goが届いた(感想)

昨晩に届いて2時間くらい一気に試して、今日は「もう別に触らなくて良いかな」という気分まで燃え尽きた。 試したアプリ Epic Roller Coaster 速攻で酔った。自分がVR酔いしやすいと判明し、萎えた。 ブラウザ DAZNと日経新聞紙面ビューアーを見た。DAZNは巨…

【Pandas】欠損値を、欠損していない値からランダム抽出して補完する

あまりこういう欠損値補完はしない気もするけど、業務にて要望があった。調べても、これくらいしか情報が出てこなかったので、自分用メモ。もっと良い書き方がある気がする。stackoverflow.com target_column_name = list(df.columns[df.isnull().any(0)]) f…

自然言語処理×ジャーナリズムな研究まとめ ~ 言語処理学会(NLP2018)より ~

今年のGWも終わりますね。僕は若者らしく、今年3月の言語処理学会の論文を読み漁っていました*1。言語処理学会第24回年次大会(NLP2018) の発表論文集を一般公開しました。年次大会参加者だけでなく、すべての方が登録等一切なしですべての発表論文PDFをご覧…

【論文メモ】Experiment on Using Topic Sentence for Neural News Headline Generation

Experiment on Using Topic Sentence for Neural News Headline Generation Jan Wira Gotama Putra (東工大), Hayato Kobayashi (ヤフー/理研AIP), Nobuyuki Shimizu (ヤフー) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeti…

【論文メモ】ファクトチェックを必要とするニュース記事の探索の支援

ファクトチェックを必要とするニュース記事の探索の支援 田上翼, 浅野広樹 (東北大), 楊井人文, 山下亮 (日本報道検証機構), 小宮篤史, 藤村厚夫 (スマートニュース), 町野明徳 (フリー), 乾健太郎 (東北大) 言語処理学会第24回年次大会(NLP2018) http://anl…

【論文メモ】プレイデータからのサッカーの速報テキスト生成

プレイデータからのサッカーの速報テキスト生成 谷口泰史 (東工大), 高村大也 (東工大/産総研), 奥村学 (東工大) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/A3-2.pdf どんなもの? www.nikkei.com サッ…

【論文メモ】会話によるニュース記事伝達のための間の調整

会話によるニュース記事伝達のための間の調整 高津弘明, 横山勝矢 (早大), 本田裕 (本田技研), 藤江真也 (千葉工大), 林良彦, 小林哲則 (早大) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/P1-25.pdf どん…

【論文メモ】複数エンコーダを用いたヤフートピックス見出し候補生成

複数エンコーダを用いたヤフートピックス見出し候補生成 小林健 (ヤフー), 小林隼人 (ヤフー/理研AIP), 村尾一真, 増山毅司 (ヤフー) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/A1-3.pdf どんなもの? Y…

【論文メモ】ニュースからのトピックに関するストーリーラインの生成

ニュースからのトピックに関するストーリーラインの生成 谷口祐太郎, 小林哲則, 林良彦 (早大) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/P7-14.pdf どんなもの? ニュースコーパスからトピック (知りた…

【論文メモ】検索エンジンによる上位検索ページを情報源とするフェイクニュース自動検出のためのデータセット作成

検索エンジンによる上位検索ページを情報源とするフェイクニュース自動検出のためのデータセット作成 尾崎諒介, 前田竜冶 (福井大), 宇津呂武仁 (筑波大), 村瀬一之 (福井大) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meetin…

【論文メモ】ブートストラップ法による科学ニュース記事からの雑誌名抽出

ブートストラップ法による科学ニュース記事からの雑誌名抽出 菊地真人, 吉田光男, 梅村恭司 (豊橋技科大) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/P11-6.pdf どんなもの? 日本語の科学ニュース記事で…

【論文メモ】決算短信からの事業セグメント情報抽出

決算短信からの事業セグメント情報抽出 伊藤友貴 (東大), 小林暁雄, 関根聡 (理研AIP) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/D1-3.pdf 訂正:http://anlp.jp/proceedings/annual_meeting/2018/pdf_d…

【論文メモ】経済記事からの不祥事報道検知

経済記事からの不祥事報道検知 Jason Bennett, 野原崇史 (三井住友アセットマネジメント), Fei Cheng (NII), ○石田隆 (三井住友アセットマネジメント), 宮尾祐介 (NII) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018…

【論文メモ】関連記事判定のためのニュース記事キーフレーズ抽出

関連記事判定のためのニュース記事キーフレーズ抽出 大倉俊平, 小野真吾 (ヤフー) 言語処理学会第24回年次大会(NLP2018) http://www.anlp.jp/proceedings/annual_meeting/2018/pdf_dir/A7-4.pdf どんなもの? 以前に報道された事柄を前提とする「続報記事」…

大学中退→10月入社で得た三つのもの:金と時間と健康

「働き方」にまつわる #わたしの転機 の一つは、東大を退学して2017年10月に新卒入社したことです。GWのまとまった休みで気持ちの整理をしたいという考えから、入社から7カ月を経ての思いの丈を備忘録にまとめておきます。upura.hatenablog.com 存在した三…

【論文メモ】Data2Vis: Automatic Generation of Data Visualizations Using Sequence to Sequence Recurrent Neural Networks

Data2Vis: Automatic Generation of Data Visualizations Using Sequence to Sequence Recurrent Neural Networks Victor Dibia, Çağatay Demiralp [1804.03126] Data2Vis: Automatic Generation of Data Visualizations Using Sequence to Sequence Recurre…

【TEDメモ】統計を好きになるべき理由 (アラン・スミス | TEDxExeter)

www.ted.com 概要 フィナンシャル・タイムズのアラン・スミスさんのTEDトーク。 ”人が初歩的な数学を理解できるのは「当たり前」と考えがちだけど、実際はそうではない。しかし統計は本来「私たち自身に関する科学」であり、数学の得手不得手に関係なく数字…

【書評】『前処理大全』はNot Awesomeな局所解に気付かせてくれる本

前処理大全[データ分析のためのSQL/R/Python実践テクニック] 本橋智光 著,株式会社ホクソエム 監修 定価(本体3,000円+税) 技術評論社 gihyo.jp どんな本? データサイエンスの現場で遭遇する様々なトピック(抽出・集約・結合など)を題材に、R・Pytho…

【論文メモ】新聞記事における政治家の発言の引用記述と議会会議録との対応関係の調査 ―フェイクニュース検出に向けて―

論文名 新聞記事における政治家の発言の引用記述と議会会議録との対応関係の調査 ―フェイクニュース検出に向けて― 木村泰知, 戸嶋咲穂, 渋木英潔 言語処理学会 第24回年次大会 発表論文集 (2018年3月) http://anlp.jp/proceedings/annual_meeting/2018/pdf_d…

【論文メモ】Embedding-based News Recommendation for Millions of Users

論文名 Embedding-based News Recommendation for Millions of Users Shumpei Okura (Yahoo! JAPAN);Yukihiro Tagami (Yahoo Japan Corporation);Shingo Ono (Yahoo Japan Corporation);Akira Tajima (Yahoo! Japan) KDD2017 http://www.kdd.org/kdd2017/pap…