2020-03-01から1ヶ月間の記事一覧
少し日は経ってしまいましたが、データサイエンス・機械学習(主にKaggle)について話すPodCast「regonn&curry.fm」にゲスト参加しました。先日発行した拙著*1などについて、共著者のカレーさんも含めてざっくばらんにお話しています。 ご興味あれば、ぜひお聴…
「企業分析における自然言語処理を学ぼう」と題した勉強会*1に参加しました。初めての大規模なオンライン勉強会への参加でしたが、画質も全く問題なくChatやtwitterのハッシュタグでコミュニケーションが取れて「これはこれで良いな」という感想を抱きました…
AutoML「AutoGluon-Tabular」が、少なくとも私の観測範囲の中で局所的に話題になっています。 構造化データに対するAutoMLとしてAutoGluon-Tabularは基本モデルを積み重ねる多層スタックアンサンブルを利用。各層は前層の予測結果と入力を受け取り、過学習を…
「第24回 人工知能学会 金融情報学研究会(SIG-FIN)」*1で気になった発表をいくつか読みました。 昨年10月の第23回が台風接近の影響で中止*2となり、今回も新型コロナウイルスの影響で中止*3となってしまいました。今回は「発表扱い」で原稿も公表されたの…
共著で執筆した、3月17日発売の『PythonではじめるKaggleスタートブック』(講談社)が手元に届きました。 本記事では、本書の関連リンクをまとめました。以前に書いた告知記事については、補足情報も付与します。 Amazon www.amazon.co.jp サンプルコード g…
久しぶりにAtCoderのコンテストに参加しました。A, B問題の2完でした。 atcoder.jp A - Hitachi String(100点) 「Sの長さは1以上10以下」なので、hitachi文字列は高々5通りです S = input() hitachi = [ 'hi', 'hihi', 'hihihi', 'hihihihi', 'hihihihihi'…
今夜のピン芸人ナンバーワン決定戦「R-1ぐらんぷり」は、流行する新型コロナウイルスの影響を受け、史上初めて無観客で開催されます*1。 この異例の事態を受けて、自分の中で「会場のウケ量が分かりづらく審査員が判断に困るのでは」という仮説が浮かびまし…
CatBoostの(カテゴリカラム指定ならぬ)テキストカラム指定機能を試してみました。本記事の内容は、discussion*1に投稿済です。 Kaggle「Real or Not? NLP with Disaster Tweets」*2コンペのデータセットを利用しました。 target_col = 'target' text_cols …
ご縁があり、株式会社はてな東京オフィス*1を訪問しました。はてなブログは2016年9月から足掛け3年半、総計350記事以上書いてきた思い入れあるサービスです。 はてなブロガー、はてなに行く pic.twitter.com/W6CugHOgry— u++ (@upura0) March 2, 2020 お土産…
"Linear Quiz Blending" や "Netflix Blending" と呼ばれる技法について、少し前にまとめたスライドを公開しました。 少し前からKaggleをやっている方だと「Kaggle Tokyo Meetup #5」*1での、Kaggle Grandmasterのsmlyさんの発表が印象的かもしれません。 Ka…
2月26日に刊行された『機械学習・深層学習による自然言語処理入門 scikit-learnとTensorFlowを使った実践プログラミング』を読みました。 「日本語」のデータで、「今の自然言語処理」をイチから学ぶ! 公式サイトの宣言文句が、本書の特徴を言い得ています…