u++の備忘録

自然言語処理

TF-IDFを用いた「Kaggle流行語大賞2018」【kaggle Advent Calendar 14日目】

本記事は、kaggle Advent Calendar 2018の14日目の記事です。12日目で最後の予定でしたが、穴が空いていたので2日ぶり6回目の投稿です。qiita.com はじめに 本記事では、年の瀬ということで「Kaggle流行語大賞2018」という題材に取り組みます。具体的には、…

Rを用いて般若心経を感情分析してみた

はじめに 感情分析とは Rのパッケージ 般若心経を感情分析 データの準備 分析結果 おわりに はじめに 本記事は、hiro.is(@youjo_DS)さんの以下のブログを読んで着想を得ました。loveshome.hatenablog.jp 感情分析とは 感情分析とは、その名の通り単語や文章…

Pythonで動く形態素解析ツール「nagisa」を使ってみた

はじめに nagisaとは 使ってみた nagisaの利点 文字単位の双方向LSTMを採用しており、URLや顔文字に頑健 単語分割の方法を調整できる nagisaの課題 おわりに はじめに PyCon2018でポスター展示があったらしく、フォロワーさんの投稿で存在を知りました。形態…

Jリーグの戦評、「1秒あまり」で自動作成 Jリーグ公式サイトからテキスト速報をスクレイピングして試合を要約する

はじめに 神戸新聞社が開発した「経過戦評ロボットくん」 Jリーグ版を作った 生成した戦評 アルゴリズムの概要 テキスト速報のスクレイピング ゴールが入ったプレーか否かの判定 文言を微調整して戦評を作成 おわりに はじめに 先日(2018年7月24日)公開さ…

遺伝的アルゴリズムでAIに自分の誕生日を祝ってもらう

突然ですが、本日7月25日は僕の誕生日です。とはいえ、特に誰かが祝ってくれるわけでもないので「無いなら作る」というエンジニア精神で、誕生日を祝ってくれるプログラムを実装しました。GitHub github.com システム要件 システムの実装 [要件1] コマンドラ…

【論文メモ】世代による政治ニュース記事の閲覧傾向の違いの分析

どんなもの? グノシーにおけるユーザ行動履歴を用い、政治に関するニュース記事の閲覧傾向が世代によってどのように異なるのかを分析。最初に世代ごとのPVランキングを作成し、後に順位の差分が大きい記事を取り上げることで、若い世代は政策に中高年は政局…

自然言語処理×ジャーナリズムな研究まとめ ~ 言語処理学会(NLP2018)より ~

今年のGWも終わりますね。僕は若者らしく、今年3月の言語処理学会の論文を読み漁っていました*1。言語処理学会第24回年次大会(NLP2018) の発表論文集を一般公開しました。年次大会参加者だけでなく、すべての方が登録等一切なしですべての発表論文PDFをご覧…

【論文メモ】Experiment on Using Topic Sentence for Neural News Headline Generation

Experiment on Using Topic Sentence for Neural News Headline Generation Jan Wira Gotama Putra (東工大), Hayato Kobayashi (ヤフー/理研AIP), Nobuyuki Shimizu (ヤフー) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeti…

【論文メモ】ファクトチェックを必要とするニュース記事の探索の支援

ファクトチェックを必要とするニュース記事の探索の支援 田上翼, 浅野広樹 (東北大), 楊井人文, 山下亮 (日本報道検証機構), 小宮篤史, 藤村厚夫 (スマートニュース), 町野明徳 (フリー), 乾健太郎 (東北大) 言語処理学会第24回年次大会(NLP2018) http://anl…

【論文メモ】プレイデータからのサッカーの速報テキスト生成

プレイデータからのサッカーの速報テキスト生成 谷口泰史 (東工大), 高村大也 (東工大/産総研), 奥村学 (東工大) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/A3-2.pdf どんなもの? www.nikkei.com サッ…

【論文メモ】会話によるニュース記事伝達のための間の調整

会話によるニュース記事伝達のための間の調整 高津弘明, 横山勝矢 (早大), 本田裕 (本田技研), 藤江真也 (千葉工大), 林良彦, 小林哲則 (早大) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/P1-25.pdf どん…

【論文メモ】ニュースからのトピックに関するストーリーラインの生成

ニュースからのトピックに関するストーリーラインの生成 谷口祐太郎, 小林哲則, 林良彦 (早大) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/P7-14.pdf どんなもの? ニュースコーパスからトピック (知りた…

【論文メモ】検索エンジンによる上位検索ページを情報源とするフェイクニュース自動検出のためのデータセット作成

検索エンジンによる上位検索ページを情報源とするフェイクニュース自動検出のためのデータセット作成 尾崎諒介, 前田竜冶 (福井大), 宇津呂武仁 (筑波大), 村瀬一之 (福井大) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meetin…

【論文メモ】ブートストラップ法による科学ニュース記事からの雑誌名抽出

ブートストラップ法による科学ニュース記事からの雑誌名抽出 菊地真人, 吉田光男, 梅村恭司 (豊橋技科大) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/P11-6.pdf どんなもの? 日本語の科学ニュース記事で…

【論文メモ】決算短信からの事業セグメント情報抽出

決算短信からの事業セグメント情報抽出 伊藤友貴 (東大), 小林暁雄, 関根聡 (理研AIP) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/D1-3.pdf 訂正:http://anlp.jp/proceedings/annual_meeting/2018/pdf_d…

【論文メモ】経済記事からの不祥事報道検知

経済記事からの不祥事報道検知 Jason Bennett, 野原崇史 (三井住友アセットマネジメント), Fei Cheng (NII), ○石田隆 (三井住友アセットマネジメント), 宮尾祐介 (NII) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018…

【論文メモ】関連記事判定のためのニュース記事キーフレーズ抽出

関連記事判定のためのニュース記事キーフレーズ抽出 大倉俊平, 小野真吾 (ヤフー) 言語処理学会第24回年次大会(NLP2018) http://www.anlp.jp/proceedings/annual_meeting/2018/pdf_dir/A7-4.pdf どんなもの? 以前に報道された事柄を前提とする「続報記事」…

【論文メモ】Data2Vis: Automatic Generation of Data Visualizations Using Sequence to Sequence Recurrent Neural Networks

Data2Vis: Automatic Generation of Data Visualizations Using Sequence to Sequence Recurrent Neural Networks Victor Dibia, Çağatay Demiralp [1804.03126] Data2Vis: Automatic Generation of Data Visualizations Using Sequence to Sequence Recurre…

【論文メモ】新聞記事における政治家の発言の引用記述と議会会議録との対応関係の調査 ―フェイクニュース検出に向けて―

論文名 新聞記事における政治家の発言の引用記述と議会会議録との対応関係の調査 ―フェイクニュース検出に向けて― 木村泰知, 戸嶋咲穂, 渋木英潔 言語処理学会 第24回年次大会 発表論文集 (2018年3月) http://anlp.jp/proceedings/annual_meeting/2018/pdf_d…

【論文メモ】Embedding-based News Recommendation for Millions of Users

論文名 Embedding-based News Recommendation for Millions of Users Shumpei Okura (Yahoo! JAPAN);Yukihiro Tagami (Yahoo Japan Corporation);Shingo Ono (Yahoo Japan Corporation);Akira Tajima (Yahoo! Japan) KDD2017 http://www.kdd.org/kdd2017/pap…

【Python&遊戯王】文章類似度の計算手法”Doc2vec”は「コンマイ語」にも通用するのか

はじめに 要するにやること 本記事では 遊戯王カードの効果テキストを基に Doc2vecという文章単位の類似度を計算するアルゴリズムを使って 類似したカードを探すコードを実装してみます 遊戯王カードの効果テキストは、あまりの複雑さや特殊な解釈のために「…

Windowsにpython-mecab導入(2017年11月)

自分用メモmac版はこちら Macにpython-mecab導入(2017年10月) - u++の備忘録 端末 Windows 10 Python環境 Python 3.6.2 | Anaconda インストール方法 pipで辞書などを丸ごと導入できるようにしてくださったものを利用する。qiita.com 事前インストール landi…

【論文メモ】Learning Document Embeddings With CNNs

論文名 Learning Document Embeddings With CNNs [1711.04168] Learning Document Embeddings With CNNs 概要 教師なし文書埋め込みのためのCNNを用いたモデルの提案。既存アプローチは、複雑な推論を必要とするか、または並列化が困難なRNNを使用。CNNを用…

【論文メモ】AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification

追記:20171226 論文読み会での発表資料を共有します。 === 追記終以下の記事に記載した論文upura.hatenablog.com 論文名 Yukihiro Tagami: AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification, KDD’17, pp.455-464, Aug…

【論文メモ】同義語を考慮した日本語の単語分散表現の学習

論文名 田口雄哉, 田森秀明, 人見雄太, 西鳥羽二郎, 菊田洸: 同義語を考慮した日本語の単語分散表現の学習, 情報処理学会研究報告, Vol.2017-NL-233 No.17, 2017. どんなもの? 訓練済みの単語分散表現を用い,同義語対を用いた日本語の単語分散表現の fine-…

【論文メモ】経済テキストデータを用いた極性概念辞書構築とその応用

論文名 伊藤友貴,坪内孝太,山下達雄,和泉潔: 経済テキストデータを用いた極性概念辞書構築とその応用, SIG-FIN-018, 2017. どんなもの? 本研究では,極性概念辞書の構築手法を提案すると共にその有用性を検証した.まず,ヤフーファイナンス掲示板のテキ…

【論文メモ】Neural Attention Modelを用いた観点付き評判分析

論文名 柳瀬利彦, 柳井孝介, 佐藤美沙, 三好利昇, 丹羽芳樹: Neural Attention Modelを用いた観点付き評判分析, The 30th Annual Conference of the Japanese Society for Artificial Intelligence, 2016. どんなもの? Neural Network の一種である Neural …

【論文メモ】国会会議録を用いたディベート人工知能による意見生成

論文名 佐藤美沙, 柳井孝介, 柳瀬利彦, 是枝祐太, 丹羽芳樹: 国会会議録を用いたディベート人工知能による意見生成, The 31st Annual Conference of the Japanese Society for Artificial Intelligence, 2017. https://kaigi.org/jsai/webprogram/2017/paper…

【論文メモ】企業経営における意思決定支援のためのイベント抽出

論文名 柳瀬利彦, 柳井孝介, 丹羽芳樹, 村上聡一朗, 渡邉亮彦, 宮澤彬, 五島圭一, 高村大也, 宮尾祐介, 中田亨: 企業経営における意思決定支援のためのイベント抽出, The 31st Annual Conference of the Japanese Society for Artificial Intelligence, 2017…

【論文メモ】多様なデータソースを活用するディベート型人工知能のための自然言語を核とするデータ表現

論文名 柳井孝介, 佐藤美沙, 柳瀬利彦: 多様なデータソースを活用するディベート型人工知能のための自然言語を核とするデータ表現, The 31st Annual Conference of the Japanese Society for Artificial Intelligence, 2017. https://kaigi.org/jsai/webprog…