u++の備忘録

TECHNOLOGY::自然言語処理

【論文メモ】世代による政治ニュース記事の閲覧傾向の違いの分析

どんなもの? グノシーにおけるユーザ行動履歴を用い、政治に関するニュース記事の閲覧傾向が世代によってどのように異なるのかを分析。最初に世代ごとのPVランキングを作成し、後に順位の差分が大きい記事を取り上げることで、若い世代は政策に中高年は政局…

自然言語処理×ジャーナリズムな研究まとめ ~ 言語処理学会(NLP2018)より ~

今年のGWも終わりますね。僕は若者らしく、今年3月の言語処理学会の論文を読み漁っていました*1。言語処理学会第24回年次大会(NLP2018) の発表論文集を一般公開しました。年次大会参加者だけでなく、すべての方が登録等一切なしですべての発表論文PDFをご覧…

【論文メモ】Experiment on Using Topic Sentence for Neural News Headline Generation

Experiment on Using Topic Sentence for Neural News Headline Generation Jan Wira Gotama Putra (東工大), Hayato Kobayashi (ヤフー/理研AIP), Nobuyuki Shimizu (ヤフー) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeti…

【論文メモ】ファクトチェックを必要とするニュース記事の探索の支援

ファクトチェックを必要とするニュース記事の探索の支援 田上翼, 浅野広樹 (東北大), 楊井人文, 山下亮 (日本報道検証機構), 小宮篤史, 藤村厚夫 (スマートニュース), 町野明徳 (フリー), 乾健太郎 (東北大) 言語処理学会第24回年次大会(NLP2018) http://anl…

【論文メモ】プレイデータからのサッカーの速報テキスト生成

プレイデータからのサッカーの速報テキスト生成 谷口泰史 (東工大), 高村大也 (東工大/産総研), 奥村学 (東工大) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/A3-2.pdf どんなもの? www.nikkei.com サッ…

【論文メモ】会話によるニュース記事伝達のための間の調整

会話によるニュース記事伝達のための間の調整 高津弘明, 横山勝矢 (早大), 本田裕 (本田技研), 藤江真也 (千葉工大), 林良彦, 小林哲則 (早大) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/P1-25.pdf どん…

【論文メモ】ニュースからのトピックに関するストーリーラインの生成

ニュースからのトピックに関するストーリーラインの生成 谷口祐太郎, 小林哲則, 林良彦 (早大) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/P7-14.pdf どんなもの? ニュースコーパスからトピック (知りた…

【論文メモ】検索エンジンによる上位検索ページを情報源とするフェイクニュース自動検出のためのデータセット作成

検索エンジンによる上位検索ページを情報源とするフェイクニュース自動検出のためのデータセット作成 尾崎諒介, 前田竜冶 (福井大), 宇津呂武仁 (筑波大), 村瀬一之 (福井大) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meetin…

【論文メモ】ブートストラップ法による科学ニュース記事からの雑誌名抽出

ブートストラップ法による科学ニュース記事からの雑誌名抽出 菊地真人, 吉田光男, 梅村恭司 (豊橋技科大) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/P11-6.pdf どんなもの? 日本語の科学ニュース記事で…

【論文メモ】決算短信からの事業セグメント情報抽出

決算短信からの事業セグメント情報抽出 伊藤友貴 (東大), 小林暁雄, 関根聡 (理研AIP) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/D1-3.pdf 訂正:http://anlp.jp/proceedings/annual_meeting/2018/pdf_d…

【論文メモ】経済記事からの不祥事報道検知

経済記事からの不祥事報道検知 Jason Bennett, 野原崇史 (三井住友アセットマネジメント), Fei Cheng (NII), ○石田隆 (三井住友アセットマネジメント), 宮尾祐介 (NII) 言語処理学会第24回年次大会(NLP2018) http://anlp.jp/proceedings/annual_meeting/2018…

【論文メモ】関連記事判定のためのニュース記事キーフレーズ抽出

関連記事判定のためのニュース記事キーフレーズ抽出 大倉俊平, 小野真吾 (ヤフー) 言語処理学会第24回年次大会(NLP2018) http://www.anlp.jp/proceedings/annual_meeting/2018/pdf_dir/A7-4.pdf どんなもの? 以前に報道された事柄を前提とする「続報記事」…

【論文メモ】Data2Vis: Automatic Generation of Data Visualizations Using Sequence to Sequence Recurrent Neural Networks

Data2Vis: Automatic Generation of Data Visualizations Using Sequence to Sequence Recurrent Neural Networks Victor Dibia, Çağatay Demiralp [1804.03126] Data2Vis: Automatic Generation of Data Visualizations Using Sequence to Sequence Recurre…

【論文メモ】新聞記事における政治家の発言の引用記述と議会会議録との対応関係の調査 ―フェイクニュース検出に向けて―

論文名 新聞記事における政治家の発言の引用記述と議会会議録との対応関係の調査 ―フェイクニュース検出に向けて― 木村泰知, 戸嶋咲穂, 渋木英潔 言語処理学会 第24回年次大会 発表論文集 (2018年3月) http://anlp.jp/proceedings/annual_meeting/2018/pdf_d…

【論文メモ】Embedding-based News Recommendation for Millions of Users

論文名 Embedding-based News Recommendation for Millions of Users Shumpei Okura (Yahoo! JAPAN);Yukihiro Tagami (Yahoo Japan Corporation);Shingo Ono (Yahoo Japan Corporation);Akira Tajima (Yahoo! Japan) KDD2017 http://www.kdd.org/kdd2017/pap…

【Python&遊戯王】文章類似度の計算手法”Doc2vec”は「コンマイ語」にも通用するのか

はじめに 要するにやること 本記事では 遊戯王カードの効果テキストを基に Doc2vecという文章単位の類似度を計算するアルゴリズムを使って 類似したカードを探すコードを実装してみます 遊戯王カードの効果テキストは、あまりの複雑さや特殊な解釈のために「…

Windowsにpython-mecab導入(2017年11月)

自分用メモmac版はこちら Macにpython-mecab導入(2017年10月) - u++の備忘録 端末 Windows 10 Python環境 Python 3.6.2 | Anaconda インストール方法 pipで辞書などを丸ごと導入できるようにしてくださったものを利用する。qiita.com 事前インストール landi…

【論文メモ】Learning Document Embeddings With CNNs

論文名 Learning Document Embeddings With CNNs [1711.04168] Learning Document Embeddings With CNNs 概要 教師なし文書埋め込みのためのCNNを用いたモデルの提案。既存アプローチは、複雑な推論を必要とするか、または並列化が困難なRNNを使用。CNNを用…

【論文メモ】AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification

追記:20171226 論文読み会での発表資料を共有します。 === 追記終以下の記事に記載した論文upura.hatenablog.com 論文名 Yukihiro Tagami: AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification, KDD’17, pp.455-464, Aug…

【論文メモ】同義語を考慮した日本語の単語分散表現の学習

論文名 田口雄哉, 田森秀明, 人見雄太, 西鳥羽二郎, 菊田洸: 同義語を考慮した日本語の単語分散表現の学習, 情報処理学会研究報告, Vol.2017-NL-233 No.17, 2017. どんなもの? 訓練済みの単語分散表現を用い,同義語対を用いた日本語の単語分散表現の fine-…

【論文メモ】経済テキストデータを用いた極性概念辞書構築とその応用

論文名 伊藤友貴,坪内孝太,山下達雄,和泉潔: 経済テキストデータを用いた極性概念辞書構築とその応用, SIG-FIN-018, 2017. どんなもの? 本研究では,極性概念辞書の構築手法を提案すると共にその有用性を検証した.まず,ヤフーファイナンス掲示板のテキ…

【論文メモ】Neural Attention Modelを用いた観点付き評判分析

論文名 柳瀬利彦, 柳井孝介, 佐藤美沙, 三好利昇, 丹羽芳樹: Neural Attention Modelを用いた観点付き評判分析, The 30th Annual Conference of the Japanese Society for Artificial Intelligence, 2016. どんなもの? Neural Network の一種である Neural …

【論文メモ】国会会議録を用いたディベート人工知能による意見生成

論文名 佐藤美沙, 柳井孝介, 柳瀬利彦, 是枝祐太, 丹羽芳樹: 国会会議録を用いたディベート人工知能による意見生成, The 31st Annual Conference of the Japanese Society for Artificial Intelligence, 2017. https://kaigi.org/jsai/webprogram/2017/paper…

【論文メモ】企業経営における意思決定支援のためのイベント抽出

論文名 柳瀬利彦, 柳井孝介, 丹羽芳樹, 村上聡一朗, 渡邉亮彦, 宮澤彬, 五島圭一, 高村大也, 宮尾祐介, 中田亨: 企業経営における意思決定支援のためのイベント抽出, The 31st Annual Conference of the Japanese Society for Artificial Intelligence, 2017…

【論文メモ】多様なデータソースを活用するディベート型人工知能のための自然言語を核とするデータ表現

論文名 柳井孝介, 佐藤美沙, 柳瀬利彦: 多様なデータソースを活用するディベート型人工知能のための自然言語を核とするデータ表現, The 31st Annual Conference of the Japanese Society for Artificial Intelligence, 2017. https://kaigi.org/jsai/webprog…

【論文メモ】日本語単語ベクトルの構築とその評価

論文名 吉井和輝, Eric Nichols, 中野幹生, 青野雅樹: 日本語単語ベクトルの構築とその評価, 研究報告音声言語情報処理(SLP), 2015-SLP-106, 4, pp.1-8, 2015. 概要 本研究では,単語の類推 (word analogy) と文完成 (sentence completion) の二つの評価タ…

【論文メモ】Block segmentation and text area extraction of vertically/horizontally written document

論文名 N. Amamoto, S. Torigoe, Y. Hirogaki: Block segmentation and text area extraction of vertically/horizontally written document, Document Analysis and Recognition, 1993., Proceedings of the Second International Conference, 1993. Block …

python-mecab+sklearnを用いて、文章を分かち書きしてTF-IDFでベクトル化する

#!/usr/bin/env python3 # -*- coding: utf-8 -*- import MeCab from sklearn.feature_extraction.text import TfidfVectorizer # Initial settings vectorizer = TfidfVectorizer(use_idf=True, token_pattern=u'(?u)\\b\\w+\\b') # Global variables docs …

Macにpython-mecab導入(2017年10月)

自分用メモWindows版はこちら Windowsにpython-mecab導入(2017年11月) - u++の備忘録 端末 macOS Sierra, version 10.12.6 Python環境 Python 3.6.2 | Anaconda ※下記サイトに沿って構築 qiita.com python-mecab導入 mecab本体のインストール brew install m…

【論文メモ】業種別企業業績要因を含む新聞記事の抽出

論文名 丸澤英将(東京大学), 和泉潔(東京大学), 坂地泰紀(東京大学), 田村浩道(野村證券株式会社): 業種別企業業績要因を含む新聞記事の抽出, 第19回 人工知能学会 金融情報学研究会(SIG-FIN), 2017. どんなもの? 市場分析の専門家である証券アナリストが…