u++の備忘録

自然言語処理

Windowsにpython-mecab導入(2017年11月)

自分用メモmac版はこちら Macにpython-mecab導入(2017年10月) - u++の備忘録 端末 Windows 10 Python環境 Python 3.6.2 | Anaconda インストール方法 pipで辞書などを丸ごと導入できるようにしてくださったものを利用する。qiita.com 事前インストール landi…

【論文メモ】Learning Document Embeddings With CNNs

論文名 Learning Document Embeddings With CNNs [1711.04168] Learning Document Embeddings With CNNs 概要 教師なし文書埋め込みのためのCNNを用いたモデルの提案。既存アプローチは、複雑な推論を必要とするか、または並列化が困難なRNNを使用。CNNを用…

【論文メモ】同義語を考慮した日本語の単語分散表現の学習

論文名 田口雄哉, 田森秀明, 人見雄太, 西鳥羽二郎, 菊田洸: 同義語を考慮した日本語の単語分散表現の学習, 情報処理学会研究報告, Vol.2017-NL-233 No.17, 2017. どんなもの? 訓練済みの単語分散表現を用い,同義語対を用いた日本語の単語分散表現の fine-…

【論文メモ】経済テキストデータを用いた極性概念辞書構築とその応用

論文名 伊藤友貴,坪内孝太,山下達雄,和泉潔: 経済テキストデータを用いた極性概念辞書構築とその応用, SIG-FIN-018, 2017. どんなもの? 本研究では,極性概念辞書の構築手法を提案すると共にその有用性を検証した.まず,ヤフーファイナンス掲示板のテキ…

【論文メモ】Neural Attention Modelを用いた観点付き評判分析

論文名 柳瀬利彦, 柳井孝介, 佐藤美沙, 三好利昇, 丹羽芳樹: Neural Attention Modelを用いた観点付き評判分析, The 30th Annual Conference of the Japanese Society for Artificial Intelligence, 2016. どんなもの? Neural Network の一種である Neural …

【論文メモ】国会会議録を用いたディベート人工知能による意見生成

論文名 佐藤美沙, 柳井孝介, 柳瀬利彦, 是枝祐太, 丹羽芳樹: 国会会議録を用いたディベート人工知能による意見生成, The 31st Annual Conference of the Japanese Society for Artificial Intelligence, 2017. https://kaigi.org/jsai/webprogram/2017/paper…

【論文メモ】企業経営における意思決定支援のためのイベント抽出

論文名 柳瀬利彦, 柳井孝介, 丹羽芳樹, 村上聡一朗, 渡邉亮彦, 宮澤彬, 五島圭一, 高村大也, 宮尾祐介, 中田亨: 企業経営における意思決定支援のためのイベント抽出, The 31st Annual Conference of the Japanese Society for Artificial Intelligence, 2017…

【論文メモ】多様なデータソースを活用するディベート型人工知能のための自然言語を核とするデータ表現

論文名 柳井孝介, 佐藤美沙, 柳瀬利彦: 多様なデータソースを活用するディベート型人工知能のための自然言語を核とするデータ表現, The 31st Annual Conference of the Japanese Society for Artificial Intelligence, 2017. https://kaigi.org/jsai/webprog…

【論文メモ】日本語単語ベクトルの構築とその評価

論文名 吉井和輝, Eric Nichols, 中野幹生, 青野雅樹: 日本語単語ベクトルの構築とその評価, 研究報告音声言語情報処理(SLP), 2015-SLP-106, 4, pp.1-8, 2015. 概要 本研究では,単語の類推 (word analogy) と文完成 (sentence completion) の二つの評価タ…

【論文メモ】Block segmentation and text area extraction of vertically/horizontally written document

論文名 N. Amamoto, S. Torigoe, Y. Hirogaki: Block segmentation and text area extraction of vertically/horizontally written document, Document Analysis and Recognition, 1993., Proceedings of the Second International Conference, 1993. Block …

python-mecab+sklearnを用いて、文章を分かち書きしてTF-IDFでベクトル化する

#!/usr/bin/env python3 # -*- coding: utf-8 -*- import MeCab from sklearn.feature_extraction.text import TfidfVectorizer # Initial settings vectorizer = TfidfVectorizer(use_idf=True, token_pattern=u'(?u)\\b\\w+\\b') # Global variables docs …

Macにpython-mecab導入(2017年10月)

自分用メモWindows版はこちら Windowsにpython-mecab導入(2017年11月) - u++の備忘録 端末 macOS Sierra, version 10.12.6 Python環境 Python 3.6.2 | Anaconda ※下記サイトに沿って構築 qiita.com python-mecab導入 mecab本体のインストール brew install m…

【論文メモ】業種別企業業績要因を含む新聞記事の抽出

論文名 丸澤英将(東京大学), 和泉潔(東京大学), 坂地泰紀(東京大学), 田村浩道(野村證券株式会社): 業種別企業業績要因を含む新聞記事の抽出, 第19回 人工知能学会 金融情報学研究会(SIG-FIN), 2017. どんなもの? 市場分析の専門家である証券アナリストが…

【論文メモ】Extractive Summarization by Maximizing Semantic Volume

論文名 Dani Yogatama, Fei Liu, Noah A. Smith: Extractive Summarization by Maximizing Semantic Volume, The 2015 Conference on Empirical Methods on Natural Language Processing(EMNLP 2015), 2015.09.link どんなもの? 文章要約タスクにおいて、文…

【論文メモ】業績推定とのマルチタスク学習による決算短信からの重要文抽出

論文名 磯沼大 et al.: 業績推定とのマルチタスク学習による決算短信からの重要文抽出, 研究報告情報基礎とアクセス技術(IFAT), 2017-IFAT-124, No. 10, pp. 1-6, 2017.02. 研究会 - 業績推定とのマルチタスク学習による決算短信からの重要文抽出 どんなも…

【論文メモ】文書分類とのマルチタスク学習による重要文抽出

論文名 磯沼大 et al.: 文書分類とのマルチタスク学習による重要文抽出, 人工知能学会全国大会論文集(第31回), 2017.05. jsai2017:1J1-4 文書分類とのマルチタスク学習による重要文抽出 どんなもの? 参照要約(人手で作成された要約)が少量の場合におい…

【論文メモ】業績変動を考慮した決算短信からの重要文抽出

論文名 磯沼大 et al.: 業績変動を考慮した決算短信からの重要文抽出, 情報処理学会研究報告, Vol. 2016-NL-227, No. 6, 2016.07. 情報学広場:情報処理学会電子図書館 どんなもの? 概要から抜粋 本研究では過去の決算短信と決算記事から業績変動と短信文の…

"「いいね!」増えるハッシュタグ、AIが提案、東大が新技術"という記事の補足

以下のようなキャッチーな科学ニュースがありましたが、いかんせん「東大が新技術」だけでどの部局の誰が発表したかなど情報が欠落していたので、備忘録としての補足。www.itmedia.co.jp 科学技術振興機構(JST)からのプレスリリース www.jst.go.jp 研究…

【Python, Gensim】doc2vecで関連記事の見出しを抽出する試み

今回は、過去2回の記事*1*2でも使った日経新聞のツイッター(@nikkei)の投稿文のデータセットを用いて、類似する見出しを抽出しようという話です。とある見出しと類似する見出し、つまり関連記事を取り出す試みになります。 doc2vec この問題に取り組むため、…

rでテキストファイルの文を1行ずつ分かち書き

今回は、前回の記事で作成したデータセットについて、分かち書きを実行します。分かち書きすることで、例えばword2vec*1など更なる分析に活用できます。 前回に引き続き利用するRパッケージRMeCab*2には、RMeCabTextという関数が用意されています。 RMeCabTe…

日経新聞のツイッター(@nikkei)で出現頻度の高い単語を抽出してみた

今回の記事では、自然言語処理の勉強(の手始め)として、日経新聞のツイッター(@nikkei)において出現頻度の高い単語を抽出します。 データセット 日経新聞のツイッター(@nikkei)の投稿文 期間:2017年6月7日~2017年7月26日 当該期間の3200件の投稿から、RT…