2020-01-01から1年間の記事一覧
問題文 nlp100.github.io 問題の概要 出現頻度辞書を作る前の段階で、集計対象とする文章を絞り込んでおきます。「list(filter(lambda x: '猫' in x, wordList))」の処理で、猫という語を持つ文のみに限定しています。 from collections import defaultdict …
問題文 nlp100.github.io 問題の概要 35. 単語の出現頻度の結果の上位10件を棒グラフで可視化するだけです。 可視化ライブラリとしては「matplotlib」を使っています。日本語が文字化けする現象には「japanize_matplotlib」*1で対応しています。 from collec…
問題文 nlp100.github.io 問題の概要 「30. 形態素解析結果の読み込み」で作成したデータ構造から、全ての単語を取り出し、出現頻度を計算します。 全ての単語を前から確認していき(単語, 出現回数)のペアの辞書を作り上げました。普通のdictではなく「def…
問題文 nlp100.github.io 問題の概要 「30. 形態素解析結果の読み込み」で作成したデータ構造から、データを取り出します。抽出条件は最長一致の名詞の連接です。 品詞を前から見ていき、次の順に処理します。 リスト res, tmpを用意 条件分岐 名詞の場合は…
問題文 nlp100.github.io 問題の概要 「30. 形態素解析結果の読み込み」で作成したデータ構造から、データを取り出します。抽出条件は「名詞」+「の」+「名詞」です。 def parse_mecab(block): res = [] for line in block.split('\n'): if line == '': retu…
問題文 nlp100.github.io 問題の概要 「30. 形態素解析結果の読み込み」で作成したデータ構造から「x['pos'] == '動詞'」の「base」部分を取り出します。 def parse_mecab(block): res = [] for line in block.split('\n'): if line == '': return res (surf…
問題文 nlp100.github.io 問題の概要 「30. 形態素解析結果の読み込み」で作成したデータ構造から「x['pos'] == '動詞'」の「surface」部分を取り出します。 def parse_mecab(block): res = [] for line in block.split('\n'): if line == '': return res (s…
問題文 nlp100.github.io 問題の概要 本章では、MeCabを用いて形態素解析した結果を読み込んでいきます。手始めに、以下コマンドでファイルに対して形態素解析を実行しましょう。 mecab < ch04/neko.txt > ch04/neko.txt.mecab あとは、読み込むファイルの形…
次の記事に影響を受けて、大相撲版をやってみようと思い立ちました。 note.com 概要は次の通りです。 平成最後の「平成31年春場所」で優勝した白鵬を、令和開始時の「王者」とする 令和になってからの取り組みで「王者」に勝利した力士を次の「王者」とする …
「Sports Analyst Meetup #7」を、4月16日に開催しました。昨今の情勢を受け、7回目にして初めてのオンライン開催となりました。250名以上の申し込みがあり、だいたい170人程度にご参加いただきました。 spoana.connpass.com 発表内容 今回は4名の方にLTをし…
問題文 nlp100.github.io 問題の概要 「28. MediaWikiマークアップの除去」を改変します。国旗画像のURLを取得を除去する関数「get_url()」を定義し適用します。 import re import requests import pandas as pd def remove_stress(dc): r = re.compile("'+"…
問題文 nlp100.github.io 問題の概要 「27. 内部リンクの除去」を改変します。MediaWikiマークアップを除去する関数「remove_mk()」を定義し適用します。 import re import pandas as pd def remove_stress(dc): r = re.compile("'+") return {k: r.sub('', …
問題文 nlp100.github.io 問題の概要 「26. 強調マークアップの除去」を改変します。内部リンクを除去する関数「remove_inner_links()」を定義し適用します。 import re import pandas as pd def remove_stress(dc): r = re.compile("'+") return {k: r.sub(…
問題文 nlp100.github.io 問題の概要 「25. テンプレートの抽出」を改変します。強調マークアップを除去する関数「remove_stress()」を定義し適用します。 import re import pandas as pd def remove_stress(dc): r = re.compile("'+") return {k: r.sub('',…
問題文 nlp100.github.io 問題の概要 この辺りから、正規表現芸人っぽくなってきます。Wikipediaの「基礎情報」テンプレートの書き方*1が参考になります。 import re import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_…
問題文 nlp100.github.io 問題の概要 正規表現を用いて、参照されているメディアファイルに該当する箇所を取り出します。 import re import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_text = df.query('title=="イギリ…
問題文 nlp100.github.io 問題の概要 正規表現を用いて、セクションに該当する箇所を取り出します。 import re import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_text = df.query('title=="イギリス"')['text'].values…
問題文 nlp100.github.io 問題の概要 「21. カテゴリ名を含む行を抽出」で取り出した行から、余計な部分を「replace()」で削除します。 import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_text = df.query('title=="イ…
問題文 nlp100.github.io 問題の概要 「20. JSONデータの読み込み」で取り出したイギリスに関する文章を扱います。 記事中でカテゴリ名を宣言している行は「Category:」を含みます。文章を「split()」を用いて改行で分割し、「filter」を用いて「Category:」…
問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み「title」が「イギリス」のデータを抽出します。 import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_text = df.query('title=="イギリス"')['text'].value…
問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み「value_counts()」で出現頻度の高い順に集計します。 import pandas as pd df = pd.read_csv('ch02/popular-names.txt', sep='\t', header=None) print(df[0].value_counts())
問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み「sort_values(カラム名)」でデータをソートします。「ascending=False」のオプションを指定することで、並びを昇順ではなく降順にしています。 import pandas as pd df = pd.read_csv('ch02/po…
問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み「unique()」で、異なる文字列の集合を取得します。 import pandas as pd df = pd.read_csv('ch02/popular-names.txt', sep='\t', header=None) print(df[0].unique())
問題文 nlp100.github.io 問題の概要 ①コマンドライン引数でNを受け取る②pandasでデータを読み込み行数を取得する③分割後の各ファイルの行数を計算する④各ファイルを保存するーーの4段階で処理します。 ①は「14. 先頭からN行を出力」で解説済み、②は「10. 行…
問題文 nlp100.github.io 問題の概要 「14. 先頭からN行を出力」とほぼ同様です。今回表示するのは上位N件ではなく下位N件なので「head(N)」の代わりに「tail(N)」を使います。 import sys import pandas as pd if len(sys.argv) == 1: print('Set arg n, li…
問題文 nlp100.github.io 問題の概要 ①コマンドライン引数でNを受け取る②pandasでデータを読み込み上位N件を表示するーーの2段階で処理します。 Pythonにて実行時に「python (ファイル名) hoge」として与えたコマンドライン引数は「sys.argv」にリストとし…
問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み「pd.concat(リスト)」でリスト内のデータを結合します。「axis=1」で結合方向を指定しています。 import pandas as pd c1 = pd.read_csv('ch02/col1.txt', header=None) c2 = pd.read_csv('ch0…
問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み、列ごとにファイルに吐き出します。 import pandas as pd df = pd.read_csv('ch02/popular-names.txt', sep='\t', header=None) df[0].to_csv('ch02/col1.txt', index=False, header=None) df[…
問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み、保存時に区切り文字としてタブではなく半角スペースを指定します。 import pandas as pd df = pd.read_csv('ch02/popular-names.txt', sep='\t', header=None) df.to_csv('ch02/ans11.txt', s…
問題文 nlp100.github.io 問題の概要 第2章では、表形式のデータを扱います。筆者がKaggleなどで使い慣れているpandas*1を利用します。 pandasでデータを読み込み「len()」で行数を取得します。読み込み時にはファイル形式に応じて「sep='\t', header=None」…