言語処理100本ノック 2020「37. 「猫」と共起頻度の高い上位10語」

自然言語処理 python

問題文 nlp100.github.io 問題の概要出現頻度辞書を作る前の段階で、集計対象とする文章を絞り込んでおきます。「list(filter(lambda x: '猫' in x, wordList))」の処理で、猫という語を持つ文のみに限定しています。 from collections import defaultdict …

2020-04-20

言語処理100本ノック 2020「36. 頻度上位10語」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 35. 単語の出現頻度の結果の上位10件を棒グラフで可視化するだけです。可視化ライブラリとしては「matplotlib」を使っています。日本語が文字化けする現象には「japanize_matplotlib」*1で対応しています。 from collec…

2020-04-20

言語処理100本ノック 2020「35. 単語の出現頻度」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「30. 形態素解析結果の読み込み」で作成したデータ構造から、全ての単語を取り出し、出現頻度を計算します。全ての単語を前から確認していき（単語, 出現回数）のペアの辞書を作り上げました。普通のdictではなく「def…

2020-04-20

言語処理100本ノック 2020「34. 名詞の連接」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「30. 形態素解析結果の読み込み」で作成したデータ構造から、データを取り出します。抽出条件は最長一致の名詞の連接です。品詞を前から見ていき、次の順に処理します。リスト res, tmpを用意条件分岐名詞の場合は…

2020-04-20

言語処理100本ノック 2020「33. 「AのB」」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「30. 形態素解析結果の読み込み」で作成したデータ構造から、データを取り出します。抽出条件は「名詞」+「の」+「名詞」です。 def parse_mecab(block): res = [] for line in block.split('\n'): if line == '': retu…

2020-04-20

言語処理100本ノック 2020「32. 動詞の原形」

自然言語処理 Profile

問題文 nlp100.github.io 問題の概要「30. 形態素解析結果の読み込み」で作成したデータ構造から「x['pos'] == '動詞'」の「base」部分を取り出します。 def parse_mecab(block): res = [] for line in block.split('\n'): if line == '': return res (surf…

2020-04-20

言語処理100本ノック 2020「31. 動詞」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「30. 形態素解析結果の読み込み」で作成したデータ構造から「x['pos'] == '動詞'」の「surface」部分を取り出します。 def parse_mecab(block): res = [] for line in block.split('\n'): if line == '': return res (s…

2020-04-20

言語処理100本ノック 2020「30. 形態素解析結果の読み込み」

自然言語処理 python

問題文 nlp100.github.io 問題の概要本章では、MeCabを用いて形態素解析した結果を読み込んでいきます。手始めに、以下コマンドでファイルに対して形態素解析を実行しましょう。 mecab < ch04/neko.txt > ch04/neko.txt.mecab あとは、読み込むファイルの形…

2020-04-20

令和大相撲の暫定王者は誰だ？USWC（非公式相撲世界王者）とともに振り返る

スポーツ

次の記事に影響を受けて、大相撲版をやってみようと思い立ちました。 note.com 概要は次の通りです。平成最後の「平成31年春場所」で優勝した白鵬を、令和開始時の「王者」とする令和になってからの取り組みで「王者」に勝利した力士を次の「王者」とする …

2020-04-17

「Sports Analyst Meetup #7」を初のオンラインで開催しました #spoana

スポーツ

「Sports Analyst Meetup #7」を、4月16日に開催しました。昨今の情勢を受け、7回目にして初めてのオンライン開催となりました。250名以上の申し込みがあり、だいたい170人程度にご参加いただきました。 spoana.connpass.com 発表内容今回は4名の方にLTをし…

2020-04-15

言語処理100本ノック 2020「29. 国旗画像のURLを取得する」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「28. MediaWikiマークアップの除去」を改変します。国旗画像のURLを取得を除去する関数「get_url()」を定義し適用します。 import re import requests import pandas as pd def remove_stress(dc): r = re.compile("'+"…

2020-04-15

言語処理100本ノック 2020「28. MediaWikiマークアップの除去」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「27. 内部リンクの除去」を改変します。MediaWikiマークアップを除去する関数「remove_mk()」を定義し適用します。 import re import pandas as pd def remove_stress(dc): r = re.compile("'+") return {k: r.sub('', …

2020-04-14

言語処理100本ノック 2020「27. 内部リンクの除去」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「26. 強調マークアップの除去」を改変します。内部リンクを除去する関数「remove_inner_links()」を定義し適用します。 import re import pandas as pd def remove_stress(dc): r = re.compile("'+") return {k: r.sub(…

2020-04-14

言語処理100本ノック 2020「26. 強調マークアップの除去」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「25. テンプレートの抽出」を改変します。強調マークアップを除去する関数「remove_stress()」を定義し適用します。 import re import pandas as pd def remove_stress(dc): r = re.compile("'+") return {k: r.sub('',…

2020-04-14

言語処理100本ノック 2020「25. テンプレートの抽出」

自然言語処理 python

問題文 nlp100.github.io 問題の概要この辺りから、正規表現芸人っぽくなってきます。Wikipediaの「基礎情報」テンプレートの書き方*1が参考になります。 import re import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_…

2020-04-14

言語処理100本ノック 2020「24. ファイル参照の抽出」

自然言語処理 python

問題文 nlp100.github.io 問題の概要正規表現を用いて、参照されているメディアファイルに該当する箇所を取り出します。 import re import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_text = df.query('title=="イギリ…

2020-04-14

言語処理100本ノック 2020「23. セクション構造」

自然言語処理 python

問題文 nlp100.github.io 問題の概要正規表現を用いて、セクションに該当する箇所を取り出します。 import re import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_text = df.query('title=="イギリス"')['text'].values…

2020-04-14

言語処理100本ノック 2020「22. カテゴリ名の抽出」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「21. カテゴリ名を含む行を抽出」で取り出した行から、余計な部分を「replace()」で削除します。 import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_text = df.query('title=="イ…

2020-04-14

言語処理100本ノック 2020「21. カテゴリ名を含む行を抽出」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「20. JSONデータの読み込み」で取り出したイギリスに関する文章を扱います。記事中でカテゴリ名を宣言している行は「Category:」を含みます。文章を「split()」を用いて改行で分割し、「filter」を用いて「Category:」…

2020-04-14

言語処理100本ノック 2020「20. JSONデータの読み込み」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み「title」が「イギリス」のデータを抽出します。 import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_text = df.query('title=="イギリス"')['text'].value…

2020-04-14

言語処理100本ノック 2020「19. 各行の1コラム目の文字列の出現頻度を求め，出現頻度の高い順に並べる」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み「value_counts()」で出現頻度の高い順に集計します。 import pandas as pd df = pd.read_csv('ch02/popular-names.txt', sep='\t', header=None) print(df[0].value_counts())

2020-04-14

言語処理100本ノック 2020「18. 各行を3コラム目の数値の降順にソート」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み「sort_values(カラム名)」でデータをソートします。「ascending=False」のオプションを指定することで、並びを昇順ではなく降順にしています。 import pandas as pd df = pd.read_csv('ch02/po…

2020-04-14

言語処理100本ノック 2020「17. １列目の文字列の異なり」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み「unique()」で、異なる文字列の集合を取得します。 import pandas as pd df = pd.read_csv('ch02/popular-names.txt', sep='\t', header=None) print(df[0].unique())

2020-04-14

言語処理100本ノック 2020「16. ファイルをN分割する」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 ①コマンドライン引数でNを受け取る②pandasでデータを読み込み行数を取得する③分割後の各ファイルの行数を計算する④各ファイルを保存するーーの4段階で処理します。 ①は「14. 先頭からN行を出力」で解説済み、②は「10. 行…

2020-04-14

言語処理100本ノック 2020「15. 末尾のN行を出力」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「14. 先頭からN行を出力」とほぼ同様です。今回表示するのは上位N件ではなく下位N件なので「head(N)」の代わりに「tail(N)」を使います。 import sys import pandas as pd if len(sys.argv) == 1: print('Set arg n, li…

2020-04-14

言語処理100本ノック 2020「14. 先頭からN行を出力」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 ①コマンドライン引数でNを受け取る②pandasでデータを読み込み上位N件を表示するーーの2段階で処理します。 Pythonにて実行時に「python （ファイル名） hoge」として与えたコマンドライン引数は「sys.argv」にリストとし…

2020-04-14

言語処理100本ノック 2020「13. col1.txtとcol2.txtをマージ」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み「pd.concat(リスト)」でリスト内のデータを結合します。「axis=1」で結合方向を指定しています。 import pandas as pd c1 = pd.read_csv('ch02/col1.txt', header=None) c2 = pd.read_csv('ch0…

2020-04-14

言語処理100本ノック 2020「12. 1列目をcol1.txtに，2列目をcol2.txtに保存」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み、列ごとにファイルに吐き出します。 import pandas as pd df = pd.read_csv('ch02/popular-names.txt', sep='\t', header=None) df[0].to_csv('ch02/col1.txt', index=False, header=None) df[…

2020-04-14

言語処理100本ノック 2020「11. タブをスペースに置換」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み、保存時に区切り文字としてタブではなく半角スペースを指定します。 import pandas as pd df = pd.read_csv('ch02/popular-names.txt', sep='\t', header=None) df.to_csv('ch02/ans11.txt', s…

2020-04-14

言語処理100本ノック 2020「10. 行数のカウント」

自然言語処理 python

問題文 nlp100.github.io 問題の概要第2章では、表形式のデータを扱います。筆者がKaggleなどで使い慣れているpandas*1を利用します。 pandasでデータを読み込み「len()」で行数を取得します。読み込み時にはファイル形式に応じて「sep='\t', header=None」…

u++の備忘録

2020-01-01から1年間の記事一覧

言語処理100本ノック 2020「37. 「猫」と共起頻度の高い上位10語」

言語処理100本ノック 2020「36. 頻度上位10語」

言語処理100本ノック 2020「35. 単語の出現頻度」

言語処理100本ノック 2020「34. 名詞の連接」

言語処理100本ノック 2020「33. 「AのB」」

言語処理100本ノック 2020「32. 動詞の原形」

言語処理100本ノック 2020「31. 動詞」

言語処理100本ノック 2020「30. 形態素解析結果の読み込み」

令和大相撲の暫定王者は誰だ？USWC（非公式相撲世界王者）とともに振り返る

「Sports Analyst Meetup #7」を初のオンラインで開催しました #spoana

言語処理100本ノック 2020「29. 国旗画像のURLを取得する」

言語処理100本ノック 2020「28. MediaWikiマークアップの除去」

言語処理100本ノック 2020「27. 内部リンクの除去」

言語処理100本ノック 2020「26. 強調マークアップの除去」

言語処理100本ノック 2020「25. テンプレートの抽出」

言語処理100本ノック 2020「24. ファイル参照の抽出」

言語処理100本ノック 2020「23. セクション構造」

言語処理100本ノック 2020「22. カテゴリ名の抽出」

言語処理100本ノック 2020「21. カテゴリ名を含む行を抽出」

言語処理100本ノック 2020「20. JSONデータの読み込み」

言語処理100本ノック 2020「19. 各行の1コラム目の文字列の出現頻度を求め，出現頻度の高い順に並べる」

言語処理100本ノック 2020「18. 各行を3コラム目の数値の降順にソート」

言語処理100本ノック 2020「17. １列目の文字列の異なり」

言語処理100本ノック 2020「16. ファイルをN分割する」

言語処理100本ノック 2020「15. 末尾のN行を出力」

言語処理100本ノック 2020「14. 先頭からN行を出力」

言語処理100本ノック 2020「13. col1.txtとcol2.txtをマージ」

言語処理100本ノック 2020「12. 1列目をcol1.txtに，2列目をcol2.txtに保存」

言語処理100本ノック 2020「11. タブをスペースに置換」

言語処理100本ノック 2020「10. 行数のカウント」