u++の備忘録

2020-04-20から1日間の記事一覧

言語処理100本ノック 2020「39. Zipfの法則」

問題文 nlp100.github.io 問題の概要 両対数グラフとは、それぞれの次元のデータに対してlogを取ったグラフです。 import math from collections import defaultdict import matplotlib.pyplot as plt def parse_mecab(block): res = [] for line in block.s…

言語処理100本ノック 2020「38. ヒストグラム」

問題文 nlp100.github.io 問題の概要 「matplotlib」を用いて、ヒストグラムを描きましょう。 from collections import defaultdict import matplotlib.pyplot as plt def parse_mecab(block): res = [] for line in block.split('\n'): if line == '': retu…

言語処理100本ノック 2020「37. 「猫」と共起頻度の高い上位10語」

問題文 nlp100.github.io 問題の概要 出現頻度辞書を作る前の段階で、集計対象とする文章を絞り込んでおきます。「list(filter(lambda x: '猫' in x, wordList))」の処理で、猫という語を持つ文のみに限定しています。 from collections import defaultdict …

言語処理100本ノック 2020「36. 頻度上位10語」

問題文 nlp100.github.io 問題の概要 35. 単語の出現頻度の結果の上位10件を棒グラフで可視化するだけです。 可視化ライブラリとしては「matplotlib」を使っています。日本語が文字化けする現象には「japanize_matplotlib」*1で対応しています。 from collec…

言語処理100本ノック 2020「35. 単語の出現頻度」

問題文 nlp100.github.io 問題の概要 「30. 形態素解析結果の読み込み」で作成したデータ構造から、全ての単語を取り出し、出現頻度を計算します。 全ての単語を前から確認していき(単語, 出現回数)のペアの辞書を作り上げました。普通のdictではなく「def…

言語処理100本ノック 2020「34. 名詞の連接」

問題文 nlp100.github.io 問題の概要 「30. 形態素解析結果の読み込み」で作成したデータ構造から、データを取り出します。抽出条件は最長一致の名詞の連接です。 品詞を前から見ていき、次の順に処理します。 リスト res, tmpを用意 条件分岐 名詞の場合は…

言語処理100本ノック 2020「33. 「AのB」」

問題文 nlp100.github.io 問題の概要 「30. 形態素解析結果の読み込み」で作成したデータ構造から、データを取り出します。抽出条件は「名詞」+「の」+「名詞」です。 def parse_mecab(block): res = [] for line in block.split('\n'): if line == '': retu…

言語処理100本ノック 2020「32. 動詞の原形」

問題文 nlp100.github.io 問題の概要 「30. 形態素解析結果の読み込み」で作成したデータ構造から「x['pos'] == '動詞'」の「base」部分を取り出します。 def parse_mecab(block): res = [] for line in block.split('\n'): if line == '': return res (surf…

言語処理100本ノック 2020「31. 動詞」

問題文 nlp100.github.io 問題の概要 「30. 形態素解析結果の読み込み」で作成したデータ構造から「x['pos'] == '動詞'」の「surface」部分を取り出します。 def parse_mecab(block): res = [] for line in block.split('\n'): if line == '': return res (s…

言語処理100本ノック 2020「30. 形態素解析結果の読み込み」

問題文 nlp100.github.io 問題の概要 本章では、MeCabを用いて形態素解析した結果を読み込んでいきます。手始めに、以下コマンドでファイルに対して形態素解析を実行しましょう。 mecab < ch04/neko.txt > ch04/neko.txt.mecab あとは、読み込むファイルの形…

令和大相撲の暫定王者は誰だ?USWC(非公式相撲世界王者)とともに振り返る

次の記事に影響を受けて、大相撲版をやってみようと思い立ちました。 note.com 概要は次の通りです。 平成最後の「平成31年春場所」で優勝した白鵬を、令和開始時の「王者」とする 令和になってからの取り組みで「王者」に勝利した力士を次の「王者」とする …