u++の備忘録

2020-04-14から1日間の記事一覧

言語処理100本ノック 2020「27. 内部リンクの除去」

問題文 nlp100.github.io 問題の概要 「26. 強調マークアップの除去」を改変します。内部リンクを除去する関数「remove_inner_links()」を定義し適用します。 import re import pandas as pd def remove_stress(dc): r = re.compile("'+") return {k: r.sub(…

言語処理100本ノック 2020「26. 強調マークアップの除去」

問題文 nlp100.github.io 問題の概要 「25. テンプレートの抽出」を改変します。強調マークアップを除去する関数「remove_stress()」を定義し適用します。 import re import pandas as pd def remove_stress(dc): r = re.compile("'+") return {k: r.sub('',…

言語処理100本ノック 2020「25. テンプレートの抽出」

問題文 nlp100.github.io 問題の概要 この辺りから、正規表現芸人っぽくなってきます。Wikipediaの「基礎情報」テンプレートの書き方*1が参考になります。 import re import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_…

言語処理100本ノック 2020「24. ファイル参照の抽出」

問題文 nlp100.github.io 問題の概要 正規表現を用いて、参照されているメディアファイルに該当する箇所を取り出します。 import re import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_text = df.query('title=="イギリ…

言語処理100本ノック 2020「23. セクション構造」

問題文 nlp100.github.io 問題の概要 正規表現を用いて、セクションに該当する箇所を取り出します。 import re import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_text = df.query('title=="イギリス"')['text'].values…

言語処理100本ノック 2020「22. カテゴリ名の抽出」

問題文 nlp100.github.io 問題の概要 「21. カテゴリ名を含む行を抽出」で取り出した行から、余計な部分を「replace()」で削除します。 import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_text = df.query('title=="イ…

言語処理100本ノック 2020「21. カテゴリ名を含む行を抽出」

問題文 nlp100.github.io 問題の概要 「20. JSONデータの読み込み」で取り出したイギリスに関する文章を扱います。 記事中でカテゴリ名を宣言している行は「Category:」を含みます。文章を「split()」を用いて改行で分割し、「filter」を用いて「Category:」…

言語処理100本ノック 2020「20. JSONデータの読み込み」

問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み「title」が「イギリス」のデータを抽出します。 import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_text = df.query('title=="イギリス"')['text'].value…

言語処理100本ノック 2020「19. 各行の1コラム目の文字列の出現頻度を求め,出現頻度の高い順に並べる」

問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み「value_counts()」で出現頻度の高い順に集計します。 import pandas as pd df = pd.read_csv('ch02/popular-names.txt', sep='\t', header=None) print(df[0].value_counts())

言語処理100本ノック 2020「18. 各行を3コラム目の数値の降順にソート」

問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み「sort_values(カラム名)」でデータをソートします。「ascending=False」のオプションを指定することで、並びを昇順ではなく降順にしています。 import pandas as pd df = pd.read_csv('ch02/po…

言語処理100本ノック 2020「17. 1列目の文字列の異なり」

問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み「unique()」で、異なる文字列の集合を取得します。 import pandas as pd df = pd.read_csv('ch02/popular-names.txt', sep='\t', header=None) print(df[0].unique())

言語処理100本ノック 2020「16. ファイルをN分割する」

問題文 nlp100.github.io 問題の概要 ①コマンドライン引数でNを受け取る②pandasでデータを読み込み行数を取得する③分割後の各ファイルの行数を計算する④各ファイルを保存するーーの4段階で処理します。 ①は「14. 先頭からN行を出力」で解説済み、②は「10. 行…

言語処理100本ノック 2020「15. 末尾のN行を出力」

問題文 nlp100.github.io 問題の概要 「14. 先頭からN行を出力」とほぼ同様です。今回表示するのは上位N件ではなく下位N件なので「head(N)」の代わりに「tail(N)」を使います。 import sys import pandas as pd if len(sys.argv) == 1: print('Set arg n, li…

言語処理100本ノック 2020「14. 先頭からN行を出力」

問題文 nlp100.github.io 問題の概要 ①コマンドライン引数でNを受け取る②pandasでデータを読み込み上位N件を表示するーーの2段階で処理します。 Pythonにて実行時に「python (ファイル名) hoge」として与えたコマンドライン引数は「sys.argv」にリストとし…

言語処理100本ノック 2020「13. col1.txtとcol2.txtをマージ」

問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み「pd.concat(リスト)」でリスト内のデータを結合します。「axis=1」で結合方向を指定しています。 import pandas as pd c1 = pd.read_csv('ch02/col1.txt', header=None) c2 = pd.read_csv('ch0…

言語処理100本ノック 2020「12. 1列目をcol1.txtに,2列目をcol2.txtに保存」

問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み、列ごとにファイルに吐き出します。 import pandas as pd df = pd.read_csv('ch02/popular-names.txt', sep='\t', header=None) df[0].to_csv('ch02/col1.txt', index=False, header=None) df[…

言語処理100本ノック 2020「11. タブをスペースに置換」

問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み、保存時に区切り文字としてタブではなく半角スペースを指定します。 import pandas as pd df = pd.read_csv('ch02/popular-names.txt', sep='\t', header=None) df.to_csv('ch02/ans11.txt', s…

言語処理100本ノック 2020「10. 行数のカウント」

問題文 nlp100.github.io 問題の概要 第2章では、表形式のデータを扱います。筆者がKaggleなどで使い慣れているpandas*1を利用します。 pandasでデータを読み込み「len()」で行数を取得します。読み込み時にはファイル形式に応じて「sep='\t', header=None」…

言語処理100本ノック 2020「09. Typoglycemia」

問題文 nlp100.github.io 問題の概要 少し処理が煩雑ですが、大体は今まで扱った記法が利用できます。 ランダムに並び替える部分は「random.shuffle()」や「random.sample()」が選択肢となります*1。 リストを文字列として半角スペース区切りで結合するため…

言語処理100本ノック 2020「08. 暗号文」

問題文 nlp100.github.io 問題の概要 文字の文字コードを得るには「ord()」を使います。逆に文字コードから文字を得る場合は「chr()」です。「print(ord(a), ord(z))」として、英小文字が取りうる文字コードの範囲を調べ、条件分岐に盛り込みましょう。 「''…

言語処理100本ノック 2020「07. テンプレートによる文生成」

問題文 nlp100.github.io 問題の概要 Pythonでは、いくつかの方法で文字列に変数を埋め込めます。3.6以降のバージョンで利用可能になった「f文字列」*1が便利です。 def generate_text(x, y, z): return f'{x}時の{y}は{z}' x = 12 y = '気温' z = 22.4 prin…

言語処理100本ノック 2020「06. 集合」

問題文 nlp100.github.io 問題の概要 bi-gramの作成には「05. n-gram」のソースコードを流用します。 Pythonでは「set()」を用いることで、集合の概念を扱えます。 def n_gram(target, n): return [target[idx:idx + n] for idx in range(len(target) - n + …

言語処理100本ノック 2020「05. n-gram」

問題文 nlp100.github.io 問題の概要 n-gram*1を作る関数を作成します。 def n_gram(target, n): return [target[idx:idx + n] for idx in range(len(target) - n + 1)] text = 'I am an NLPer' for i in range(1, 4): print(n_gram(text, i)) print(n_gram(…

言語処理100本ノック 2020「04. 元素記号」

問題文 nlp100.github.io 問題の概要 ①文を単語に分割する②各単語の先頭の1文字もしくは2文字を取り出すーーの2段階で処理します。②の処理では、条件分岐が必要です。 ①の処理は「03. 円周率」と同様です。 ②の条件分岐に当たって、単語の順番情報が必要なた…

言語処理100本ノック 2020「03. 円周率」

問題文 nlp100.github.io 問題の概要 ①文を単語に分割する②各単語の文字数を数えるーーの2段階で処理します。 ①の処理には、文字列を特定の区切り文字で分割する「split()」が利用できます。引数に何も指定しない場合は、半角スペースで分割します。 半角コ…

言語処理100本ノック 2020「02. 「パトカー」+「タクシー」=「パタトクカシーー」」

問題文 nlp100.github.io 問題の概要 問題文の指示通り、2つの文の冒頭から1文字ずつ取り出します。 text0 = 'パトカー' text1 = 'タクシー' ans = '' for i in range(len(text0)): ans += text0[i] ans += text1[i] print(ans)

言語処理100本ノック 2020「01. 「パタトクカシーー」」

問題文 nlp100.github.io 問題の概要 文字列の奇数番目を取り出す問題です。 Pythonでは、文字列の「スライス」を用いることで、この処理を実現できます*1。 text = 'パタトクカシーー' print(text[1::2]) *1:qiita.com

言語処理100本ノック 2020「00. 文字列の逆順」

問題文 nlp100.github.io 問題の概要 第1章では、基本的な文字列操作を扱います。この問題では、文字列を逆順に並び替えます。 Pythonでは、文字列の「スライス」を用いることで、この処理を実現できます*1。 text = 'stressed' print(text[::-1]) *1:qiita.…

「言語処理100本ノック 2020」をPythonで解く

「言語処理100本ノック 2020」が4月6日に公開されました。2015年以来、5年ぶりの改訂です。昨今の自然言語処理の研究動向を鑑み、深層ニューラルネットワークに関する問題追加などの変更があります。 nlp100.github.io 実装のためのプログラミング言語として…