言語処理100本ノック 2020「27. 内部リンクの除去」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「26. 強調マークアップの除去」を改変します。内部リンクを除去する関数「remove_inner_links()」を定義し適用します。 import re import pandas as pd def remove_stress(dc): r = re.compile("'+") return {k: r.sub(…

2020-04-14

言語処理100本ノック 2020「26. 強調マークアップの除去」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「25. テンプレートの抽出」を改変します。強調マークアップを除去する関数「remove_stress()」を定義し適用します。 import re import pandas as pd def remove_stress(dc): r = re.compile("'+") return {k: r.sub('',…

2020-04-14

言語処理100本ノック 2020「25. テンプレートの抽出」

自然言語処理 python

問題文 nlp100.github.io 問題の概要この辺りから、正規表現芸人っぽくなってきます。Wikipediaの「基礎情報」テンプレートの書き方*1が参考になります。 import re import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_…

2020-04-14

言語処理100本ノック 2020「24. ファイル参照の抽出」

自然言語処理 python

問題文 nlp100.github.io 問題の概要正規表現を用いて、参照されているメディアファイルに該当する箇所を取り出します。 import re import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_text = df.query('title=="イギリ…

2020-04-14

言語処理100本ノック 2020「23. セクション構造」

自然言語処理 python

問題文 nlp100.github.io 問題の概要正規表現を用いて、セクションに該当する箇所を取り出します。 import re import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_text = df.query('title=="イギリス"')['text'].values…

2020-04-14

言語処理100本ノック 2020「22. カテゴリ名の抽出」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「21. カテゴリ名を含む行を抽出」で取り出した行から、余計な部分を「replace()」で削除します。 import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_text = df.query('title=="イ…

2020-04-14

言語処理100本ノック 2020「21. カテゴリ名を含む行を抽出」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「20. JSONデータの読み込み」で取り出したイギリスに関する文章を扱います。記事中でカテゴリ名を宣言している行は「Category:」を含みます。文章を「split()」を用いて改行で分割し、「filter」を用いて「Category:」…

2020-04-14

言語処理100本ノック 2020「20. JSONデータの読み込み」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み「title」が「イギリス」のデータを抽出します。 import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_text = df.query('title=="イギリス"')['text'].value…

2020-04-14

言語処理100本ノック 2020「19. 各行の1コラム目の文字列の出現頻度を求め，出現頻度の高い順に並べる」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み「value_counts()」で出現頻度の高い順に集計します。 import pandas as pd df = pd.read_csv('ch02/popular-names.txt', sep='\t', header=None) print(df[0].value_counts())

2020-04-14

言語処理100本ノック 2020「18. 各行を3コラム目の数値の降順にソート」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み「sort_values(カラム名)」でデータをソートします。「ascending=False」のオプションを指定することで、並びを昇順ではなく降順にしています。 import pandas as pd df = pd.read_csv('ch02/po…

2020-04-14

言語処理100本ノック 2020「17. １列目の文字列の異なり」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み「unique()」で、異なる文字列の集合を取得します。 import pandas as pd df = pd.read_csv('ch02/popular-names.txt', sep='\t', header=None) print(df[0].unique())

2020-04-14

言語処理100本ノック 2020「16. ファイルをN分割する」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 ①コマンドライン引数でNを受け取る②pandasでデータを読み込み行数を取得する③分割後の各ファイルの行数を計算する④各ファイルを保存するーーの4段階で処理します。 ①は「14. 先頭からN行を出力」で解説済み、②は「10. 行…

2020-04-14

言語処理100本ノック 2020「15. 末尾のN行を出力」

自然言語処理 python

問題文 nlp100.github.io 問題の概要「14. 先頭からN行を出力」とほぼ同様です。今回表示するのは上位N件ではなく下位N件なので「head(N)」の代わりに「tail(N)」を使います。 import sys import pandas as pd if len(sys.argv) == 1: print('Set arg n, li…

2020-04-14

言語処理100本ノック 2020「14. 先頭からN行を出力」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 ①コマンドライン引数でNを受け取る②pandasでデータを読み込み上位N件を表示するーーの2段階で処理します。 Pythonにて実行時に「python （ファイル名） hoge」として与えたコマンドライン引数は「sys.argv」にリストとし…

2020-04-14

言語処理100本ノック 2020「13. col1.txtとcol2.txtをマージ」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み「pd.concat(リスト)」でリスト内のデータを結合します。「axis=1」で結合方向を指定しています。 import pandas as pd c1 = pd.read_csv('ch02/col1.txt', header=None) c2 = pd.read_csv('ch0…

2020-04-14

言語処理100本ノック 2020「12. 1列目をcol1.txtに，2列目をcol2.txtに保存」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み、列ごとにファイルに吐き出します。 import pandas as pd df = pd.read_csv('ch02/popular-names.txt', sep='\t', header=None) df[0].to_csv('ch02/col1.txt', index=False, header=None) df[…

2020-04-14

言語処理100本ノック 2020「11. タブをスペースに置換」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 pandasでデータを読み込み、保存時に区切り文字としてタブではなく半角スペースを指定します。 import pandas as pd df = pd.read_csv('ch02/popular-names.txt', sep='\t', header=None) df.to_csv('ch02/ans11.txt', s…

2020-04-14

言語処理100本ノック 2020「10. 行数のカウント」

自然言語処理 python

問題文 nlp100.github.io 問題の概要第2章では、表形式のデータを扱います。筆者がKaggleなどで使い慣れているpandas*1を利用します。 pandasでデータを読み込み「len()」で行数を取得します。読み込み時にはファイル形式に応じて「sep='\t', header=None」…

2020-04-14

言語処理100本ノック 2020「09. Typoglycemia」

自然言語処理 python

問題文 nlp100.github.io 問題の概要少し処理が煩雑ですが、大体は今まで扱った記法が利用できます。ランダムに並び替える部分は「random.shuffle()」や「random.sample()」が選択肢となります*1。リストを文字列として半角スペース区切りで結合するため…

2020-04-14

言語処理100本ノック 2020「08. 暗号文」

自然言語処理 python

問題文 nlp100.github.io 問題の概要文字の文字コードを得るには「ord()」を使います。逆に文字コードから文字を得る場合は「chr()」です。「print(ord(a), ord(z))」として、英小文字が取りうる文字コードの範囲を調べ、条件分岐に盛り込みましょう。「''…

2020-04-14

言語処理100本ノック 2020「07. テンプレートによる文生成」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 Pythonでは、いくつかの方法で文字列に変数を埋め込めます。3.6以降のバージョンで利用可能になった「f文字列」*1が便利です。 def generate_text(x, y, z): return f'{x}時の{y}は{z}' x = 12 y = '気温' z = 22.4 prin…

2020-04-14

言語処理100本ノック 2020「06. 集合」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 bi-gramの作成には「05. n-gram」のソースコードを流用します。 Pythonでは「set()」を用いることで、集合の概念を扱えます。 def n_gram(target, n): return [target[idx:idx + n] for idx in range(len(target) - n + …

2020-04-14

言語処理100本ノック 2020「05. n-gram」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 n-gram*1を作る関数を作成します。 def n_gram(target, n): return [target[idx:idx + n] for idx in range(len(target) - n + 1)] text = 'I am an NLPer' for i in range(1, 4): print(n_gram(text, i)) print(n_gram(…

2020-04-14

言語処理100本ノック 2020「04. 元素記号」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 ①文を単語に分割する②各単語の先頭の1文字もしくは2文字を取り出すーーの2段階で処理します。②の処理では、条件分岐が必要です。 ①の処理は「03. 円周率」と同様です。 ②の条件分岐に当たって、単語の順番情報が必要なた…

2020-04-14

言語処理100本ノック 2020「03. 円周率」

自然言語処理 python

問題文 nlp100.github.io 問題の概要 ①文を単語に分割する②各単語の文字数を数えるーーの2段階で処理します。 ①の処理には、文字列を特定の区切り文字で分割する「split()」が利用できます。引数に何も指定しない場合は、半角スペースで分割します。半角コ…

2020-04-14

言語処理100本ノック 2020「02. 「パトカー」＋「タクシー」＝「パタトクカシーー」」

自然言語処理 python

問題文 nlp100.github.io 問題の概要問題文の指示通り、2つの文の冒頭から1文字ずつ取り出します。 text0 = 'パトカー' text1 = 'タクシー' ans = '' for i in range(len(text0)): ans += text0[i] ans += text1[i] print(ans)

2020-04-14

言語処理100本ノック 2020「01. 「パタトクカシーー」」

自然言語処理 python

問題文 nlp100.github.io 問題の概要文字列の奇数番目を取り出す問題です。 Pythonでは、文字列の「スライス」を用いることで、この処理を実現できます*1。 text = 'パタトクカシーー' print(text[1::2]) *1:qiita.com

2020-04-14

言語処理100本ノック 2020「00. 文字列の逆順」

自然言語処理 python

問題文 nlp100.github.io 問題の概要第1章では、基本的な文字列操作を扱います。この問題では、文字列を逆順に並び替えます。 Pythonでは、文字列の「スライス」を用いることで、この処理を実現できます*1。 text = 'stressed' print(text[::-1]) *1:qiita.…

2020-04-14

「言語処理100本ノック 2020」をPythonで解く

自然言語処理 python

「言語処理100本ノック 2020」が4月6日に公開されました。2015年以来、5年ぶりの改訂です。昨今の自然言語処理の研究動向を鑑み、深層ニューラルネットワークに関する問題追加などの変更があります。 nlp100.github.io 実装のためのプログラミング言語として…

u++の備忘録

2020-04-14から1日間の記事一覧

言語処理100本ノック 2020「27. 内部リンクの除去」

言語処理100本ノック 2020「26. 強調マークアップの除去」

言語処理100本ノック 2020「25. テンプレートの抽出」

言語処理100本ノック 2020「24. ファイル参照の抽出」

言語処理100本ノック 2020「23. セクション構造」

言語処理100本ノック 2020「22. カテゴリ名の抽出」

言語処理100本ノック 2020「21. カテゴリ名を含む行を抽出」

言語処理100本ノック 2020「20. JSONデータの読み込み」

言語処理100本ノック 2020「19. 各行の1コラム目の文字列の出現頻度を求め，出現頻度の高い順に並べる」

言語処理100本ノック 2020「18. 各行を3コラム目の数値の降順にソート」

言語処理100本ノック 2020「17. １列目の文字列の異なり」

言語処理100本ノック 2020「16. ファイルをN分割する」

言語処理100本ノック 2020「15. 末尾のN行を出力」

言語処理100本ノック 2020「14. 先頭からN行を出力」

言語処理100本ノック 2020「13. col1.txtとcol2.txtをマージ」

言語処理100本ノック 2020「12. 1列目をcol1.txtに，2列目をcol2.txtに保存」

言語処理100本ノック 2020「11. タブをスペースに置換」

言語処理100本ノック 2020「10. 行数のカウント」

言語処理100本ノック 2020「09. Typoglycemia」

言語処理100本ノック 2020「08. 暗号文」

言語処理100本ノック 2020「07. テンプレートによる文生成」

言語処理100本ノック 2020「06. 集合」

言語処理100本ノック 2020「05. n-gram」

言語処理100本ノック 2020「04. 元素記号」

言語処理100本ノック 2020「03. 円周率」

言語処理100本ノック 2020「02. 「パトカー」＋「タクシー」＝「パタトクカシーー」」

言語処理100本ノック 2020「01. 「パタトクカシーー」」

言語処理100本ノック 2020「00. 文字列の逆順」

「言語処理100本ノック 2020」をPythonで解く