u++の備忘録

言語処理100本ノック 2020「21. カテゴリ名を含む行を抽出」

自然言語処理 python

問題文

nlp100.github.io

問題の概要

「20. JSONデータの読み込み」で取り出したイギリスに関する文章を扱います。

記事中でカテゴリ名を宣言している行は「Category:」を含みます。文章を「split()」を用いて改行で分割し、「filter」を用いて「Category:」を含む行のみを取り出します。

import pandas as pd


df = pd.read_json('ch03/jawiki-country.json.gz', lines=True)
uk_text = df.query('title=="イギリス"')['text'].values[0]
uk_texts = uk_text.split('\n')
ans = list(filter(lambda x: '[Category:' in x, uk_texts))
print(ans)