言語処理100本ノック 2020「21. カテゴリ名を含む行を抽出」
問題文
問題の概要
「20. JSONデータの読み込み」で取り出したイギリスに関する文章を扱います。
記事中でカテゴリ名を宣言している行は「Category:」を含みます。文章を「split()」を用いて改行で分割し、「filter」を用いて「Category:」を含む行のみを取り出します。
import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_text = df.query('title=="イギリス"')['text'].values[0] uk_texts = uk_text.split('\n') ans = list(filter(lambda x: '[Category:' in x, uk_texts)) print(ans)