言語処理100本ノック 2020「22. カテゴリ名の抽出」
問題文
問題の概要
「21. カテゴリ名を含む行を抽出」で取り出した行から、余計な部分を「replace()」で削除します。
import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_text = df.query('title=="イギリス"')['text'].values[0] uk_texts = uk_text.split('\n') ans = list(filter(lambda x: '[Category:' in x, uk_texts)) ans = [a.replace('[[Category:', '').replace('|*', '').replace(']]', '') for a in ans] print(ans)