u++の備忘録

言語処理100本ノック 2020「22. カテゴリ名の抽出」

問題文

nlp100.github.io

問題の概要

21. カテゴリ名を含む行を抽出」で取り出した行から、余計な部分を「replace()」で削除します。

import pandas as pd


df = pd.read_json('ch03/jawiki-country.json.gz', lines=True)
uk_text = df.query('title=="イギリス"')['text'].values[0]
uk_texts = uk_text.split('\n')
ans = list(filter(lambda x: '[Category:' in x, uk_texts))
ans = [a.replace('[[Category:', '').replace('|*', '').replace(']]', '') for a in ans]
print(ans)