言語処理100本ノック 2020「24. ファイル参照の抽出」
問題文
問題の概要
正規表現を用いて、参照されているメディアファイルに該当する箇所を取り出します。
import re import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_text = df.query('title=="イギリス"')['text'].values[0] for file in re.findall(r'\[\[(ファイル|File):([^]|]+?)(\|.*?)+\]\]', uk_text): print(file[1])