u++の備忘録

言語処理100本ノック 2020「24. ファイル参照の抽出」

問題文

nlp100.github.io

問題の概要

正規表現を用いて、参照されているメディアファイルに該当する箇所を取り出します。

import re
import pandas as pd


df = pd.read_json('ch03/jawiki-country.json.gz', lines=True)
uk_text = df.query('title=="イギリス"')['text'].values[0]
for file in re.findall(r'\[\[(ファイル|File):([^]|]+?)(\|.*?)+\]\]', uk_text):
    print(file[1])