言語処理100本ノック 2020「23. セクション構造」
問題文
問題の概要
正規表現を用いて、セクションに該当する箇所を取り出します。
import re import pandas as pd df = pd.read_json('ch03/jawiki-country.json.gz', lines=True) uk_text = df.query('title=="イギリス"')['text'].values[0] for section in re.findall(r'(=+)([^=]+)\1\n', uk_text): print(f'{section[1].strip()}\t{len(section[0]) - 1}')