u++の備忘録

言語処理100本ノック 2020「23. セクション構造」

問題文

nlp100.github.io

問題の概要

正規表現を用いて、セクションに該当する箇所を取り出します。

import re
import pandas as pd


df = pd.read_json('ch03/jawiki-country.json.gz', lines=True)
uk_text = df.query('title=="イギリス"')['text'].values[0]
for section in re.findall(r'(=+)([^=]+)\1\n', uk_text):
    print(f'{section[1].strip()}\t{len(section[0]) - 1}')