u++の備忘録

言語処理100本ノック 2020「65. アナロジータスクでの正解率」

問題文

nlp100.github.io

問題の概要

pandas で読み込み、正解率を計算します。いくつか方法はありますが、ここでは列ごとに一致しているか否かの bool 値を得た後、sum() で true の個数を数えています。この値を列数で割ると、確率に変換できます。

import pandas as pd

df = pd.read_csv('ch07/ans64.txt', sep=' ', header=None)
print((df[3] == df[4]).sum() / len(df))