概要
論文
Katerina T. Franzi and Sophia Ananiadou: Extracting Nested Collocations, In Proceedings of the 16th International Conference on Computational Linguistics (COLING ‘96), pp. 41-46, 1996.
https://www.aclweb.org/anthology/C96-1009
要旨
- 「コロケーション度合い」の計算は、単純に単語列の出現頻度だけを見ても上手くいかない
- 「C-value」という「コロケーション度合い」を尤もらしく計算する指標を提案
- 具体例含めて、上述のブログで日本語で解説されている
- ※ 1996年の論文
計算の具体例
与えられた文章群から、以下のような「コロケーションの候補」が得られたとします。コロケーションの候補は、単純にn-gramでの出現頻度の高いものを抽出します。次の表はたとえば、"Staff Reporter of The Wall Street Journal"という文字列が19回、"Wall Street Journal"が26回登場したことを意味します。
ここで論文内のアルゴリズムに沿ってC-valueを算出すると、以下のようになりました。これは論文内で登場した結果とも一致しています。
上位には、"Wall Street Journal", "The Wall Street Journal"など感覚的にコロケーションと判定できそうな文字列が来ています。一方で "of The Wall Street" など中途半端な単語で始まる文字列がC-valueは0(コロケーションではない)と判定されています。