自然言語処理 固有表現抽出

記事作成日: 2023-08-21

定義

固有表現抽出(英: named entity recognition、named entity identification、named entity chunking、named entity extraction)とは、計算機を用いた自然言語処理技術の一つであり、情報抽出の一分野である。文中から固有表現 (Named Entity) を抽出し、それを固有名詞(人名、組織名、地名など)や日付、時間表現、数量、金額、パーセンテージなどのあらかじめ定義された固有表現分類へと分類する。出典: wikipedia

分類手法

MUC

組織名 (ORGANIZATION)、人名 (PERSON)、地名 (LOCATION)、日付表現 (DATE)、時間表現 (TIME)、金額表現 (MONEY)、割合表現 (PERCENT)

IREX

MUCの7種 + 固有物名 (ARTIFACT)

拡張固有表現(Extended Named Entity)

関根の拡張固有表現階層

ニューヨーク大学の関根聡らがMUC・IREXの固有表現分類を元に提唱している分類手法。他の分類と異なり階層構造を持ち、様々な粒度での分類を可能にしている。

拡張固有表現 理化学研究所

固有表現抽出エンジン(ツール・ライブラリ・API)