自然言語処理 固有表現抽出
記事作成日: 2023-08-21
定義
固有表現抽出(英: named entity recognition、named entity identification、named entity chunking、named entity extraction)とは、計算機を用いた自然言語処理技術の一つであり、情報抽出の一分野である。文中から固有表現 (Named Entity) を抽出し、それを固有名詞(人名、組織名、地名など)や日付、時間表現、数量、金額、パーセンテージなどのあらかじめ定義された固有表現分類へと分類する。出典: wikipedia
分類手法
MUC
組織名 (ORGANIZATION)、人名 (PERSON)、地名 (LOCATION)、日付表現 (DATE)、時間表現 (TIME)、金額表現 (MONEY)、割合表現 (PERCENT)
IREX
MUCの7種 + 固有物名 (ARTIFACT)
拡張固有表現(Extended Named Entity)
関根の拡張固有表現階層
ニューヨーク大学の関根聡らがMUC・IREXの固有表現分類を元に提唱している分類手法。他の分類と異なり階層構造を持ち、様々な粒度での分類を可能にしている。
拡張固有表現 理化学研究所