spaCy インストール･導入

記事作成日: 2023-08-30

インストールは以下のページが参考になります｡

筆者はGiNZA（日本語NLPライブラリ）を使ってインストールしたのでspaCy単独ではインストール経験がございません｡

統計モデル(Statistical models)

以下のページから日本語用のモデル(ja_core_news_sm)を入手できます｡

spaCy の機能には、独立して動作するものもありますが、トレーニング済みのパイプラインをロードする必要がある機能もあります。これにより、spaCy は言語注釈 (単語が動詞か名詞かなど) を予測できるようになります。

トレーニングされたパイプラインは、ラベル付きデータでトレーニングされた統計モデルを使用する複数のコンポーネントで構成されます。spaCy は現在、さまざまな言語用のトレーニング済みパイプラインを提供しており、個別の Python モジュールとしてインストールできます。

統計モデルに含まれるコンポーネントは通常以下のものが含まれます｡

コンテキスト内でこれらの注釈を予測するための、品詞タガー、依存関係パーサー、固有表現認識機能のバイナリ重み。
語彙内の語彙エントリ、つまり単語と、その形や綴りなどの文脈に依存しない属性。
見出し語化ルールやルックアップテーブルなどのデータファイル。
単語ベクトル、つまり、単語が互いにどれだけ似ているかを判断できる単語の多次元の意味表現。
パイプラインのロード時に spaCy を正しい状態にするための、使用する言語や処理パイプライン設定、モデル実装などの構成オプション。

言語アノテーション(Linguistic annotations)

spaCyは、テキストの文法構造についての洞察を提供するさまざまな言語注釈を提供します。これには、品詞などの単語の種類と単語間の関係が含まれます。たとえば、テキストを分析している場合、名詞が文の主語であるか目的語であるか、または「google」が動詞として使用されるか、特定の言語で Webサイトや会社を指すかによって大きな違いが生じます｡