局所表現とは

局所表現とは、自然言語処理において、単語や文脈を離散的な記号(例えば、one-hotベクトル)で表現する手法です。単語や文脈を個別の要素として扱い、それらの間の関係性を明示的に表現することはせず、各要素を独立した記号として扱います。

局所表現の基本的な考え方

局所表現では、語彙に含まれる各単語に固有の識別子(ID)を割り当て、それをone-hotベクトルで表現します。one-hotベクトルとは、ベクトルの要素のうち、特定の要素のみが1で、残りの要素が0であるベクトルです。

例えば、語彙が「猫」、「犬」、「鳥」の3つの単語からなる場合、「猫」は[1, 0, 0]、「犬」は[0, 1, 0]、「鳥」は[0, 0, 1]のように表現されます。

局所表現のメリット

  • 単純で実装が容易:局所表現は、その単純さから実装が容易であり、計算コストも比較的低いというメリットがあります。
  • 解釈の容易さ:各単語が独立した記号で表現されるため、モデルの解釈が容易です。

局所表現のデメリット

  • 語彙サイズの増大:語彙サイズが大きくなると、one-hotベクトルの次元数も増大し、メモリ消費量が増加します。
  • 意味の類似性を捉えられない:「猫」と「ネコ」のように、表記は異なるが意味が類似している単語を、全く異なるベクトルとして扱うため、意味の類似性を捉えられません。
  • 文脈の考慮が難しい:各単語を独立した記号として扱うため、「run」が「走る」という意味でも「経営する」という意味でも同じベクトルで表現されてしまい、文脈を考慮した表現が困難です。

局所表現の活用例

  • Bag-of-Wordsモデル:テキストを単語の出現頻度のベクトルで表現し、文書分類などに利用されます。
  • TF-IDF:単語の出現頻度と文書頻度に基づいて、単語の重要度を評価し、文書検索などに利用されます。

局所表現の限界と分散表現の登場

局所表現は、その単純さから様々なタスクで利用されてきましたが、意味の類似性や文脈を捉えられないという限界があります。近年では、これらの限界を克服するために、単語や文脈を低次元の密なベクトルで表現する分散表現(例えば、word2vecやBERT)が主流となっています。

局所表現は、自然言語処理の初期段階で広く利用された、単語や文脈を離散的な記号で表現する手法です。単純で実装が容易である一方、意味の類似性や文脈を捉えられないという限界があります。分散表現の登場により、局所表現は徐々にその役割を終えつつありますが、自然言語処理の基礎概念として、その重要性は変わりません。

関連用語

自然言語処理 | 今更聞けないIT用語集
深層学習 | 今更聞けないIT用語集
AIソリューション

お問い合わせ

システム開発・アプリ開発に関するご相談がございましたら、APPSWINGBYまでお気軽にご連絡ください。

APPSWINGBYの

ソリューション

APPSWINGBYのセキュリティサービスについて、詳しくは以下のメニューからお進みください。

システム開発

既存事業のDXによる新規開発、既存業務システムの引継ぎ・機能追加、表計算ソフトによる管理からの卒業等々、様々なWebシステムの開発を行っています。

iOS/Androidアプリ開発

既存事業のDXによるアプリの新規開発から既存アプリの改修・機能追加まで様々なアプリ開発における様々な課題・問題を解決しています。


リファクタリング

他のベンダーが開発したウェブサービスやアプリの不具合改修やソースコードの最適化、また、クラウド移行によってランニングコストが大幅にあがってしまったシステムのリアーキテクチャなどの行っています。