名義尺度とは

名義尺度(めいぎしゃくど、Nominal Scale)とは、対象を分類・識別するために用いられる、順序や間隔、比率を持たない質的なデータの測定尺度。

名義尺度は、統計学におけるデータの測定尺度(Levels of Measurement)の一つであり、個々の対象や事象を特定のカテゴリーやグループに分類・識別するために用いられる、最も基本的な質的なデータ(Qualitative Data)の尺度です。

この尺度で測定されるデータは、単に異なるカテゴリー間の区別を示すだけであり、カテゴリー間に優劣や順序、あるいは数値的な間隔や比率といった量的関係は存在しません。


名義尺度 の基本的な概念

名義尺度は、データを互いに排他的な(重複しない)カテゴリーに分類する際に使用されます。各カテゴリーには、識別を容易にするために名前や数字が割り当てられますが、これらの数字は単なる「ラベル」としての意味しか持たず、数値的な大小関係や加減乗除といった算術的な操作には意味がありません。

:

  • 性別: 「男性」「女性」「その他」
    • これらを「1: 男性」「2: 女性」「3: その他」のように数字で表現しても、1と2の間に数学的な大小関係があるわけではありませんし、2が1の2倍という意味もありません。
  • 血液型: 「A型」「B型」「O型」「AB型」
  • 国籍: 「日本」「アメリカ」「中国」
  • 交通手段: 「電車」「バス」「自動車」「自転車」「徒歩」
  • アンケートの選択肢: 「はい」「いいえ」
  • 商品コード: 「P-001」「P-002」

これらの例において、各カテゴリーは単に対象を区別するためのラベルとして機能します。


名義尺度 の特徴

名義尺度で測定されるデータは、以下の特徴を持ちます。

  1. 分類・識別(Classification/Identification): 対象を異なるカテゴリーに分類し、識別することが唯一の目的です。
  2. 相互排他性(Mutually Exclusive): 一つの対象が複数のカテゴリーに同時に属することはありません。
  3. 網羅性(Exhaustive): 全ての対象がいずれかのカテゴリーに分類されるように、全ての可能なカテゴリーが網羅されています。
  4. 順序性なし(No Order): カテゴリー間に大小、優劣、または順序の関係は存在しません。例えば、血液型「A型」が「B型」よりも優れている、あるいは後であるといった意味はありません。
  5. 間隔・比率なし(No Interval/Ratio): カテゴリー間の数値的な間隔や、カテゴリー間の比率に意味はありません。
    • 例えば、性別を「1: 男性」「2: 女性」と符号化しても、「女性」が「男性」の2倍であるという意味は持ちません。

名義尺度 データに許される統計的操作

名義尺度データに対しては、適用できる統計的操作が非常に限定されます。

  • 度数(Frequency): 各カテゴリーに属する対象の数を数えることができます。
  • 比率(Proportion)/百分率(Percentage): 各カテゴリーの度数を全体の数で割って、比率や百分率を計算できます。
  • 最頻値(Mode): 最も度数の多いカテゴリー(最も頻繁に出現するカテゴリー)を見つけることができます。
  • カイ二乗検定(Chi-square Test): 二つの名義尺度変数間に統計的な関連性があるかどうかを検定することができます。

名義尺度データに対して、平均値や中央値、標準偏差といった算術的な計算を行うことは、統計的に意味がありません。例えば、性別を1と2で符号化したデータの平均値を計算しても、その数値が何を意味するのかを解釈することはできません。


機械学習における 名義尺度 の扱い

機械学習においては、多くのアルゴリズムが数値データを入力として想定しているため、名義尺度データをそのまま利用することはできません。そのため、適切な前処理(Preprocessing)が必要となります。

  1. ワンホットエンコーディング(One-Hot Encoding): 名義尺度データを機械学習モデルが扱える数値形式に変換する最も一般的な方法です。各カテゴリーに対して新しいバイナリ(0または1)の列を作成し、該当するカテゴリーの列に1を、それ以外に0を割り当てます。これにより、カテゴリ間に順序関係が導入されるのを防ぎます。
    • : 交通手段をワンホットエンコーディングすると、交通手段_電車交通手段_バス交通手段_自動車といった新しい列が作成されます。
  2. ダミー変数化(Dummy Encoding): ワンホットエンコーディングと類似していますが、多重共線性の問題を避けるために、カテゴリ数よりも1つ少ない列を生成します。
  3. カテゴリエンコーディング(Categorical Encoding): Treeベースのモデルなど、一部のモデルではカテゴリカルデータを直接扱うことができる場合もあります。

測定尺度間の関係

名義尺度は、他のより高度な測定尺度(順序尺度、間隔尺度、比率尺度)の基礎となります。

  • 順序尺度(Ordinal Scale): 名義尺度の特徴に加えて、カテゴリー間に順序やランクの関係が存在します(例:満足度「低」「中」「高」)。
  • 間隔尺度(Interval Scale): 順序尺度の特徴に加えて、カテゴリー間の間隔が等しい意味を持つ尺度です。ただし、絶対的なゼロ点が存在しないため、比率には意味がありません(例:摂氏温度)。
  • 比率尺度(Ratio Scale): 間隔尺度の特徴に加えて、絶対的なゼロ点が存在し、比率に意味がある尺度です(例:身長、体重、年齢)。

これらの尺度の中でも、名義尺度は最も情報量が少なく、適用できる統計的分析手法も最も限定的ですが、データの分類・識別という目的においては不可欠な尺度です。

名義尺度は、対象を分類・識別するために用いられる、順序や間隔、比率を持たない質的なデータの測定尺度です。単にカテゴリー間の区別を示すラベルとして機能し、その数値的表現に算術的な意味はありません。

度数、比率、最頻値、カイ二乗検定といった限られた統計的操作のみが許容されます。機械学習においては、ワンホットエンコーディングなどの前処理を通じて数値データに変換され、モデルが扱える形式に整えられます。他の測定尺度と比較して最も基礎的な情報量を持つ尺度であり、データの種類と適切な分析手法を選択する上で、その特性を理解することは極めて重要です。

関連用語

ワンホットエンコーディング | 今更聞けないIT用語集
機械学習 | 今更聞けないIT用語集
AIソリューション

お問い合わせ

システム開発・アプリ開発に関するご相談がございましたら、APPSWINGBYまでお気軽にご連絡ください。

APPSWINGBYの

ソリューション

APPSWINGBYのセキュリティサービスについて、詳しくは以下のメニューからお進みください。

システム開発

既存事業のDXによる新規開発、既存業務システムの引継ぎ・機能追加、表計算ソフトによる管理からの卒業等々、様々なWebシステムの開発を行っています。

iOS/Androidアプリ開発

既存事業のDXによるアプリの新規開発から既存アプリの改修・機能追加まで様々なアプリ開発における様々な課題・問題を解決しています。


リファクタリング

他のベンダーが開発したウェブサービスやアプリの不具合改修やソースコードの最適化、また、クラウド移行によってランニングコストが大幅にあがってしまったシステムのリアーキテクチャなどの行っています。