データ分析では、「変数(へんすう)」という言葉が当たり前のように使われます。
そして、ビジネスにおける「変数」の理解は、結果を大きく左右するのです。
日常生活ではまず用いることがないであろう「変数」という単語ですが、実は中学校でその定義を教わっています。
「変数」とは、
未知あるいは不定の数・対象を表す文字記号のこと。
あるいは
値が変化するもの。定まっていないもの。
何だか難しいですね?
でも、データ分析においては、データの項目(種類)のことだと考えておけば充分です。
今回の記事では、「変数」についてビジネスシーンにおけるデータ分析の観点からわかりやすさ重視でお話したいと思います。
また、変数について押さえておくべき点とデータ分析における変数定義の重要性ついても紹介したいと思います。
変数とは「データ項目」のこと
ビジネスシーンにおけるデータ分析では、「変数」とはデータ分析に用いるデータの項目のことを指します。
例えば、下記のようなデータを用いて、データ分析を行うとします。
このデータはとあるECサイトにおける架空の受注データです。
このデータの1行目にあるデータ項目、すなわ「注文ID」から「顧客生年月日」の1つ1つの項目が「変数」です。
みのりのあるデータ分析をするためには、たくさんのデータがあった方が良いというのは、よく知られた話ですが、1種類の「変数」ばかりが大量にあっても、さほど分析に貢献しなさそうだという事が、上の表を眺めることでイメージできると思います。
可能な限り、たくさんの種類の「変数」を分析対象にした方が、より多くの情報量を取り扱う事になるので、高度で説明力のある分析が可能になります。
また、変数は、その値の形式によって大きく二つに分かれます。
数えられる「量的変数」、数えられない「質的変数」
「変数」は、値の形式・特性によって、2つに分類されます。
値が数えられて、かつ、値の大小が比較できる「量的変数」と、そうではない「質的変数」です。
例えば前項で挙げたデータの例だと、
量的変数は、
価格、個数
です。
質的変数は、
注文ID、注文日時、決済方法、配送希望日、商品ジャンル、商品名、顧客ID、顧客住所、顧客性別、顧客生年月日
になります。
データ分析では、対象とする変数が質的変数なのか、量的変数なのかによって、取り扱い方が異なります。
詳細については近々別記事で紹介しようと思いますが、ここではとにかく、データ分析において量的変数と質的変数はいっしょくたにして扱うことができないということを押さえておけばよいでしょう。
ちなみに、量的変数は他にも、「連続変数」、質的変数は「カテゴリカル変数」などと言われたり、「定量データ」「定性データ」や他にも色々表現があるのですが、意味はだいたい同じです。
さらに、量的変数、質的変数をさらに細かく分類することもありますが、そこから先はデータサイエンティストなどのデータ分析官がわかっていればよいことです。
なお、「量的変数」と「質的変数」という分け方は、変数の特性に着目した分類であり、どのようなデータ分析を行うにもついて回ることですが、データ分析の手法によっては、データ分析におけるその変数の目的(扱われ方)によって呼び方を変わることもあります。
例えば「回帰分析」と呼ばれる分析手法では、予測される変数側を目的変数と、予測のときに用いる説明変数などと呼ばれますが、この話は、回帰分析に関する記事で紹介します。
手元にあるデータから新たな変数をつくる
データ分析をおこなうとき、より目的に即した分析を行うために、手元にあるデータを加工して新たに変数を作成することがよくあります。
例えば、データ分析の目的が「年代別の売上高の現状を把握したい」であれば、変数は「生年月日」ではなく「顧客の年代」のほうが結果がわかりやすく、より目的に即していると言えます。
前述のデータであれば、「顧客生年月日」という変数から「現在の顧客の年齢」という変数を作成し、さらに、「現在の顧客の年齢」から、「顧客の年代」という変数を作成することで、より目的に即した変数が作成できます。
また、「注文日時」という変数からは「注文の曜日」や「注文の時間帯」といった変数を新たに作ることができたり、このデータを集計して、過去1年間における顧客別の「合計注文回数」、「合計注文金額」、「最新注文日」という変数を作ることも可能です。
このように、データ分析の目的に沿って、手元にあるデータを加工・集計して新たな変数を作成するというプロセスを経て、データ分析は行われます。
変数の定義・変数の作成は、データ分析の肝
データ分析では、達成したい目的(解決したい課題)に対し、それに的確に応えられる変数を定義し、必要に応じデータの集計・加工を通して変数を作成するという工程が非常に大事です。
例えば、当たり前の話ですが、
「売上が伸び悩んでいる年代を明らかにした上で、なにか対策をたてたい」
という課題があり、データからどの年代が伸び悩んでいるかを見ようとしているときに、「年代」という項目がデータ中になければその課題に応えることはできません。
しかし、もし「生年月日」という項目がデータ中に存在していれば、「年代」という変数を作成することで、課題に応える分析が可能になります。
このように、実際のデータ分析ではその目的に応じて、蓄積されているデータとにらめっこしながら変数を具体的に設計、定義します。
そして、データを加工・集計し、変数を作成しながら、データ分析を進めていくことになります。
変数を整理していくと、例えば、どんな「商品」を幾らの「価格」で売るのか、というように、自分たちの意思決定で操作可能な変数と、お客様の行動によって生み出され、自分たちで直接操作できない「変数」があることにも気付くでしょう。
分析の成果をあげるためには、自分たちでコントロール可能な「変数」を軸にアウトプットを組み立てていく意識を持たないと、売上を上げるためにはどうすれば良いのかとか、利益を上げるためには何が必要かなど、自分たちの行動を変える事で期待できるような、問題解決のアクションは導けません。
データ分析の結果が、分析目的に的確に応えられるものとなるのか、的はずれなものになるかは、この変数の理解・定義・作成が大きなウェイトを占めると言ってもいいでしょう。
まとめ
今回の記事では、”変数”とはなにか、また、変数について押さえておくべき点とデータ分析における変数定義・変数作成の重要性について紹介しました。
- 「変数」とはデータ分析に用いるデータ項目のことである
- 「変数」の種類が多ければ多いほど、説明力は増し、良い分析が出来る
- 変数は、「量的変数」と「質的変数」に分類できる
- データ分析は、達成したい目的(解決したい課題)に応えられる変数の定義・変数の作成という工程が非常に大事である
- 自分たちでコントロール可能な「変数」を軸に分析するのがセオリーである
企業に蓄積されたデータを用いた分析を行うときは、種類や構造が複雑な大量のデータを扱うことになります。そのようなデータを前にして、変数の特性を把握しつつ、分析の目的に的確に応える変数の定義や変数の作成は一筋縄ではいかない、というのが多くの企業に見られる現状でしょう。
「データはあるけど、分析ができるかわからない。そもそも、どんな分析ができるのかもよくわからない」
そんなお悩みがある企業様は、是非かっこ株式会社までお問い合わせください。
かっこ株式会社では、企業のビジネス課題解決のため「まずやってみようをカタチにするデータ分析」サービスである「さきがけKPI」を提供しています。
本サービスでは、ご発注いただく前に、弊社データサイエンティストによる事前打ち合わせとサンプルデータの内容確認を行います。
これにより、弊社が貴社のビジネス課題を理解しつつ、その課題を解決するためのデータが揃っているか、変数の作成に問題がなさそうかを確認できた後にご発注いただくことができます。
ご興味があればお気軽にお問い合わせください。