インターン生募集 未来のゲームチェンジャーの「やってみよう」をカタチに!データサイエンスのかっこでインターン生募集中

統計

こんなにも使える、単純集計とクロス集計の活用法

この記事ではアンケートなどで得られたデータを整理する方法である、単純集計クロス集計を紹介します。

単純集計は、1つのデータ項目中の値の散らばりについて、傾向をつかむことを目的にしています。
クロス集計は、複数のデータ項目を掛け合わせて集計することでデータを比較検討しやすい形に整理するために実施します。

この2つの手法は、まさにデータ解析のはじめの一歩の中の一歩、まさに基本といえるものです。

今回は、単純集計・クロス集計を活用して、「ぼくに彼女ができない問題」を解決していく方法を具体例に、大学院に通いながら、かっこ株式会社でデータサイエンスのインターンをしている丸山が、身を削る思いで(泣)、ご紹介します。

単純集計・クロス集計とは?

アンケートや企業に溜まっているデータを実際に役に立つ情報に変えるためには集計という作業が必要になります。

集計とは、あるデータ項目に対し、その項目値ごとの数量を数え上げていくことです。

データ項目1つ1つのみで集計を行うことを単純集計といい、複数のデータ項目をかけ合わせて集計を行うことをクロス集計と言います。
クロス集計の結果がわかるように数字を表に記載したものがクロス集計です。

単純集計では1つのデータ項目に対し値がどのように散らばっているかの大まかな傾向がわかり、
クロス集計では他のデータ項目をクロスさせて集計することで、より詳細に比較検討できる形でデータの傾向をつかむことができます!

、、、言葉だけではいまいちよくわかりませんよね。
とにかく、例を見てみましょう。(『百聞は一見に如かず』とも言いますからね。)

単純集計・クロス集計の例

ここからは、実際に単純集計とクロス集計を用いた問題解決の例を紹介します。

でもその前に、突然ですが僕には大きな悩みがあります。それは、

彼女がいない!!!

ことです。

特に最近は、新型コロナウイルスの影響で人に会う機会が多くありません。
こんな状況でなければ、サークルに入って、いろんな異性とエンジョイして…といった青春ラブストーリーを考えていたのに、人と会う機会がなさすぎる。。。

こんな悩みを抱えながら悶々と研究に明け暮れていた先日、修士論文の関連資料を探すべく、ネットで関連研究の論文を探していたところ、非常に興味深い記事を見つけました。

マッチングアプリで異性に求める条件は?利用者の約6割が「容姿」と「人柄」を重視
https://www.value-press.com/pressrelease/258675(2021年3月5日確認)

この記事は、株式会社エヌリンクスが運営するマッチングアプリ利用者の男女1,000人を対象にした「マッチングアプリで異性に求める条件に関する調査」の結果とのことです。

そうだ、出会いがないなら、今話題のマッチングアプリを使おう!
どうせやるなら、どんな人が求められているのか把握して自分なりに作戦を考えようではありませんか。そこで、こちらの調査結果を参考にさせてもらいましょう。

調査結果はこのようになっています。

【マッチングアプリで異性に求める条件】

求める条件 人数
容姿 282
人柄 264
価値観 167
趣味 116
年収 70
年齢 59
職業 30
その他 12

 

【回答者の性別】

性別 女性 男性
人数 543 457

 

どうやら相手に求める条件は「容姿」がトップで次点が「人柄」であり、この2つが圧倒的であるようです。
このデータはアンケート結果なので、データ項目は「相手に求める条件はなんですか?」といった設問、項目値は設問の答えである”容姿”、”人柄”、”価値観”、といった選択肢になります。

そしてこのように、1つのデータ項目に対して、その項目値毎に数をカウントするのが単純集計であり、表にまとめたものが単純集計表です。
この単純集計により、「人がマッチングアプリで異性に求める条件」の傾向を捉えることができました。

さてさて、この結果を見て

なんだ、結局は『ただしイケメンにかぎr…(ry』の世界か。。。
イケメンになるように整形するか。。。

などと考えるのは早計です。
というのも、この結果はあくまでも全体的な傾向です。性別や年代、居住地によって、結果は違ってくることが予想されます。

そんなとき出番となるのが、クロス集計です。

クロス集計表とは他のデータ項目をクロスさせて集計することで、より詳細に比較検討できる形でデータの傾向を掴むことができるものでしたね
ここでは「求める条件」というデータ項目の中に、性別や年代、居住地といった別のデータ項目を掛け合わせることで、より詳細に傾向を確認していきましょう。
ちょうど調査結果の中に、男女別の結果があるので、その結果を見てみます。

求める条件↓  性別→ 女性 男性 合計
容姿 110 172 282
人柄 148 116 264
価値観 92 75 167
趣味 56 60 116
年収 61 9 70
年齢 42 17 59
職業 26 4 30
その他 8 4 12
合計 543 457 1000

 

この表は、「求める条件」というデータ項目と「性別」というデータ項目をかけ合わせ、クロスさせて集計したものです。
クロス集計を行うことで、単純集計のみでは見えてこなかった傾向が見えてきます。

  • 『容姿』を気にしているのは男性。女性も重要視しているものの、男性ほどではない。女性は『人柄』をより重要視している。
  • 『年収』『職業』の重要視度合いは、割合としては相対的に少ないが、男性と比べると高い。
  • 男性と比べると、『価値観』『年齢』を重視している割合がやや多い。
  • 『趣味』を重視する割合は男女同程度。

おお、よかった。整形しなくて済みそうですね。なるほど、女性は容姿より人柄を気にしているようです。細かいところも男性と女性で違いそうですね。
この結果を元に、より多くの女性とマッチングするための作戦考えてみましょう!

  • たまたま上手に格好良く写った写真よりかは、広く受け入れられそうな優しい表情の写真(良い人柄がにじみ出るもの)を使ってみる。容姿は男性が思うほどは重要な要素ではないので、写真は盛りすぎない。むしろ、写真を盛りすぎると人柄を疑われる可能性がある。ただし、女性にとっても「容姿」は重要なので、清潔感のある写真を選ぶ。
  • 自己紹介欄では、どういうことを面白いと感じ、どんな時間を過ごすのが好きなのか、自分の価値観がわかるような事を書いた上で、自分の趣味を添えて書く。
    若さと、職業・年収の将来性をさりげなくアピールするために、自慢にならない範囲で、インターンをしていて、ITエンジニアを目指しているという事も書いてみる。

なんにも考えずにマッチングアプリをするよりかは、こんな工夫をすることで、より出会いの機会が増えるのではないでしょうか!

このように、単純集計で「人がマッチングアプリで異性に求める条件」の傾向を捉え、
クロス集計で、より詳細に集計し、項目別のばらつきの違いを確認、比較検討することで、作戦だてに役立てることができました。

最後に、クロス集計で気を付けなければならないことをお話します。

クロス集計の注意点

クロス集計はデータを把握し、比較する際に便利なためよく活用するのですが、いくつか注意点があります。
特に、

  • 条件の掛け合わせを幾重にも重ねることで、集計の数が減ってしまい、あまり意味のないデータとなってしまう可能性がある。
  • クロス集計によって項目間での比較を行うことができるが、それらが常に項目間の関連性を表しているわけではない。

という2つのことに気をつける必要があります。

データ間の関連性の有無は、カイ二乗検定クラメールの連関係数などを用いて調べられます。カイ二乗検定については同ブログ内の『利益爆増のためのアクションを発見!「カイ二乗検定」の可能性とは』に記載がありますので、もしよかったら覗いてみてください。

まとめ

  • 単純集計とは、1つのデータ項目に対し、値がどのように散らばっているかの大まかな傾向をつかむこと。
  • クロス集計とは、複数の項目を組み合わせることによって、回答結果をより細分化し理解しやすくすること。
  • クロス集計を行う際は、集計の数が少なくなること、常に項目間の関連性を表しているわけではないことに注意する。

 

今回はクロス集計について、インターネット上に公開してあるデータを例に用いて説明しました。
他にもクロス集計は身近なところに多く存在しているため、様々なデータを用いた集計表を探してみてください。
もちろん、マッチングアプリについての情報もインターネット上に多く存在しているので、自分でクロス集計を行ってみるのも面白いかもしれません。

そして!

自分に合うパートナーを見つけて、青春ライフをエンジョイしましょう!!!(これが一番大事☆)

なお、僕がインターンをしているかっこ株式会社では、データの整理、可視化、分析を行い、誰もがアクションに落とせる戦術の解明まで、お客様と一緒になって取り組んでいます。

データを使ってビジネス課題を解決したい場合は、気軽にかっこまでご相談ください。
また、かっこではよりお手軽にデータ分析に着手できるように「さきがけKPI」というサービスをご用意させていただいております。
ぜひご検討ください。

ピックアップ記事

  1. 多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた
  2. こんなときには異常検知
  3. 学生をデータサイエンティストに育てる4つのポイント
  4. 知っておきたいAIの理想と現実
  5. RFM分析とは?優良顧客を見つけるやり方やメリット【例を用いて解説】

関連記事

  1. 統計

    箱ひげ図について超カンタンに解説してみた

    「箱ひげ図ってどう見るのが正解?」と気になりませんか?中高の数…

  2. 統計学でできること

    統計

    統計学でできることとは?|統計学の基礎から活用事例まで完全解説!

    「統計学でできることって何?」「そもそも統計学とは?」「統計学…

  3. 統計

    起きることの必然性を統計学で裏付ける!「検定」の使い方!

    かっこ株式会社のデータサイエンス事業部でインターンをしている松中です。…

  4. なんでも平均でいいの?

    統計

    なんでも平均でいいの?中央値と平均値をどう使い分けるか

    「なんでも平均でいいの?」「平均値や中央値ってどう使い分けるの?」…

  5. ヒストグラムのアイキャッチ画像

    統計

    ヒストグラムとは?見方やエクセルでの作り方・経営分析の例を解説

    「ヒストグラムってなに?」「どうやって作るの?」と…

  6. 度数分布表のアイキャッチ画像

    統計

    5分で分かる度数分布表|平均値などの求め方やエクセルでの作成手順

    度数分布表とはデータを決められた範囲ごとに分割し集計したものです。本記…

おすすめ記事

  1. 就活で話すことには困らないかっこのインターンシップ経験!
  2. 日々、巧妙化する不正取引の対策頻度を10倍に向上!「異常検知…
  3. 全力で食らいついたかっこでの1年間
  4. 確率を予測する「ロジスティック回帰」とは
  5. データサイエンスを現場の敵にしないために
  1. 統計

    利益爆増のためのアクションを発見!「カイ二乗検定」の可能性とは
  2. 売上分析のアイキャッチ画像

    分析

    売上分析とは?未来の戦略を練るための方法3選
  3. 分析

    まずはやってみよう!マーケティングでデータ分析!②必要なデータと基礎集計
  4. 組織

    データサイエンスを現場の敵にしないために
  5. 用語解説

    Pythonとは?3分で分かる人気の理由と基礎知識
PAGE TOP