ページ内目次
データ分析の前に
データアップロード
データモジュール作成
リレーショナルデータベース作成
データ分析を始める前に知っておくべきこと
データ分析の第一歩は、データの質が結果に大きく影響するということです。
-
低品質なデータでは、必ず低品質な結果が出ます。
-
よく言われる言葉で、「ガーベジイン、ガーベジアウト」(ゴミを入れればゴミが出る)があります。
-
つまり、どれだけ分析をしても、入力されるデータが正確でなければ、その結果も正確にはならないということです。
ですので、データ分析を始める前に、データの質を確認することが最も重要です。
データ分析を始める前に確認すべき基本的なポイント
-
データの構造を理解すること
-
どんなデータを扱っているのかを理解し、どんな変数(データの項目)が含まれているのか、そしてそのデータを使ってどんな質問に答えられるのかを考えます。
-
-
データの内容を理解すること
-
データに何が含まれているのかを知ることも大事です。例えば、データに欠損値(データがない部分)が多い場合、それをどう扱うかを考える必要があります。
-
また、テキストデータが多い場合、解析しにくくなることがあります。数値データが多いほうが、分析がしやすいです。
-
-
データの質の確認
-
良いデータの特徴は、数値が多く、整理された形式(フラットファイル)であることです。逆に、データが複雑だったり、テキストが多い場合は、分析が難しくなります。
-
-
データのバックアップを取ること
-
現在、クラウドサービスが普及しているため、データのバックアップは以前より簡単に取れるようになっています。クラウド上で自動的にバックアップされることが多いので、バックアップを忘れないようにすることが大事です。
-
データの構造
データの形式にはいくつか種類があります。
-
フラットファイル:
-
一番シンプルで理解しやすい形式。行と列で構成されており、列には変数(例えば「名前」「年齢」など)が入っている形です。
-
-
リレーショナルデータベース:
-
企業やビジネスでよく使われているデータ構造で、複数のテーブル(表)に分かれてデータを管理します。
-
例えば、「コース」「インストラクター」「学生」などがそれぞれ別々のテーブルに分かれて管理され、これらのテーブルは関連付けられています。インストラクターIDを使って、インストラクターとコースを結びつけたりします。
-
-
非構造化データ:
-
ウェブやソーシャルメディアのデータなど、テキストや画像など、整理されていないデータです。
-
リレーショナルデータベースの簡単な例
例えば、次のようなデータベースがあります。
-
インストラクター:インストラクターID、名前(ファーストネーム、ラストネーム)、ランク(役職)
-
コース:コース名、コースID、インストラクターID
-
学生:学生ID、学生名、登録しているコース
インストラクターとコースの関係は、1対多(1人のインストラクターが複数のコースを教える)です。この関係を管理するために、インストラクターIDとコースIDを使います。
最後に
データ分析の最初のステップとして、データの準備が非常に重要です。これからCognos Analyticsを使ってデータ準備を行いますが、そのための基本的な概念を理解しておくことが大切です。
補足:リレーショナルデータベースのデザインにおいて、多対多の関係(例えば、1つの学生が複数のコースを取る、1つのコースに複数の学生が登録する)を避けるために、適切なテーブル設計(通常は中間テーブルを作成する)を行います。これにより、データが正確に管理でき、分析がスムーズに進みます。
データのアップロード方法
最初にすることはデータのアップロードです。これには2つの方法がありますが、ここでは 簡単な方法を紹介します。
-
アップロードのオプション:
-
まず、画面上にある**「アップロードデータファイル」**のオプションを使ってデータをアップロードします。
-
別の方法としては、画面上のハンバーガーメニュー(3本線のメニュー)を開き、そこから「アップロードデータファイル」を選ぶこともできます。
-
-
データの選択:
-
例えば、「ラーメン屋の満足度調査データ」をアップロードします。これはリソースタブからアクセスできます。
-
ファイルを選択したら、**「開く」**をクリックします。
-
データの読み込みと準備
-
データをアップロードすると、Cognos(システム)はそのデータを読み取り、データの質をチェックし、データを準備するための作業を自動で行います。
-
この準備には少し時間がかかりますが、作業が完了すると、アップロードされたデータが表示されます。
アップロード後のデータ管理
-
データの場所:
-
アップロードしたデータは、ハンバーガーメニューを開いて「コンテンツ」をクリックすると、**「マイコンテンツ」**エリアに表示されます。
-
また、タイルビュー(アイコンが並ぶ表示)よりもリストビュー(テキスト形式の表示)の方が便利だと感じる場合、リストビューに切り替えることもできます。
-
-
お気に入りに追加:
-
データファイルをお気に入りに追加して、よく使うファイルとして簡単にアクセスできるようにすることができます。
-
特に、たくさんのファイルがある場合、この機能は非常に便利です。
-
-
アクションメニュー:
-
データのアクションメニュー(3つの点が並んでいるメニュー)をクリックすると、いくつかのオプションが表示されます。たとえば:
-
「探索ダッシュボードの作成」
-
**「データモジュールの作成」**など。
-
-
他にも、データファイルを**「置き換える」や「追加する」**オプションがあります。
-
**「置き換え」**は、新しい調査データで古いデータを入れ替えることを意味します。
-
**「追加」**は、新しいデータを既存のファイルに追加することです(この場合、カラムが一致している必要があります)。
-
-
その他のオプション
-
共有:
-
データをチームや他の人と共有することができます。リンクを使って共有することができますが、今回は使用しません。
-
-
名前変更や削除:
-
データファイルの名前を変更したり、お気に入りから外したり、削除したりすることも可能です。
-
-
プロパティ:
-
データファイルには説明を追加することができます。たとえば、「これは最初のデータファイルです」といった内容を説明に記入できます。
-
-
アクセス権限:
-
データにアクセスできるユーザーやチームメンバーに権限を与えることもできますが、今回はこれを使用しません。
-
最後のステップ
-
データファイルをアップロードした後は、ファイルのプロパティや詳細情報を確認できます。
-
「詳細」をクリックすると、追加した説明やファイルの情報が表示されます。
-
最後に、ファイルを削除することもできるので注意しましょう。
補足:
-
データのアップロード後に行う準備作業(データの質をチェックしたり、属性を追加すること)は、分析の結果に大きな影響を与えるため、しっかり行っておくことが重要です。
データの準備とデータモジュールの作成
データの準備
データをアップロードした後、次にやるべきことはデータの準備です。データの準備が整っていないと、ダッシュボードや視覚化、分析がうまくできません。
-
直接ダッシュボードや探索を作成するのはNG:
-
アップロードしたデータファイルに直接ダッシュボードや視覚化を作るのではなく、まずはデータモジュールを作成する必要があります。
-
-
データモジュールとは何か?
-
データモジュールは、単なるデータファイル以上のものです。複数のデータファイルを結合したり、不要なデータを削除したりして、分析に適した形にデータを整えます。
-
例えば、調査データをもっと効率的に分析できるように整形するために使います。
-
データモジュールの作成
-
データモジュールの作成:
-
「データモジュールの作成」を選んでクリックします。
-
-
データモジュールのインターフェース:
-
画面には2つの部分があります。
-
左側には、アップロードしたデータファイル(例えば、ラーメン屋の満足度調査データ)の変数(カラム)が表示されます。
-
右側には、選択した変数のデータ内容が表示されます。
-
-
-
変数の内容の理解:
-
まず、データファイルに含まれる変数(例:満足度、ラーメン屋の名前、年齢層など)を理解することが大事です。
-
たとえば、この調査では満足度や都市、ラーメン屋名などの情報が含まれています。
-
-
データの構造の確認:
-
この時点で、データは1つのフラットファイル(単一のテーブル)として存在しています。
-
フラットファイルとは、データが行と列に整理されたシンプルな形式です。これが最も理想的なデータ構造です。
-
-
データのバリデーション(検証):
-
Cognosは、データを自動で検証し、データに不整合やエラーがないかチェックします。
-
現時点では、エラーや不整合は見つかりませんでしたが、もし問題があれば修正が必要です。
-
データモジュールの操作
-
レポート作成に利用:
-
データモジュールを作成したら、レポート作成にも利用できますが、今回はレポート作成の話ではなく、データモジュールの操作に集中します。
-
-
アクションメニューの利用:
-
データモジュール内でできる操作は、アクションメニュー(3つの点)から選べます。主な機能は以下の通り:
-
フィルタリング:特定の条件(例:満足度が3以上の顧客)に絞り込む。
-
計算の作成:新しい変数(例:満足度と年齢を基にした新しい指標)を作成する。
-
データグループの作成:データをカテゴリーに分けることができます。たとえば、「満足度」が1~2の顧客を「不満足」、3~4の顧客を「普通」、5の顧客を「満足」といった具合にグループ化します。
-
-
-
データグループ作成例:
-
満足度を元に顧客を3つのグループに分ける例を挙げます:
-
満足度1~2:不満足
-
満足度3~4:普通
-
満足度5:満足
-
-
これにより、顧客の満足度に関する分析を深めることができます。
-
-
変数を隠す:
-
使用しない変数(例えば「日付」など)を非表示にすることができます。これにより、データモジュールがスッキリし、分析がしやすくなります。
-
-
「行ID」の重要性:
-
「行ID」という変数は、各顧客を一意に識別するための重要な変数です。これを表示にしておかないと、後で分析する際に困ります。
-
その他の操作と機能
-
データのフォーマット変更:
-
データの形式(例えば、数値や文字列の形式)を変更することができます。Cognosは自動的にデータを認識しますが、必要に応じて数値形式に変更できます。
-
-
データのクリーンアップ:
-
Null値(空の値)を他の値に置き換えたり、データを清掃したりすることができます。今回は問題ありませんが、後々必要になることもあります。
-
-
変数の名前変更:
-
変数の名前を変更したり、エクスポートして利用することもできます。
-
-
ナビゲーションパスの作成:
-
ナビゲーションパスは、階層的なデータ(例:州と都市)を関連付けるために使います。
-
これを設定しておけば、データをドリルダウンして、たとえば「州ごとに顧客を表示」することができます。
-
最後のステップ
-
データモジュールの保存:
-
すべての準備が整ったら、データモジュールを保存します。例えば、「満足度調査データモジュール」という名前を付けて保存します。
-
-
次のステップ:
-
データモジュールが作成され、保存されたら、次に進んでダッシュボードや分析を開始します。
-
まとめ
-
データモジュール作成の流れ:
-
データの内容と構造を理解する。
-
必要に応じてデータをグループ化したり、不要なデータを隠したりする。
-
データモジュールを保存して、次の分析ステップに進む。
リレーショナルデータベースとデータモジュールの作成
これまでに、CSVファイルをアップロードし、それを基にフラットなデータモジュールを作成しました。次は、もっと現実世界でよく使われるリレーショナルデータベースを使って、データモジュールを作成する方法を学びます。
リレーショナルデータベースとは?
リレーショナルデータベースは、現実のデータのつながりを表現するのに非常に重要です。例えば、会社の支店、売上、製品、顧客などの情報をテーブル(表)として管理し、それらをリレーション(関係)でつなげていきます。
-
リレーショナルデータベースの学習:
-
リレーショナルデータベースの構造や、データの取り扱い方を理解するために、SQLの授業を受けることをお勧めします。
-
サンプルデータモジュールの活用
-
サンプルデータの使用:
-
IBM Cognosには、実際に使えるサンプルデータが多く提供されています。これらを使って学んだり、実際に手を動かしてみることができます。
-
ここでは「The Great Outdoors」という架空のデータモジュールを使います。これはアウトドア製品を販売している会社の売上に関するデータです。
-
-
データモジュールの編集:
-
「編集」ボタンをクリックして、このデータモジュールを編集していきます。
-
データモジュールの内容理解
-
テーブル構造:
-
このデータモジュールには、支店、小売業者、製品、売上に関する情報が含まれています。
-
-
支店のテーブル:
-
支店ごとの情報(支店コード、住所、スタッフ数など)があります。
-
例えば、パリの支店には5人のスタッフがいます。
-
-
小売業者のテーブル:
-
製品を販売している小売業者の情報も含まれています。販売方法(FAX、電話、メールなど)や連絡先情報があります。
-
-
製品のテーブル:
-
製品名、製品カテゴリ、在庫数などが記録されています。
-
-
売上のテーブル:
-
最も重要なのは売上のデータです。これには、各取引(製品番号、注文方法、販売スタッフ、売上金額など)の詳細が含まれています。
-
リレーショナルデータベースの理解
-
リレーションシップ(関係):
-
リレーショナルデータベースでは、複数のテーブルが関係でつながっています。
-
例えば、支店と売上は1対多(1支店に対して多くの売上)が関係しています。
-
-
カルディナリティ(Cardinality):
-
1対多の関係:1つの支店に対して、複数の売上が関連付けられます。
-
-
テーブル間の接続:
-
例えば、「支店コード」は支店と売上をつなぐ共通の識別子です。このように、テーブル間でデータを結びつけることができます。
-
新しいリレーションシップの作成
-
新しいリレーションシップの作成:
-
支店と販売スタッフの関係を新しく作成する例を示しました。これには、「支店コード」が共通の識別子として使われます。
-
-
ジョイン(Join)の設定:
-
リレーショナルデータベースでは、テーブルを「ジョイン」してデータを関連付けます。例えば、「内部分の結合(Inner Join)」を使って、支店と販売スタッフを接続しました。
-
-
ループと冗長性の解消:
-
もしテーブル間で不要なループや冗長性が生じていた場合、それを削除することもできます。
-
データモジュールの保存と確認
-
データモジュールの保存:
-
すべての編集を終えた後、データモジュールを保存します。ここでは「Great Outdoors updated」という名前で保存しました。
-
-
保存後の確認:
-
「最近使った項目」や「マイコンテンツ」のエリアで保存したデータモジュールを確認できます。
-
まとめ
-
リレーショナルデータベースは、複数のテーブルを使い、データ同士を関係でつなげる形で管理されます。
-
データモジュールを作成することで、これらのデータを使って分析や可視化を行う準備が整います。
-
具体的には、売上の最も多い製品、最も多く返却された製品、各支店の売上比較など、多くの分析が可能です。