ビッグデータ用語辞典

  1. Amazon Web Service
  2. Azure
  3. BigData
  4. BigQuery
  5. Bigtable
  6. DAMA
  7. Deep Learning
  8. DFO (データフィード最適化)
  9. DMP
  10. ELT
  11. Google Cloud Platform
  12. Hadoop
  13. IoT
  14. KGI(経営目標達成指標)
  15. KPI(重要業績評価指標)
  16. LTV(顧客生涯価値)
  17. MongoDB
  18. NoSQL
  19. OLAP
  20. PDCA
  21. PowerBI
  22. QlikView
  23. Redshift
  24. R言語
  25. Schema
  26. Tableau
  27. Talend
  28. The four Vs
  29. Treasure Data
  30. アクセス分析
  31. ガートナーリサーチ
  32. クラスタ分析
  33. クロス集計
  34. シグナル分析
  35. ダークデータ
  36. ダッシュボード
  37. データクレンジング
  38. データサイエンティスト
  39. データマイニング
  40. データ集約
  41. BI(ビジネス・インテリジェンス)
  42. レベニューマネージメント
  43. 因子分析
  44. 回帰分析
  45. 機械学習
  46. 記述分析
  47. 空間分析
  48. 探索的データ分析
  49. 判別分析
  50. 予測分析

Amazon Web Service

Amazon Web Service(AWS)は、アマゾンが提供するクラウドコンピューティングサービスです。

以前は高額な初期投資が必要だったインフラを、クラウド上で初期費用なしで入手できるようにしたサービスです。

60以上の複数のサービスで構成されており、代表的なサービスとしては仮想サーバーの「Amazon EC2」が挙げられます。

他にも、データベースやストレージ、仮想ネットワーク、ビッグデータ用のサービス、AIサービスなど、様々なサービスが提供されており、複数のサービスを組み合わせて、ひとつのシステムを構成することができます。

アマゾン自身もAWSを利用しているアマゾンは、世界最大手のECサイトとしても有名で、日本でもほとんどの方がご存じでしょう。

AWSは、顧客にサービスを提供するだけでなく、アマゾン自身もECサイトの運用基盤として利用しています。

世界有数のECサイトを支えられるだけの確かな実力があることを、身をもって証明していると言えるでしょう。

ウェブサービスはクラウド上に移行しつつある近年、サーバーレスアーキテクチャやイミュータブルインフラストラクチャなどの流行により、従来通りの物理サーバーからクラウド上に開発基盤が移動しつつあります。

物理サーバーは、導入時点で必要な性能を見積もる必要がありますが、サービス開始前に需要を予測するのは困難でした。

クラウドコンピューティングであれば、需要に合わせて性能を容易にスケールできるため、需要の変動に柔軟に対応できるというメリットがあります。

これからさらにクラウドコンピューティングの導入が進んでいくでしょう。

Azure

Microsoft Azure(マイクロソフト アジュール)は、マイクロソフトが提供するクラウドコンピューティングサービスです。

以前は、Windows Azureという名称でした。

コンピュート、ネットワーク、ストレージ、データベースなどを含む70以上のサービスから構成されており、様々なコンピューティングリソースを初期費用なしで入手できます。

マイクロソフトが開発している統合開発環境である「Visual Studio」と、密に連携できることが大きな特徴です。

Windowsの開発元としての強みWindowsは、既にデスクトップOSシェアで80%以上を占めており、史上最も普及したOSと言えるでしょう。

そのため、ソフト開発も盛んで、これまでの資産が数多くあり、クラウドに移行するにあたっては、Windowsの開発元であるマイクロソフトのクラウドが一番に検討されるでしょう。

特に、オンプレミスシステムとクラウドを併用するハイブリッドクラウドでは、既存のWindows Serverとの統合に役立つでしょう。

これからが期待される機械学習サービスAzureでは、機械学習サービスとして「Machine Learning(ML)」を提供しています。

人工知能(AI)の一分野の機械学習は、高度な知識が求められるため導入が困難でした。

MLでは、GUIでコンポーネントを繋げていくことにより、プログラミング不要で機械学習を実行可能です。

売上予測や需要予測など、マーケティングに役立つ情報を予測するために活用できます。

BigData

ビッグデータとは、これまでのデータベースシステムでは記録や管理、保管、分析が難しいような巨大データ群のことで、それとともに多様な種類や型式が含まれている、非構造型データや非定型型データを含んだもの、と一般的には定義されています。

つまり、従来からの莫大な量の定型データを保有しているだけではビッグデータとは呼びません。

NoSQLで処理するような非構造型、非定型のデータを対象に含んでいることがその要件とされています。

また、このデータを即座に分析、利用できる仕組みやシステムのこともビッグデータと呼んでいます。

ビッグデータが扱う非構造化データについて従来のデータベースが扱ってきたのは、CSVファイル、固定長ファイル、エクセルファイルなどの構造化データですが、ビッグデータではXMLファイル、Jsonファイル、テキストファイル、画像ファイルなどがその対象となっている点が大きく異なります。

この構造がひとつひとつの異なるデータを短時間に複合的に分析し、データ間の相関を観察できることが、ビッグデータの最大のメリットです。

これまで一般企業では、物理的に分析不能とされてきた巨大なデータもIT技術の進化と、クラウドサービスなどの安価で大量のリソースを必要な時に必要なだけ安価に利用できるサービスが発達したことにより、分析可能となってきています。

BigQuery

Big Queryは、グーグルが提供するビッグデータ分析サービスです。

Google Cloud Platformの1サービスとして提供されています。

数テラバイトを超えるような非常に大きなデータを、SQLによく似た問い合わせ文でクエリ(問い合わせ)できます。

クエリは大量のサーバーで分散処理されるため、大規模データセットでも非常に高速に結果を得られます。

クラウドサービスのため、初期費用はかからず使用量に応じて従量課金されます。

複数の方法で使用可能Big Queryは、ウェブコンソールから使える他、コマンドライン(CLI)や提供されているAPIを使ったプログラミングにも対応しています。

このため、既存システムへの統合も比較的容易に行なえます。

たとえば、毎日売上データを自動的にBig Queryに格納し、分析した上で結果を各部署にメールで配信する、などといったような使い方が考えられます。

高速性を活かしてリアルタイム分析に活用する非常に高速なBig Queryは、リアルタイム分析にも活用されています。

たとえば、毎分ごとに売上データを格納し、ほぼリアルタイムに結果を見ることができます。

また、Google Analyticsの有料サービスを使えば、アクセスデータをBig Queryでリアルタイム分析できます。

これにより、アクセスデータ以外も含めた複雑なデータ分析が可能になります。

1日限りのイベントなど、即時性を求められるシーンにも活用できるでしょう。

Bigtable

Big Tableは、Google社の主要な顧客サービスを支える独自の巨大分散データストアのことをいいます。

このBig Tableは2005年4月より本格的な事業上の運用がはじまり、主力の検索サービスをはじめ、Gmail、YouTube、GoogleMaps、日本語入力、App Engineなど多様な同社のプロジェクトで利用されている状況です。

検索サービスの高速化のために開発されたBig Tableはそもそも検索サービスで膨大なコンテンツやインデックスを保持することから、それを高速で検索するための専用データストアとして開発されたものです。
Big Tableの特徴についてBig Tableにはいくつかの明確な特徴が存在します。

スケーラビリティに制限がないことは大きな特徴といえます。

膨大なデータをテーブルに保存して膨大なユーザーが同時にアクセスしても個別ユーザーの読み書き処理は限定的になるようにできています。

また、可用性が高いのも特徴で、Big Tableのテーブルにデータ書き込みを行うと同時に複数のサーバーにコピーがされ異なるロケーションのサーバーも選択されることから、データセンターで大規模障害が発生しても短時間でサービス復旧ができるメリットをもっています。

Big Tableではデータの検索ができず、テーブルの結合機能を落とすことでスケーラビリティや高可用性を実現しており、非常にユニークな機能を持っているということができます。

DAMA

DAMAとはData Management Association Internationalの略号で、世界各地に70の支部を持ち、8,000名を越える会員を擁する全世界のデータ専門家のための国際的な非営利団体のことをさします。

この組織は、特定のベンダーや技術、手法に依存しないことを前提としながら、グローバルレベルでデータや情報、知識を各企業の重要な資産として管理する必要性の理解を促進し、世界的にこの分野の成長を推進することを大きな目的として設立され、活動を行っています。

この組織の日本での活動を2010年から行っているのがDAMA データマネージメント協会日本支部です。

DAMA データマネージメント協会日本支部の概要DAMA データマネージメント協会日本支部は、グローバルな組織同様に非営利組織であり、国内で活動する様々なベンダーからは完全に独立した専門家組織となっています。

DAMA データマネージメント協会日本支部設立の目的は、DAMAと同様に、データ、情報、知識を企業の重要資産として理解し、発展、管理することを国内において促進することを第一としています。

この組織は、データマネージメント分野における広範かつ最新の問題に対応するため、オープンなフォーラムを支援し、国内での教育機会を市場に与えることを目的としており、積極的な活動を展開しております。

Deep Learning

ディープラーニングとは、多層構造のニューラルネットワークを用いることにより、機械学習を行うことです。

ディープラーニングは深層学習とも言います。

ディープラーニングの仕組み我々の人間の脳には、多数のニューロン(神経細胞)があり、それぞれのニューロンはある規則に従って結合されています。

これにより、神経回路を構成しているのです。

  • 神経細胞をモデル化したものをニューラルネットワークと呼びます。
  • ニューラルネットワークは、入力層、中間層、出力層などにより構成されています。
  • ニューラルネットワークを使用することにより、入力パターンと出力パターンの対応関係を学習させることが可能になります。
  • ニューラルネットワークは、非線形回帰分析、非線形判別分析(パターン認識)の有力な学習の方法です。
ディープラーニングの事例ディープラーニングを駆使した、Google の「α碁」が、世界のTOP棋士 イ・セドル氏に勝ったことで、社会的に有名になりました。

ニューラルネットワークが最も得意なのは、パターン認識、分類、およびノイズが混在しているデータの処理になります。

この技術は、例えば、画像認識や音声認識の分野に活用されています。

ニューラルネットワークに画像などのデータを入力すると、特徴量が自動計算されます。

特徴量とは、特定の概念を特徴づけたり、問題解決するのに鍵となる本質的変数です。

この階層的な特徴量の学習により、画像認識や音声認識が可能になるのです。

現在では様々な分野に急激に運用が進んでいます。

DFO (データフィード最適化)

DFOとは、Data Feed Optimizationの略号で、ECサイトにおける新規顧客を増やすためにアフィリエイトなどの集客チャネルに登録する商品データを最適化することをいいます。

近年ではECサイトが集客を高める手段として積極的にDFOに取り組むようになっています。

多くのECサイトは、SEOによって上位の検索結果に自社サイトが掲示されるのに加え、キーワード連動広告やアフィリエイト広告を利用するようになっており、こうした広告手法が多様化し検索結果と密に連動するようになっていることからDFOを利用して効率を上げる動きが盛んになっているのです。

DFOは人海戦術で手動でも設定可能ですが、効率性と機動力を発揮するため専門のツールが発売されていることから、大半のECサイトなどはこうした専門ツールを利用して最適化を実現しています。

DFO(Data Feed Optimization)の手順DFOを実際に利用する手順は以下のようになります。

・商品データベースから集客サイトで必要とされる商品データを抽出・集客チャネルに適合したデータフォーマットへの変換・キーワードの見直し実施・カテゴリーを適合させてデータを登録ツールを利用すれば価格の変化や在庫切れといった事態でも掲載を注視することができますので、機動力のあるDFOを実現することができるようになります。

DMP

DMP(データマネジメントプラットフォーム)とは、インターネット上のサーバーなどに蓄積されたユーザーデータを統一的に管理するための基盤です。

ウェブサービスからは、ユーザーの年齢、性別、職業など、多数の属性データを取得可能です。

それに、興味関心ごとを加えることで、統計的なデータ分析が可能となります。

類似のものには、DWH(データウェアハウス)が以前から存在していましたが、それをさらに拡張したものといえます。

オープンDMPとプライベートDMPは、大きく「オープンDMP」と「プライベートDMP」の2つに分けられます。

オープンDMPは、ユーザーデータの収集を目的としている企業のDMPで、匿名化されたデータを必要とする企業に提供しています。

たとえば、Yahoo! DMPなどが一つの例です。

一方、プライベートDMPは、自社で保有するDMPで、自社に特化したデータを収集できる反面、大規模なオープンDMPに比べ、データ量が少なくなってしまうというデメリットもあります。

DMPはマーケティングや広告に活用される一番身近な活用例は「広告」でしょう。

今やインターネットでは、どこもかしこも広告であふれています。

表示される広告は、それまでのユーザーの行動から最適なものが選択されます。

ユーザーが興味を持ちそうな広告を表示することにより、広告のパフォーマンスを最適化します。

それと同様に、ECサイトでのオススメ商品などでも、ユーザーに最適な商品を表示するために活用されています。

ELT

ETLとはExtract Transform Loadという英語の略号で企業内に点在する複数のシステムに蓄積されたデータを抽出し、ひとつのデータウエアハウス内で統合的に分析ができるように変換や加工することをいいます。

ETLは3つのプロセスで生成ETLはその名が表しているように3つのプロセスから成り立っています。

まずExtractは、日本語では抽出のことをいい、情報源となる社内のシステムから必要データを抽出するための工程をこのように呼んでいます。

Transformは、日本語では変換や加工を意味する言葉で、情報源から抽出したデータを一定の規則で加工し統合的なデータベースに取り込める形式に変換することをいいます。

さらにLoad工程は、Transformで作成したデータファイルとデータウエアハウス(DWH)にインポートするプロセスのことをいいます。

ETLではこの3つのプロセスを実行することになります。

BI運用にはETLが不可欠企業が既に実装している業務システムには様々なデータが蓄積されています。

しかしながら、それらのデータを統合的分析するという機能は今まで欠落していました。

しかしBI(ビジネスインテリジェンス)のツールが普及し、ビッグデータの分析にも時間と費用がかからなくなったことから、こうした既存データを統合的に分析できるように収集、変換することが重要になってきています。

ELT に求められる機能様々なシステムから提供される大量の情報を扱うELTには以下のような機能が求められます。
  1. システム間連携アダプター(EAI)機能を備えている。
  2. 大量データの高速処理・データ変換・加工・フィルタリングのバリエーションが豊富・メタデータが管理できる

Google Cloud Platform

Google Cloud Platform(GCP)は、グーグルが提供するクラウドコンピューティングサービスです。

40以上のサービスから成り、コンピューティングやストレージ、データベース、ネットワークなど、クラウド上に抽象化されたハードウェアリソースを組み合わせてシステムを構成できます。

GCPは、グーグル自身も使用しており、誰もが知っているGoogle検索やYouTubeなどの有名サービスのインフラとしても使われています。

大手3社が争うクラウド市場クラウドコンピューティング市場は、大手企業による市場争いが続いています。

2019年には、市場規模が2014年の2.8倍にあたる5,404億円に達すると予想されており、グーグルやアマゾン、マイクロソフトなどの大手企業により、さらなる市場開拓が進むものと思われます。

コンテナ技術の普及も後押しDockerは、何度でも同じ環境を作り直せるコンテナ技術として、近年エンジニアから注目を集めています。

実行環境をコードで記述できるため、手作業による環境構築の些細なミスをなくせます。

クラウドコンピューティングサービス各社は、Dockerコンテナの実行環境もサービスとして提供しています。

まさに湯水のように使えるクラウドは、Dockerと非常に相性のよいサービスと言えるでしょう。

また、Dockerは共通の技術基盤として複数のクラウドコンピューティングサービスで使えるため、ベンダロックインを防ぎ、特定のクラウドに依存しない柔軟性も持たせてくれます。

Hadoop

hadoop(ハドゥープ)は、Apacheソフトウェア財団が開発している、ビッグデータを分散処理するためのオープンソースミドルウェアです。

共有ライブラリのCommon、分散ファイルシステムのHDFS、リソース管理やスケジューリングを担当するYARN、高速な並列処理を実現するMapReduceの4つのモジュールで構成されています。

Googleが発表したGFSとMapReduceの論文に基づいて開発されました。

分散処理によって大量データを高速に処理単一のコンピューターでは処理能力に限界があるため、複数のコンピューターによる分散処理が必要です。

Hadoopでは、「クラスタ」という単位でコンピューター群を管理し、処理能力が不足しても、簡単にコンピューター(ノード)を追加できるようになっています。

ノードの追加はクラスタの停止を必要とせず、処理中でも追加が可能です。

また、データを格納するHDFSは、スキーマ定義が不要なため、とりあえず格納しておいて、後から意味づけすることができます。

高級なコンピューター製品を必要としないHadoopは、一般的に購入可能なサーバー製品を利用することを前提に設計されています。

そのため、高級な専用ハードウェアを必要としません。

故障も想定されているので、故障時もシステムは停止することなく、自動的にデータを復旧して処理を継続します。

ビッグデータを処理するHadoop現在では、Hadoopは様々な用途に活用されています。

にわかに期待が高まってきている「機械学習」もそのひとつです。

機械学習は、人工知能(AI)の一分野で、大量のデータを処理して、データの傾向を見つけ出す手法です。

膨大なデータを処理する必要があるため、Hadoopなどの並列処理が使われています。

IoT

IoTとは、モノのインターネット(Internet of Things)のことです。

言い換えると、あらゆる「もの」がインターネットにつながることです。

コンピュータなどの情報通信機器だけでなく、あらゆる「もの」に通信機能を持たせ、インターネットに接続します。

また、「もの」同志で相互に通信したりします。

これにより、自動認識、自動制御、遠隔計測、遠隔操作などが可能になります。

Iot事例事例として、「スマホからの家庭電器の操作」「スマホでタクシー配車サービス」「Suicaを使った自動販売機」や「駐車場の自動予約」「宅配BOXの自動受け取り」などがあります。
Iotの仕組み「スマホからの家庭電器の操作」は、「エアコンをつけっぱなしで出かけてしまったとき」や「帰宅するまでに涼しくしておきたいとき」に、外部からスマホで通信しエアコン操作を可能にするものです。

「スマホでタクシー配車サービス」は、「TAXI」を呼ぶ場合に、GPSで乗車位置を自動判定し乗車場所を決めます。

決済は、現金の他、クレジットカードでできます。

「Suicaを使った自動販売機」は、Suicaで購買データが取得されます。

この情報にもとづき、自動販売機の設置場所に応じた品揃えをします。

また、気温、時間帯、年齢や性別に応じたお勧め商品が提示されます。

KGI(経営目標達成指標)

KGIとは、英語のKey Goal Indicatorの略号のことで、経営目標達成指標などと呼ばれています。

与えられた目標達成のための指標をあらかじめ設定し、どのレベルに達すればその目標を達成することができるかを定義したものです。

一般的にKGI(経営目標達成指標)の目標は、最重要とされるものが数値化されて明確に設定されることになります。

KGIとKPIの違い同じ目標達成の指標としてKPI(Key Performance Indicator)と呼ばれるものがありますが、KGIは目標を達成したかどうかを判断するための指標であるのに対して、KPIは同じ目標を達成するまでのプロセスに使われています。

企業などではKGIとKPIを両方利用して目標達成の指標に利用するケースもみられます。

KGIとKPIのデータ定義KGIはあくまで最終的な目標値となりますので、具体的な達成数値が設定されます。

たとえば、売り上げ前年比20%アップ、利益率10%アップといったものがKGIです。

KPIでも数値設定は行われますが、こちらはたとえば、特定商品の売り上げを40%増加させることで最終的な売り上げ20%を目指す、といったようなプロセスに対する定義も含まれていることが大きな違いとなります。

KGIは最終目標であり、そのKGIの達成に向かってプロセスが適切に履行されているかどうかを計測するのがKPIと考えればわかりやすくなります。

KPI(重要業績評価指標)

KPIとはKey Performance Indicatorの略号で、企業の目標設定に頻繁に利用される指標です。

企業経営においては多岐にわたる業績評価指標が利用されていますが、KPI(重要業績評価指標)はその名の通り、最もキーになる指標で、その目標の達成に向けて、プロセスが具体的かつ適切に実行されているかどうかを計測するものとなっています。

KPIには時間軸が設定されるKPIは一般的に一定の期間を設定し、その結果を計測します。

設定期間は、四半期、月次、週次、日次といった形で業態によって変化します。

期間ごとにパフォーマンスの結果が評価されるので、設定よりも悪い場合には改善案の策定や実施が求められることになります。

KPIは営業やマーケティング領域で利用されることが多くなります。
  • たとえば新規顧客獲得でいえば、新規の顧客訪問回数や成約件数、売上金額など具体的な数値の設定を行って管理することができます。
  • また人事部門などでは、従業員の離職率などをKPIとして設定利用するケースもあります。
KPIの有用性KPIはプロセスを含めて、共通の目標指標が数字で提示されることになるため、個々の人間の目標設定のみならず、部門や部署といった集団の意思統一にも利用しやすいのが大きなメリットです。

LTV(顧客生涯価値)

LTVとは、Life Time Valueの略号で日本語では顧客生涯価値と呼ばれるものです。

ひとりの顧客が生涯を通じて特定企業にもたらす利益の総額のことをさします。

このLTV(顧客生涯価値)は企業が提供するサービスや役務に対するロイヤリティ(愛着)が強ければ強いほど高くなる傾向にあります。

人口減少や高齢化など、市場の変化で多くの企業がLTVに着目これまでモノやサービスは、年間でどのくらい販売できるかが大きな目標となってきましたが、昨今の日本のように高齢化が進むと、新たな顧客を獲得していくことよりも、既存顧客との良好な関係を維持することでLTVを高めることのほうが重要であるといった、CRMの発想を強くもつ企業が増えています。

一般的に、新規顧客を獲得するためのマーケティングコストは既存客への対応の5倍かかると言われていますので、効率的なマーケティングを実現するという意味でもLTVに注目が集まっているといえるでしょう。

LTVの算出方法LTVは様々な商品やサービスでの指標となっていますが、一般的な算出方法はLTV=平均購買単価×購買頻度×継続購買期間ということになります。

LTVを最大化させるためには、購入単価の増加、購入頻度の増加、継続購買期間の延長、獲得費用の減少、維持費用の減少などを考慮していくことが重要となります。

MongoDB

MongoDBは、オープンソースのドキュメント指向データベースです。

NoSQL」データベースに分類され、RDBMSとは違った特性を持っています。

RDBMSとは違い、データは「コレクション」という「ドキュメント」の集合体に格納されます。

ドキュメントは、JSONによく似た文字列で、複数の要素をひとまとめにして格納できます。

JSONをそのまま格納できるため、JavaScriptとの相性がよく、多くのウェブサービスで使われています。

シンプルな構造で、高速比較を得意とし、データの差分チェックなどを高効率に行えます。

最も人気のあるNoSQLデータベースは、他にもRedisやHBaseなど多数ありますが、その中でもMongoDBは最も人気があります。

データベースの人気ランキングでも5位を獲得しており、これからの成長にも期待が持てるNoSQLデータベースと言えるでしょう。

RDBMSと共存するNoSQLデータベースは、RDBMSを置き換えるものではなく、互いに補完し合う関係にあります。

NoSQLは基本的にトランザクションがなく、厳格なデータ管理が苦手です。

そのため、整合性を求められる場面では、RDBMSのほうが適しています。

用途に合わせてどちらかを選択する、もしくは組み合わせて使う必要があります。

MongoDBの活用シーンとしては、大量のデータを分散処理する必要がある、ウェブサービスやソーシャルゲームなどが挙げられます。

RDBMSは水平スケールが苦手で、アクセス数の増加に対応することが困難です。

一方、MongoDBは分散処理が容易に行えるため、突発的なアクセス増にも対応できます。

NoSQL

NoSQLとはSQLを使用しないデータベース製品ということを表します。

NOという名称が就いていることから、SQLを否定した意味に見えますが、正確にはNot Onlyの略とされており、SQLだけではなくほかのデータベース製品であることを示しています。

NoSQLデータベースの特徴NoSQLデータベースは、幅広い種類の膨大なデータを高速で動的に整理、分析することを可能にした、非リレーショナルな広域分散型データベースのシステムと定義できます。

NoSQLデータベースは従来から普及しているリレーショナルデータベースと比較するとスケーラビリティ、可用性、耐障害性の面で遥かに凌駕する機能を有しています。

大きな特徴は、柔軟なテクノロジーであり、スキーマの必要ないデータモデル、水平スケーラビリティ、分散アーキテクチャ、SQLに限定されない言語やインターフェースを利用することが可能であるという点です。

ビッグデータに適した環境を提供ビッグデータの利用は各業界、企業で幅広く進展しつつありますが、ビッグデータの活用を視野に入れたときに、それを支えるデータベースとして導入が進んでいるのがNoSQLデータベースということになります。

NoSQLデータベース環境は、分散アーキテクチャに基づいて構築されているため、単一障害点がなく、機能とデータの両方について冗長性を備えている点がさらに利用を加速させています。

OLAP

OLAPは、Online Analytical Processingの略語であり、データベース上に蓄積された大量のデータについて、複雑な集計や分析を実行し、短時間で結果を表示することのできるシステムのことをいいます。

OLAPは全体として、データサイエンティストのようなその道の専門家が使うというよりは初心者でも利用できるグラフィックユーザーインターフェースを実装しており、簡単に使えるところが大きな特徴といえます。

OLAP (Online Analytical Processing)の魅力一般的なデータベースシステムを利用したデータ集計やレポーティングの実施は、結果がでるまでに非常に時間のかかるものが多いですが、OLAPは対話的な操作を進めることにより、はるかに早く結果を出せることが大きな魅力です。

また、定期的な集計やレポーティングとは異なる1回かぎりの分析を行う場合や何度もトライアル&エラーを繰り返して精度をあげるような分析を行う場合には、大きな力を発揮してくれるものとなります。

方式についてOLAPの方式には、MOLAPと呼ばれる多次元データを分析に使用するものやROLAPと呼ばれるリレーショナルデータベースをそのまま用いる方式のもの、さらに、集計値だけを多次元データで生成するHOLAPと呼ばれるものなどがあり、利用する内容と状況にあわせて選択することが重要となります。

PDCA

PDCAとは、英語のPlan、Do、Check、Actionの4つの言葉の頭文字をとったもので、この4つの順番でビジネスのサイクルをまわしていくことをいいます。

Plan

Planはその名のとおり、目標を設定し、そのために何をするべきかの仮説を構築し具体的なプランニングを行うことをいいます。

Do

Doは実行を示したもので、Planのフェーズで作られた計画に基づいて実際にビジネスを実行してみることになります。

Check

Check計画に基づいて実行してみた結果を評価するのがCheckのフェーズです。

実際に行ってみた結果が、計画通りに進行してよかったのか、あるいは計画を大きく下回りパフォーマンスが出なかったのかといった部分を冷静に評価することになります。

このCheckは、業態によって量的評価と質的評価が伴うことがあります。

Action

Action アクションは計画、実施、評価を通じて判明した問題点を分析し、さらに改善して実行するか停止するかを判断するフェーズとなります。

問題点を改善し新たなプランを立てる場合は、再度このPDCAをまわすことになりますが、そもそもの計画にまったく実効性がない場合にはこの段階で打ち切りという判断を下すことも考えられます。

PDCAを回すポイントPlanとDoは比較的誰にでもできることですが、Check とActionを適切に実行できるかどうかがこのサイクルをまわせるかの大きなポイントになっていると言えます。

PowerBI

Power BIは、マイクロソフトが提供するBI(ビジネスインテリジェンス)ツールです。

データの分析とビジュアライズ(視覚化)を一貫して行うことができ、ファイルやデータベースなど、さまざまな場所からデータを読み込めることが特徴のひとつです。

他サービスとの連携も可能で、Google AnalyticsやGitHub、JIRAなどの有名なウェブサービスからデータを取得できます。

データを読み込むだけで基本的なグラフやチャートが作成されるため、データの可視化に一役買ってくれます。

データを組み合わせてグラフを作る既定で作成されるグラフ以外にも、自分で任意のデータを組み合わせてグラフを作ることもできます。

たとえば、Google Analyticsを例に挙げると、訪問ユーザー数と日時を組み合わせて、直近1週間のユーザー数の変化をグラフにすることが可能です。

複数のグラフを組み合わせることもでき、ドラックして簡単にレイアウトを整えられるため資料作成にも最適です。

ウェブサイトの成果を報告するプレゼンテーションなどに活用できるでしょう。

ブラウザ版とデスクトップ版の2種類が利用できるPower BIは、ブラウザ版とデスクトップ版の2種類が提供されています。

動作がやや異なり、使い勝手はブラウザ版のほうが上です。

基本的には同じことができますが、どちらか迷ったらブラウザ版を使うとよいでしょう。

一方、デスクトップ版にも「オフラインで使える」という利点があるため、状況によっては重宝します。

QlikView

Qliqviewは、数多くのビジュアライゼーションと分析機能を備えており、データサイエンティストの分析プラットフォームです。

ビジュアライゼーション機能には、経営層に見せるダッシュボード機能を含みます。

分析手順の特徴として、ツールを使用する人が、簡単かつ直感的に分析できるように分析画面にガイドをつけて使用しやすいものとしています。

使用できるデータあらゆるソースからデータ取得や取りこみが可能です。

例えば、SQL ServerのデータやOracleデータベース、Excel、XML、テキスト形式をQlikviewに取りこんでデータ分析することが可能です。

ビジュアライゼーションQlikviewは、ユーザーの要望に合わせて、多種多様なグラフ(棒グラフ、円グラフなど)、チャートなどを提供しています。

ビュー、ズーム、グループ化機能はもとより、アニメーションなどの機能によりデータの分析結果を直感的に把握することができます。

ビジュアライゼーションには、ダッシュボード、簡易シミュレーション、比較分析、ABC分析などの機能もあります。

図や表を印刷することができ、データをエクスポートして他のプログラムで加工することができます。

Redshift

Red Shiftとは、アマゾンが提供するAWSのクラウド型DWH・データウエアハウスサービスのことを指します。

Red Shiftはペタバイト級の高速DWHであり、大量のデータ処理、集計を可能としています。

BIツールの実装・連携も可能にしていることから、短時間で自在に分析を行うこともできます。

Red Shiftの5つの特徴・コストの大幅削減が可能既存のDWHに比べて飛躍的なコストダウンができることは、大きな特徴です。

億単位の投資を必要としたものが、ごくわずかな金額から利用できるのでユーザーベネフィットとしても大きなものとなります。

  1. 用途に応じた段階的料金設定を利用できるRed Shiftはスモールスタートから本格的な利用まで、段階的な料金設定がされていますので、必要に応じて利用量を増やしていくことが可能です。
  2. フルマネージドサービスが可能Red Shiftはフルマネージドサービスに対応しているので、提供されるコンソールでモニタリングを行ったり、簡単に構成変更を実現できます。
  3. PostgreSQL8.0.2に準拠Red Shiftは、PostgreSQLとの互換性が高くPostgreSQL標準のクライアントコマンド、psqlも使用可能で、JDBCやODBCなどの接続もサポートしていることから使いやすさも特徴となっています。
  4. 管理作業の自動化ノード構成、設定、モニタリング、バックアップなど運用管理のほとんどが自動化されています。

こうしたことからRed Shiftは幅広いユーザーから支持を受けて広範な利用が進んでいる状況です。

R言語

R言語は、統計分析に特化したオープンソースのプログラミング言語です。

特徴的なのは、言語だけでなく開発環境や実行環境まで含まれている点です。

RStudioという開発環境上で、データの読み込みから加工、分析、ビジュアライズ(視覚化)まで一貫して行えます。

言語には、統計分析用のさまざまなメソッドが用意されており、統計処理を簡単に実行できます。

一般的なプログラミング言語とは考え方が異なっており、扱いには統計学の基礎知識が必要です。

注目を集めるデータサイエンティスト近年、大量のデータがウェブサービスやスマートフォンなどから取得されています。

データのままでは意味がないため、分析して結果をビジネスに反映させる必要があります。

そのため、データ分析を専門とするデータサイエンティストが注目を集めています。

主に統計分析を活用するため、分析にR言語を活用しています。

各種APIが最初から用意されているため、効率的に素早く分析できるためです。

人工知能にも活用されているR言語は、人工知能(AI)の分野にも活用されています。

AIの一分野である機械学習では、複雑な数値計算により、データを処理します。

データ処理を得意とするR言語には、標準ライブラリ以外にも複数のパッケージが用意されており、比較的容易に機械学習が行なえます。

学習結果もグラフとしてすぐに出力できるため、探索的な機械学習に向いていると言えます。

Schema

Schema(スキーマ)とは、もともと図や図式、計画といったものを示す言葉で語源はギリシャ語とされています。

  1. ITの世界での、Schemaはデータの論理構造の集合体と説明されます。
  2. わかりやすくいえば、データベースの構造定義を指すことが一般的です。
  3. Scheme(スキーム)は具体性を帯びた内容を示す言葉ですがShema(スキーマ)は、概要を示す大まかな内容という違いがあります。
概念スキーマデータベースには管理の仕方によって、リレーショナルデータベースや、カード型データベース、ネットワーク型データベースといった種類のものが存在していますが、こうしたデータ管理の基本的な方式のことは日本語で概念スキーマとよばれています。
内部スキーマリレーショナルデータベースと呼ばれる、データの集合をテーブルという表で表す方式では、それぞれの項目のデータ型式、データサイズ、プライマリーキー(主キー)の選択、その他テーブルとの関連付けの仕様、ネットワーク型データベースのレコード設計などの詳細は内部スキーマと呼ばれています。

まさにユーザーが組み立てたオブジェクトの市場の中身のことをこう呼んでいるというわけです。

Tableau

Tableau(タブロー)は、タブローソフトウェアが提供するBI(ビジネスインテリジェンス)ツールです。

用途に合わせて、Desktop、Server、Reader、Public、Onlineの5つのラインアップから製品を選択します。

企業では、売上データや契約件数、問い合わせ件数などさまざまなデータを集計していますが、数値データではわかりにくいため視覚化する必要があります。

Tableauを使えば、プログラミングをすることなく、ビジネスデータを素早く視覚化できます。

データを「見える化」するBIツールの主な目的は、数値データを視覚的に表し「見える化」することです。
  1. その道のプロでもなければ、大量の数値データをそのまま分析するのは困難です。
  2. 数値をグラフとして視覚化すれば、一目するだけでデータの傾向が見えてきます。
  3. また、グラフ化したデータはプレゼンテーション用の資料としても役立ちます。
  4. 細かい数値を説明するよりも、直感的に理解でき、説得力も増すでしょう。
位置情報を交えた活用方法近年、スマートフォンなどの普及により、位置情報を含んだデータも取得できるようになってきました。

Tableauでは、位置情報を含んだデータを日本地図などにマッピングする機能を持っており、地理的なデータ分析も可能になっています。

地域ごとの差異を分析することで、より効果的なマーケティングにつなげることができるでしょう。

Talend

Talendは、アメリカに本社を置くビッグデータ関連のソフトウェアを提供している企業です。

市販製品だけでなく、ETLツールである「Talend Open Studio」をオープンソースで無償提供しています。

ETLツールとは、Extract(抽出)・Transform(変換)・Load(読み込み)を行うツールのことで、BI(ビジネスインテリジェンス)システムで重要な役割を果たします。

BIでは、さまざまな場所からデータを取得する必要があるため、それぞれのデータ形式を統一する必要があります。

それを担うのがETLツールです。

データを分析する前段階として、それぞれのデータソースからデータを適切な形式で読み込みます。

Talend Open StudioはEclipseベースTalend Open StudioはEclipseをベースとしており、普段Eclipseを使っている方には馴染みのあるインターフェイスです。

また、クロスプラットフォームであるためOSを選びません。

Java言語によるカスタマイズが可能で、任意のデータソースやデータ変換を定義できることが特徴のひとつです。

汚れたデータをキレイにするデータクレンジングTalendには、「データクレンジング」をサポートする製品もあります。

データクレンジングとは、無効なデータを除外したり、別のデータに置き換えたりすることです。

たとえば、空の項目を0に置き換えたり、重複している項目を一つにまとめたりします。

生のデータは分析しやすい形式とはいえないため、事前にさまざまな前処理を行う必要があるのです。

The four Vs

4 Vsとは、ビッグデータの4つのVという意味の言葉です。

4つのVはVolume(容量)、Velocity(頻度・スピード)、Variety(種類)、Veracity(正確性)からなります。

Volumeはデータ量、Velocityはデータの生成される速度、Varietyはデータの多様性、Veracityはデータの正確さを意味しており、ビッグデータではこうした4つの要素が重要とされています。

ビッグデータは単純に巨大でボリュームが大きいデータというだけではないのです。

テクノロジーで解決された部分とされていない部分ビッグデータを構成するこの4つのVは近年のテクノロジーの進化で飛躍的に成長した部分がある反面、テクノロジーでは依然として解決がついていない部分も残されています。

Volume や Velocityの領域は様々なソフトやハードウエアの処理能力や処理方法の向上が寄与したことから大きく変化することになり、ビッグデータがより使いやすくなりました。

その一方で、 Variety(多様性) や Veracity(正確さ)の領域については解決のついていない部分もあり、今後さらに進化が求められています。

この領域をAI・人工知能がリードし、より精度を上げていくことが予測されています。

Treasure Data

Treasure Dataは、アメリカに本社を置くクラウド型のデータマネジメントサービスを提供する企業です。

トレジャーデータ株式会社として日本法人も構えています。

サービスでは、データ統合、分析、連携の3つが可能で、データの取り込みから保管、データ分析、視覚化、結果の通知まで一貫して行えます。

すかいらーくグループやグリー、ソフトバンクなど数多くの有名企業で利用実績があります。

データをデジタルマーケティングに活用する企業内には、多数の顧客データが蓄積されていますが、部署間での共有がなく、効果的に活用できていない場合もあります。

そのようなサイロ化したデータを、「Treasure Data DMP」というプライベートDMP(データマネージメントプラットフォーム)に取り込むことで、企業全体でデータを共有できます。

また、Tableauも自動的に行うことができ、手作業の手間を削減してくれます。

ログを収集するfluentdTreasure Dataでは、ログを収集するツールとして「fluentd」をオープンソースで無償公開しています。

fluentdは、アプリケーションから出力されるログデータを適切な形式に変換し、データベースやファイルなどに出力するためのツールです。

使用用途としては、複数のウェブサービスのログデータを集約したり、IoT(モノのインターネット)デバイスのデータ収集に使用したりします。

汎用性が高いため、アイディア次第でさまざまな用途に活用できます。

アクセス分析

アクセス分析はウェブサイトの運用で使われる用語の1つで、ウェブサイト内をユーザーがどう行動するかを分析し、より使いやすいウェブサイトに修正していくためのツールとなるものです。

ECサイトなど、ネットで商品販売やサービスを提供するサイトの場合には、ユーザーに達成してほしい行動というものがあります。

これはコンバージョンと呼ばれていますが、このコンバージョンを増加させるために行うのがアクセス分析です。

アクセス分析を行うツールについてアクセス分析を行うツールには、以下の種類が存在します。
  • サーバーログ型サーバーログ型はサーバーに記録として残されたアクセスログファイルベースでデータを取得する方法となります。
  • Webビーコン型Webビーコン型はブラウザでページが表示されると各ページにあらかじめ設置されているJavascriptが作動して、読み込まれたページ情報を分析サーバーに送信しデータを取得するという方法をとります。

Googleが無料で提供しているGoogle Analyticsなどがこれに該当します。

パケットキャプチャリング型ウェブサーバーが置かれているネットワーク上に監視ツールを設置し、ユーザーからページリクエストがあるたびに発生するパケットデータをキャプチャリングしてアクセス分析サーバーに蓄積して分析を行うものです。

ガートナーリサーチ

Gartner Research(ガートナーリサーチ)は、アメリカに本社を持つガートナー社の一部門です。

同社が最も利益を上げている部門であり、IT企業や専門家に調査データを提供しています。

また、専門アナリストによるビジネスやIT関係のアドバイスも行っており、世界中の大手企業に顧客を持っています。

グローバル企業として世界90カ国に拠点を持っていますので、日本でもガートナージャパンにリサーチを依頼できます。

ガートナーの他の部門についてガートナー社は、リサーチの他にもコンサルティングやエグゼクティブプログラム、イベント、出版、マーケティングと、複数の部門を持っています。

このため、顧客関係管理(CRM)やB2B電子商取引、セキュリティなどITに関連する幅広い分野のサポートを受けることができます。

ガートナーによる調査の一例ガートナー社は、IT分野のさまざまなデータを収集・調査しています。

たとえば、「日本のアプリケーション開発に関する調査」や「クラウドERPの利用動向に関する調査」、「IT人材に関する展望」などです。

こういった調査結果を利用することで、市場全体の動向を把握したり、人材確保の方針を決めるための参考にしたりできます。

概要はプレスリリースとして公開されているため、同社の顧客でなくともデータを参考にすることができます。

クラスタ分析

クラスター分析とは、異なる性質のものが混在する集団の中から相互に似たものを集めてクラスター(集落)をつくり、対象を分析しようとする方法のことをいいます。

判別分析は、あらかじめ標本に基づいて判別を行うものですが、クラスター分析は分類の基準は決まっていない中で、分析の中から分類を決めて行く点が大きな違いとなります。

ビッグデータ分析で脚光を浴びるクラスター分析ビックデータ分析が広範に利用されるようになったため、クラスター分析はあらためて重要な分析手法になるといえるでしょう。

特に注目すべき点は、ビッグデータを短時間で安価に分析できるようになったことから、抽出したサンプルだけでなく全数のサンプルに対してそのクラスターを分析することができるようになり、これまで以上に精度の高いクラスターを導き出すことができることです。

クラスター分析実施時の選択肢実際にクラスター分析を実施する場合、まずグループ分けの対象についてサンプルを分類するのか、変数を分類するのかを決める必要があります。

また、分類の種類や生成などの形式を、階層的方法にするか非階層的方法にするかもあらかじめ選択する必要があります。

分類に用いる対象間の類似度についても、ユークリッド距離、マハラノビス距離、コサイン距離などどの手法を選択するかが求められます。

設定したクラスター間の距離の測定方法にもウォード法、群平均法、最短距離法、最長距離法などがあり、この選択の仕方によって生成されるクラスターは微妙に異なるものとなります。

クロス集計

クロス集計分析とは、2つの項目に着目して集計する分析手法のひとつです。

たとえば、商品アンケートの項目として、年齢、評価、リピート回数の項目があるとします。

この場合、年齢と評価、評価とリピート回数など、2つの項目を縦軸・横軸に配置して集計します。

このように集計することで、各項目間の関連を調べることができます。

この例でいえば、20代の評価が特に高いとか、評価が高いほどリピート回数が多くなるなどの傾向が把握できるでしょう。

全体を見るだけでなく、特定の集団ごとの傾向を知ることで、より効果的なマーケティングが可能になります。

Excelでもピボットテーブル機能が使えるExcelでは、「ピボットテーブル」という機能を使って、クロス集計分析ができます。

売上のデータを月ごとにまとめたり、地域ごとの売上の傾向を調べることができたりします。

データはExcelで管理していることが多いため、すぐに始められるというメリットがあります。

クロス集計分析をすると別の傾向が見える単一項目の集計では、全体の平均値しかわかりません。

クロス集計をすることで、各項目の平均値も明らかになり、別の傾向が見えることも少なくありません。

全体の平均では高いのに、項目別に見ると低くなるなど、直感に反する結果が出ることもあります。

このようなデータを明らかにすることで、マーケティングが誤った方向に進むことを防ぎます。

シグナル分析

シグナル分析(ソーシャルシグナル分析)におけるソーシャルシグナルとは、ツイッターやフェイスブックなどのソーシャルメディア上でユーザーが提供したコンテンツに対してどのように反応したかを示す指数のことをいいます。

このシグナルを分析することを、ソーシャルシグナル分析と呼んでいます。

ソーシャルシグナルとして挙げられるのが、Facebookの「いいね」と押された数やTwitterのツイート数などということになります。

こうした指数を利用し、コンテンツマーケティング施策として実際に公開したコンテンツがどれだけターゲットとなる顧客に共感されたり、プラスの影響を与えたかを分析することが近年注目を集めています。

ソーシャルシグナル分析は普及度の高いメディアで実施このソーシャルシグナル分析は、一般的に普及度の高いソーシャルメディアにおいて分析が行われます。

ほとんど使われていないようなソーシャルメディアではいくら反応があっても意味はないものになりますので、FacebookやTwitterなどの主要なメディアの反応を重視することになります。

たとえばFacebookではいいねの数、シェア数、コメント数などがその対象となり、またTwitterでそれをシェアしたり、リツイートした数なども分析の対象となります。

ダークデータ

ダークデータとは、価値があるかもしれないのに、収集と蓄積だけがされたまま取り残されて活用されていないデータのことを言います。

もともとこの名称の由来は、研究開発者が実験や調査、観測用に集めたデータでありながら実験に失敗したなどの理由から研究室の片隅で日の目を見ずに放置されとことから、ダークデータと呼ばれたのがはじまりとされています。

ビッグデータ活用の影響でダークデータにも注目が集まる時代にデータとして存在しても使い物になるかどうかわからないことから、これまでどこの企業、組織でもダークデータは保管だけされていて利用がされない状況が続きました。

しかしビッグデータの活用が本格化し、膨大なデータの処理に時間とお金がかからなくなってきたことから、こうしたダークデータを有効活用する動きが出始めています。

非定型化されたダークデータをAIで分析する動きもこうしたダークデータは、多言語の文書や音声、動画など多岐に渡る非定型のものが多く、およそ分析の対象になりませんでした。

しかし、AIを利用することにより人の力では到底分析できなかった中身を正確に認知、分析できるようになったことから、今後はダークデータをAIの力を借りて意味のあるものとして活用する動きが高まる可能性もでてきています。

ダッシュボード

Dashboard(ダッシュボード)とは、複数以上の情報ソースからデータを集め、その概要をまとめて一覧表示する機能、もしくはその実際の画面、それらの機能を提供するソフトウエアのことを言います。

もともとDashboardは、自動車の運転席で操作をするための計器板から来ている言葉とされています。

ITではBIツールにより生成されるものやソフトウエアのコントロールパネルとして機能するDashboardなど様々なシーンで同一名称のものが利用されるようになっています。

ソフトウエアなどでも全体を掌握するページとしてDashboardを設定ERPやCRMといったエンタープライズ系のソフトウエアにおいても設定の全容がひと目で掌握することができるようなダッシュボードが用意され、一元的な管理やコントロールがしやすい状況を作り出しています。
エンタープライズ系では経営層が見て判断するダッシュボードを利用企業業務システムから得られるデータを利用して、業務状況を確認するマネジメントダッシュボードというものも利用する企業が増えています。

こうしたダッシュボードは、主にBIツールを利用して社内の業務システムから必要なデータを収集し、グラフや表などで可視化してみせるもので、データ自体を操作することは出来ませんが、一括して足もとの経営状況を即座にチェックできることから利用を進める企業が増えてきています。

データクレンジング

Data Clensing(データクレンジング)とは、別名Data Cleaning(データクリーニング)とも呼ばれるもので、データベース上に蓄積・保管されているデータの中から内容が重複している部分や間違って記載されている部分、既に古くなっているデータ、あるいは表記の誤りなどを検索し、修正や削除を行うことでデータとしてのクオリティを高め、使えるデータに整形する作業のことをいいます。

Data Clensing (Data Cleaning)の具体的な作業半角や全角などのスペースやハイフンなどを取り除いたり、一定のルールに統一したりルールとして定義されていないデータを修正したりします。
無駄を省くほど利用精度が上がるのがデータ顧客データなどは時間の経過とともに鮮度が下がるため、定期的にデータをクリーニングして最新のものにしていくことが重要になってきます。

最近では、様々なところからデータが入手できるため、重複や記載の誤りといったものを取り除く必要があります。

さらに今後、AIなどを利用したデータマイニングを考える場合には、できるだけ正確かつ無駄のない内容にしておくことが利用効率を上げる大きなポイントとなるため、常に意識しておかなくてはならないプロセスといえるでしょう。

戦略的で効率的なデータ利用を考えるにあたっては、常に鮮度と正確度の高いデータを収集・統合することが重要になるのです。

データサイエンティスト

データサイエンティストとは、新分野のデータ分析のエキスパートをさします。

複雑な課題を分析し、どのような問題を解決しなければならないかを説明する事のできる技術を持ったエンジニアです。

企業や行政の意思決定には、ビッグデータが活用されるようになり、新しい分析技術や直感的に把握できるグラフィカルな表現などで、状況を共有し意思決定を支援することが、組織運営に欠かせない技術となってきています。

データ分析ニーズは多岐にわたり、顧客行動データ分析、購買データ分析、機器の保守点検などの産業分野を始め、社会インフラ計画など様々な領域での応用が期待されています。

データサイエンティストに要求される能力データ分析を行うには、数学・統計学・IT技術などの高い能力はもちろんですが、対象となる分野の知見をもとに、データの選択やその調整などを行える問題掌握能力や業務知識も重要視されます。

また、分析結果で見せる出力の設計にも、ユーザインタフェースやデザイン能力も必須の能力です。

従来の情報分析のように統計処理だけではなく、AI や IoTなどの応用も期待される分野なので、幅広い知識を常に獲得できるエキスパートが求められます。

データマイニング

データマイニングとは、膨大なデータをコンピューターによって統計学、パターン認識やAIなどを使って分析し、有益な知見を得ることをいいます。

マイニングとは英語で採掘を意味する言葉ですから、まさにデータを採掘することで役立つ知見を見つけ出すことをいいます。

ビッグデータの活用でデータマイニングは重要なプロセスに近年の急速なITの発達とともに、大量のデータ分析に必要なコストや時間を大幅に削減できるようになりました。

特に、クラウドサービスの発達で、先行投資なしに必要なときに必要な量だけITリソースを活用できるので、一般企業でもビッグデータの収集と蓄積が可能になり、蓄積したデータを使ったデータマイニングが盛んになっています。

ビジネス分野での応用も活発に企業の扱うデータは多岐にわたり、ERPなどの業務システムが取り扱う業績データをはじめ、顧客サポートやマーケティングから得られる非定型な情報、自社Webメディアへのアクセス履歴や同業他社がWeb上で提供する様々な情報など多岐にわたります。

ITの進化とともに、このような情報を複合的にかけ合わせてマイニングすることができるようになりました。

これまでのような部分的な分析では、顧客の大まかな姿しか分析できていませんでしたが、現在では一般企業でも収集した全データを活用し、マーケティング/営業戦略/経営判断など様々な人の意思決定をサポートするためのツールとしてデータマイニングが活用できるようになりました。

データ集約

Data Aggrigation(データアグリゲーション)は異なる多岐にわたる分野から収集されたデータを集約、統合し再利用することを言います。

このプロセスが今のITの世界では非常に大きな広がりを見せようとしています。

IoTの進展で大きな注目を浴びるData Aggrigationこれまで、Data Aggrigationは、エンタープライズ系の異なるフォーマットで社内の各所に保存されているデータを集約、統合してレポートや分析のために利用することがフォーカスされていました。

しかし、最近はIoTビジネスへの利用が本格化してきていることから、大量のIoTデータ収集、蓄積、分析とともにIoT以外の領域で生じるデータとの統合や加工、フィルタリングのためにアグリゲーションを進めることが重要になってきているのです。

Data Aggrigation Platformも登場IoTのデータは、個別の企業だけでなく、複数の企業が連携し共用することにより付加価値を高めることができるようになりますが、こうしたことを視野に入れてIoT領域を睨んだData Aggrigation Platform(データアグリゲーションプラットフォーム)の開発と提供も進み始めています。

これまでのIT領域では比較的地味な存在であったData Aggrigation というプロセスは、ビッグデータのさらなる活用やビジネスインテリジェンスの積極的な利用、IoTビジネスの実用化などを背景にして今後も非常に注目されるプロセスとして見逃すことができないものになってきています。

BI(ビジネス・インテリジェンス)

データを収集・蓄積・分析し、未来予測や経営の意思決定の手助けをするツール

あらゆるデータソースから利用者にとって有益な情報を自由に抽出することができる。また、利用者が自由にデータを分析できる機能も備えている。テキストデータをグラフに変換し視覚的に見やすくもできる。

レベニューマネージメント

レベニューマネージメント(RM)は、収益を最大化するための販売管理手法です。

小売業などでは、完売による機会損失や売れ残りによる在庫処分が起きます。

そこで、RMを行うことで、在庫量や価格を調整し、利益が最大になるようにします。

また、本来の発祥元である航空産業やホテル業、ゴルフ施設などの、サービスを在庫として繰り越せない現場でも活用されています。

繁忙期と閑散期で価格差をつけたり、早期購入割引をしたりするなどして、企業の収益を最大化することを目指します。

RMは需要の予測と販売の制限で成り立つRMを構成する主な要素は、「需要の予測」と「販売の制限」です。

需要は多ければいいというわけではありません。

現実的には、施設で受け入れられる顧客数には限界があります。

そこで、商品の価格を調整するなどして、受け入れ可能な需要かつ利益が最大になるようなポイントを探します。

商品の需要を自らコントロールすることがRMの基本です。

機械学習による需要予測RMでは、需要の予測が最も重要です。

誤差が3%ほどの正確な予測ができないとRM自体が成り立ちません。

そこで、需要予測に機械学習が取り入れられ始めています。

機械学習は、大量のデータから傾向を見つけることができ、将来を予測することが可能です。

これまでの販売データを活用でき、正確な需要の予測が期待できます。

因子分析

因子分析とは、ある質問項目への回答など、観測された変数がどのような変数から影響を受けているかを探る手法のことをいいます。

これは多変量分析の手法の一つであり、複数の変数の関係性をもとにして、その構造を探るようなときに多く用いられる分析手法ということができます。

マーケティングのデータ分析においては頻繁に利用される分析手法となっています。

因子分析の種類因子分析にはいくつかの方法が存在します。
  • 検索的因子分析多くの観測変数間で確認できる複雑な相関関係が、どのような内容の因子を導入すれば説明できるかを調べる手法。
  • 検証的因子分析(確認的因子分析)因子数や因子と観測変数の関係について、あらかじめ仮説的なモデルを容易し実際のデータによって検証する手法。
因子の種類と分析手法因子分析に登場する因子には、共通因子と独自因子があり、一般的に共通因子は複数存在します。

一方独自因子は、分析内容ごとに異なり、分析上の誤差として扱われることになります。

因子分析は、まず変数を選択し、因子抽出と因子数を決定することから始めますが、データがうまく解釈できるまで様々な手法を試してみて最終的に因子を特定し、その因子名を決定していくこととなります。

回帰分析

人間や多くの動物は、過去の経験から得られた知識や規則を行動に生かしています。

このような学習機能により、既知のデータから規則を導きだします。

そして、その規則により、未知の部分の説明を行ったり、データにもとづく予測を行ったりします。

回帰分析は過去の経験から得た、相関関係や因果関係があると想定される2つの変数の一方から将来的な値を回帰直線(予測式)として求めるための手法です。

2つの変数の将来的な傾向を分析する目的で行われます。

単回帰分析、重回帰分析身近な例として、血圧と年齢の間に関係性があるものと仮定します。

最初は、その具体的な関係性がわからないので、抽象的な関数記号fで、血圧=f(年齢)と表すことができます。

この式の中の年齢を説明変数とよび、血圧を目的変数と呼びます。

このようなデータから導いた導いた規則を統計モデルと呼びます。

この統計モデルをデータから導き出すデータ分析の方法を回帰分析と呼びます。

説明変数が一つの場合を単回帰分析、説明変数が複数の場合を重回帰分析と呼びます。

非線形回帰分析線形モデルは、目的変数を説明変数の線形関数で表すモデルです。

線形モデル以外のモデルを非線形モデルと呼びます。

非線形関数を用いる回帰分析には、ロジスティック回帰、多項式回帰などがあります。

その他に、一般化線形モデル(線形モデルとは異なる)、平滑回帰、加法モデルなどがあります。

また、データによっては、対数変換などの変換により、非線形のデータを線形関係に変換して線形モデルとして構築を行う方法も考えられます。

機械学習

機械学習とは英語のマシンラーニングから来た言葉で、データから反復的な学習を行い、そこに潜む一定のパターンを発見することをいいます。

機械学習により導き出された結果は、新たなデータ分析に利用することで将来予測を可能にします。

機械学習は、予測分析プロセスにおけるモデル構築の自動化を実現しデータサイエンティスト不足を大きく補う仕組みとして注目を浴びています。

日々進化する機械学習機械学習は多様なアルゴリズムを実装することでデータから反復的に学習そることを実現していますが、ビッグテータの処理技術が進化し、複雑な数値計算を高速で自動的に何度も繰り返して適用できるようになったことから、飛躍的にそのレベルが向上するようになっています。

コンピュータの処理能力が近年さらに高まり、その処理コストも過去とは比較にならないほど安くなったことが機械学習の利用を加速させているといえます。

現実的な利用も加速アルゴリズムを自在に活用し、モデルを独自に構築し、データ間のつながりを自動的に発見することができれば人間が介入しなくても一定以上の意思決定を実現することができるようになります。

このようなことから機械学習への期待はさらに高まりを見せており、実際の利用で大きな成果を上げるケースも増えてきています。

記述分析

Descriptive Analyticsとは、過去に起こったことをデータから読み取る分析作業のことをいいます。

日本語では、記述的アナリティクスなどとも呼ばれています。

多くの企業が行うアナリティクスの作業は、このDescriptive Analyticsということができます。

過去の出来事を数字から読み解く方法このDescriptive Analyticsは、過去の出来事を数字を通して読み解くことになるため、企業で利用されるデータは、財務データ、在庫、営業数字、マーケティングレポートなどがその対象となります。

営業成績分析における受注率や売上達成率、売上増加率などは、Descriptive Analyticsのやり方のひとつということができます。

3つのアナリティクスの基本的なものがDescriptive Analyticsアナリティクスには、この記述的アナリティクスと原因を探っていく診断的アナリティクス、さらに将来を予測する予測的アナリティクスの3つに分類できます。

その基本的なものになるのが、Descriptive Analyticsです。

アナリティクスを先に進めていくためにも過去に何が起きたのかを正確に明らかにすることが重要となり、Descriptive Analyticsはあらゆる分析行為の入り口として正確に分析することが重要になるのです。

Descriptive Analyticsは、事業施策の様々なKPIを定めるためのベースとしても利用されており、企業にとっては基本でありながらきわめて重要な構成要素となっています。

空間分析

Spatial Analysis は日本語で、空間分析と呼ばれるものです。

これは位置情報を持つ空間データを利用して分析することをいいます。

Spatial Analysisでは、取り扱う空間データと分析の手法により様々な分析を行うことが可能になります。

Spatial Analysisの使い方Spatial Analysis、空間分析では空間データの位置情報を利用することにより、特定の目的にあったデータだけを抽出して使うことができます。

例えば、不動産業であれば、駅やバス停からの一定以内の距離に立地する物件を抽出して表示するといったことがこれに当てはまります。

既存データの再構築も可能Spatial Analysisでは、元の空間データを利用し新たに再構築して使うことも可能となります。

例えば、複数以上のポイントデータがあるときに、その密集度合いを分析する場合には空間を同一サイズのグリッドで分割し、各地域内にどのぐらいのポイントが含まれるのかを集計しなおすといったこともできます。

時系列的変化を表示することも可能空間データに時間情報を設定することができると、地図データに時系列的な変遷を表示させることも可能となります。

これは街の変化などを読み解く場合には非常に有意義なデータとなります。

このように空間という変数を入れることにより、データはより有益的、かつ視覚的にわかりやすいものとなって利用する事が出来るようになります。

探索的データ分析

探索的データ分析(EDA)は、英語ではExploratory Data Analysisと呼ばれています。

これは、統計学者J.W.Tukeyによって1960年ごろから提唱された手法で、あらかじめモデルを設定したり仮定したりする確証的データ分析とは一線を画し、データの示唆する情報を多面的に捉えて分析していく分析手法です。

探索的データ分析では視覚的にデータを捉え、データ自身が仮説を語るといった方法ともいえます。

ビッグデータの利用が進み、データマイニングが活用される中で効率的なデータマイニングの手法としても注目され、積極的に活用されている分析方法となっているのです。

探索的データ分析は初期フェーズを重視探索的データ分析では、分析しようとするデータをあらゆる角度から観察していくことにより、まずデータの特徴を捉えることから最初に問題点を抽出するアプローチをとります。

そのため、分析における初期フェーズが極めて重要となる方法といえます。

探索的データ分析では、可視化を実現するためにグラフを利用することが重要です。

可視化にあたっては、その目的と有効性を認識した上で最も効果的なグラフに示していくことも重要なポイントとなっています。

判別分析

判別分析とは、市場調査などの手法のひとつで、個体と呼ばれる対象者の特性(一般的には回答データと呼ばれる)からその対象者がどの群に属するのかを判別する手法のことをいいます。

どの群に属しているのかあらかじめわかっている標本を用意し、まだ分類されていない標本がどちらの群に属するのかを推定する方法です。

実際の利用例としてこの判別分析の典型的な利用例としては、各種の検査項目の中から特定の病気であるかないかを判別するなどというものです。

また、企業が実施したアンケート結果からそれぞれの消費者があらかじめ設定された2つの製品のうちどちらを選択するかを予測するといったものも判別分析になります。

学校の入学試験や企業の入社試験において、筆記、面接、作文などいくつもの複合的試験項目から合格者群と不合格者群を判別するといったものもこの判別分析のひとつです。

判別分析に用いられるモデル判別分析では概ね2つのモデルを用いて分析を行うことになります。

一般的には線形判別関数を用いるケースが多くなります。

・線形判別関数を用いて、値を直線的・平面的モデルに当てはめる方法・マハラノビス距離を用いて、確率を2次曲線モデルに当てはめる方法

予測分析

Predictive Analyticsは、日本語では、予測的アナリティクスとも呼ばれるもので、過去のデータをもとにしながら将来におけるある変数を予測する分析のことをいいます。

ビッグデータが急速に普及することによって、多くの企業、組織でも過去に何が起きたのかだけを分析するのではなく、このPredictive Analyticsを使って、未来予測を行うことが増えています。

Predictive Analyticsで利用されるのは非定型データが主流Predictive Analyticsで利用されるのは定型化されたデータよりも、非定型のデータが多くなります。

こうしたことから、データの分析にあたっては既存のデータウエアハウスではなく非定型データの処理にも適したHadoopなどのオープンソフトウエアを利用した分析を行うことになります。

機械学習にも繋がるPredictive AnalyticsPredictive Analyticsでは、ビッグデータをあらゆる手法を用いて機械学習させることにより、データのパターンやルールを発見し、新たなインサイトを利用することで不確定な目的変数を予測することにも利用されはじめています。

Predictive Analyticsは、実際に人間が分析した場合に気がつかなかったような事実の相関性といったものを見出すことができるため、アナリティクスの世界では積極的にこの領域に踏み出して利用をはじめる企業も多くなってきています。

Predictive Analyticsを利用すれば、人の手には負えないようなボリュームのデータをスピーディに処理、分析することができるのが大きな特徴です。

ShtockData

お問い合わせフォーム

お問い合わせ項目を選択してください