5分で分かるAzure Databricksの特徴とは?

5分で分かるAzure Databricksの特徴とは

DXの実現においては、大量データを効率的に処理できるデータ分析プラットフォームが必要となります。その代表的なソリューションがDatabricksであり、Azure向けに最適化されたDatabricksがAzure Databricksです。
データ分析プラットフォームの要素としては、他にデータベース、DWH(データウェアハウス)、データレイクなどもありますね。そこで5分でデータ分析プラットフォームとAzure Databricksを理解していただけるように本ブログを作成しました。

・Azure Databricksの概要を知りたい
・これからビッグデータを活用してDXを推進したい
・Azureを活用したデータ分析プラットフォームが気になっている

このような方はぜひ本ブログをご参考ください!

1. Azure Databricksとは?

Azure Databricksとは

Azure Databricks はMicrosoft Azureクラウドサービス用に最適化され、大量のデータを高速に分析できる機能を持ったサービスです。これについて説明するためには、データ分析プラットフォームの歴史について触れておく必要があります。

大量データを処理するフレームワークとしては、2000年代中頃から普及したApache Hadoopが有名です。Hadoopは今でも良く使われているフレームワークで、ライブラリ、ファイルシステム、運用管理ツール、DBMSアクセスフレームワークなどから成ります。

Hadoopの並列処理には性能上の欠点があり、機械学習等に向かないことがわかってきました。その欠点を補い、より高速な大量データ処理を可能にするために2009年に登場したのがApache Sparkです。ペタバイト級のデータを扱う場合には1台のコンピューターでは処理しきれませんが、Sparkであれば複数のコンピューターで最適に分散処理が実行され、短時間での処理が可能になります。

Sparkの開発チームは、2013年にDatabricksという企業を設立し、Sparkをベースとしたデータ分析プラットフォームDatabricksの提供を始めます。Databricksは企業名であると同時に製品名でもあるわけです。

DatabricksをAzureクラウドに最適化し、数分程度の時間で迅速に構築するためのセットアップ環境や自動スケーリング機能を整備し、共有ワークスペースで共同作業を行えるようにした製品が「Azure Databricks」です。TensorFlow、PyTorch、scikit-learnなどのデータサイエンス向けのフレームワークに加えて、Python、Scala、R、Java、SQLなどの分析言語をサポートしています。

Azure Databricksの特徴

●最新のApache Spark環境をすぐに利用開始できる
Azure 用に最適化された最新のApache Spark 環境をAzure ポータルからワンクリックで使用できます。高い信頼性とパフォーマンスを確保するよう設定、構成、微調整され、お客様にて監視の必要はありません。

●Azure サービスとの連携が容易で
セキュリティの制御、環境管理が簡単
Azure のサービスとシームレスに統合することができ、データアクセスの高速化や管理の簡素化を実現します。Azure Active Directory(Azure AD)を利用したシングルサインオン、新規ユーザーの作成、適切なアクセス権限の付与、ユーザーの削除に伴うアクセスのプロビジョニング解除が可能です。

●様々な分析ニーズに対応できる
Python、Scala、R、SQL などお好みのプログラミング言語、Shell Script での操作も可能です。ユーザーを選ばず、どのような分析にも対応できます。Azure Machine Learning の高度な自動機械学習機能を活用し、適切なアルゴリズムとパラメーターをすばやく特定できるため分析における生産性も向上します。

2. Azure Databricksが用意する開発のための3つの環境とは?

Azure Databricksには、アプリケーション開発のために、Databricks SQL、Databricks Data Science & Engineering、Databricks Machine Learningの3つの環境が用意されています。

●Databricks SQL

・ データレイクでSQLクエリを実行する機能
・ 複数のビューを作成して様々な角度でクエリ結果を探索したり、ダッシュボードを構築して共有したりできる

●Databricks Data Science & Engineering

・ データ エンジニア、データ サイエンティスト、機械学習エンジニア間のコラボレーションを可能にする対話型ワークスペース
・ データレイクのバッチ構築もリアルタイム・ストリーム配信も可能

●Databricks Machine Learning

・ 統合化されたエンド・ツー・エンドの機械学習環境
・ 実験のトレース、モデルの訓練、機能開発と管理、モデル提供のための管理サービスなどから成る

これらの環境の選択は、Azure Databricksワークスペースを起動し、サイドバーをクリックするだけで行えます。

3. Azure Databricksでどのようにデータ分析プラットフォームを構築するのか?

Azure Databricksを活用してデータ分析基盤を構築するには、具体的にどうしたらよいでしょうか。それはAzureが提供している各種製品を組み合わせることで可能となります。

Azure Databricks データ分析基盤の構成

データソースがオンプレミス環境およびSaaS環境にあるとします。まずAzure Data Factoryにより生データがバッチ処理でAzure Data Lakeに読み込まれます。あるいはAzure Event HubsからAzure Databricksが生のストリーミングデータを読み取ります。

Azure Databricksは、データを3つのレイヤーに編成する「メダル式アーキテクチャー」と強調して、データを格納します。

・ ブロンズ:生データを保持
・ シルバー:クリーニングされ、フィルター処理されたデータを含む
・ ゴールド:ビジネス分析に資する集計データを格納

データ分析者は、Azure Synapse Analyticsを利用して分析を行います。Azure Synapse Analyticsは、データ統合、DWH、ビッグデータ分析を統合した制限のない分析サービスで、サーバーレスまたは専用オプションのいずれかを使用して、データのクエリを自由かつ大規模に実行できる製品です。

一般的な業務ユーザーは、Azure Synapse Analyticsによって構築されたDWHにPower BIを利用してアクセスし、データ分析をしたり、レポート作成をしたりすることができます。

Azure Databrikcsの
概要資料をダウンロードする

4. Azure Databricks活用事例

Azure Databricksを活用して、実際にデータ分析基盤を構築した事例を紹介します。

① 多種多様なビッグデータを分析してDX推進

製薬メーカーA社では、データ(処方箋、診療報酬明細、健診記録、介護データ、電子カルテ、臨床画像など医療と医薬品開発にまつわる多種多様なビッグデータ)を分析するための統合化されたデータ分析基盤をAzure Databricksをベースに構築にしました。

そのデータ量は膨大で、1つのファイルが1テラバイトを超えることもあります。またレコード数が100憶件を超えることもあります。1つのコンピューターで処理するには膨大な時間がかかり、複数のコンピューターで処理するためのデータ分析基盤の構築が必要でした。

A社では、当初Hadoop/Sparkをベースに基盤設計を行いました。そして3つのクラウドサービスを比較して、データの収集から蓄積・分析までを1つのプラットフォームで実現できるAzure Databricksを採用しました。採用の決め手は以下の3つでした。

・ オートスケールの使い勝手の良さ
・ クラスター選択(データ分析などのワークロードの実行基盤となる計算リソースおよび構成のセット)の柔軟性の高さ
・ 対応言語の多さ

Azure Databricksは、今ではビッグデータの分析基盤としてだけではなくDX推進の中核として欠かせないものとなっています。

②データ分析の高速化に成功

自動車メーカーグループの情報処理会社B社は、大規模データ処理の基盤としてAzure Databricksを導入しました。B社では、日々数テラバイトにおよぶビッグデータが蓄積され、その処理の高速化が課題となっていました。

B社では導入前に、当初利用を想定していた環境とAzure Databricksとの性能比較を行いました。約1か月間の検証の結果、Azure Databricksのほうが約30倍高速な上に、コストが8分の1しかかからないことがわかり、Azure Databricksが採用されることになりました。

その他の決め手としては、Azureの高いセキュリティ(国内で数少ないクラウド・セキュリティ・ゴールドマーク取得事業者)であることやAzure自体の機能・性能の高さ、運用管理やシステム開発の容易性が高く評価されました。

5. Azure Databricksのコスト算定について

●ランニングコスト
Azure Databricksのランニングコストは、以下のサイトで簡単にシミュレーションすることができます。画面からワークロードの種類、サービスレベル(StandardまたはPremium)、利用リージョン、通貨単位、価格の表示単位(月、時間)を選択するだけで利用料金が明朗にわかります。

Azure Databricks 料金ツール

Microsoftの料金確認ツール:
https://azure.microsoft.com/ja-jp/pricing/details/databricks/

●初期コスト(構築費用)
また日商エレクトロニクスでは、データ基盤の初期導入をご支援するサービスをご提供しています

作業費用:150万円
※マイクロソフトより最大全額支援される可能性があります

・同期ソースは1個までとします。
・Azure Data Factoryで作成するアクティビティは5個までとします。
・データ収集はAzure 統合ランタイムの機能で実現可能な範囲とします。
・データ連携先はご要件に応じて、Azure Data Lake Storage Gen2、 Azure Synapse Analyticsを選択頂けます。
・取り込み対象テーブルは5個までとします。
・Azure Databricksで作成するNotebookは1個とし、5個の変換タスクま でとします。
・Power BIにて作成するレポートは1種類(グラフは3個まで)とします。

Azure データ分析基盤 構築範囲

Azure データ活用基盤導入サービスデータ基盤導入サービス
詳細はこちら

6.まとめ

DX推進においてデータ分析プラットフォームは欠かすことのできないITインフラです。その代表的なソリューションがDatabricksであり、それをAzureに最適化して、高速セットアップ、柔軟なスケーリングおよび共同作業を可能にした製品がAzure Databricksです。

Azure Databricksには3種類のアプリケーション開発環境が用意されており、必要に応じて選択することができます。またAzure Data Factory、Azure Data Lake、Azure Event Hubs、Azure Synapse Analytics、Power BIなどと組み合わせることで、Azureのみの環境でデータ分析基盤を構築することができます。

Azure Databricksを採用する企業は、採用の決め手として、オートスケールの使い勝手の良さ、クラスターの柔軟性の高さ、数多い対応言語、高性能、低コストおよびAzureの機能・性能・高セキュリティ・運用容易性などを挙げています。

本ブログを読んでAzure Databricksを検討したい、あるいはもっと詳しい情報が欲しいとうお客様は、お気軽に弊社担当営業にご相談ください。

Microsoft Azureでは日々機能が更新され、サービスレベルが向上していますので、最新情報を入手されることをお勧めします。その際にも同様にご相談いただければと存じます。

 

Azure Databrikcs概要資料

Sparkを使った大容量データの分析・並列分散処理をしたい方、
データレイクハウスを検討する方向け

\Azure Databrikcs概要がより詳しくわかる

Azure Databrikcs概要資料<

Azure Databrikcs概要資料 資料ダウンロード資料のダウンロードはこちら

この記事を書いた人

Azure導入支援デスク 編集部
Azure導入支援デスク 編集部
こんにちは!日商エレクトロニクスでは、Microsoft Azure活用に関する有益な情報を皆様にお届けしていきます。Azure移行、データ活用、セキュリティなどに関するお困りごとや、Microsoft Azureに関する疑問点などお気軽にご相談ください。

ブログにしてほしいネタなどのリクエストもお待ちしております。