Microsoftデータ連携ツール「Azure Data Factory」とは?活用例と導入の流れ

データ連携ツール Azure Data Factoryとは

 

Azure Data Factoryは、2015年にMicrosoft社より一般提供が開始されたデータ統合プラットフォームです。一般的にはETLと呼ばれるカテゴリの製品ですが、単なるETLに留まらない豊富で便利な機能を持っています。データ分析(アナリティクス)やDX(デジタルトランスフォーメーション)においては、収集してきたデータを加工・統合し、分析可能な形に整えて蓄積するデータ統合プラットフォームは欠かせない構成要素となっています。

本ブログでは、これから本格的なデータ活用を開始しようと考えている方々、あるいは既に開始しているが運用やコストなどの課題を抱えている方々に向けて、Azure Data Factoryの特徴、活用例、導入までの流れを解説いたします。

「社内に散在するデータを統合したい」
「DXを推進するためにデータを連携したい」

といったご要望をお持ちの方は、Azure Data Factoryで少ないデータから連携・活用まで試してみることをオススメします。ぜひ本ブログを参考にしてみてください!

1.Azure Data Factoryとは?

Azure Data Factoryは、抽出・変換・格納というETLツールが備えている機能をもちろん備えており、一連の機能を自動的に実行することができます(図)。

※ETLとは
ETLとは、データ統合における3つのステップ、すなわちExtract(抽出)・Transformation(変換)・Load(格納)の頭文字を取った言葉です。GUIや簡易言語を使用して、プログラミングやデータベースにそれほど詳しくなくても、簡易にデータ統合を行えるようにしたツールです。

▲オンプレミスやクラウドにあるデータを自動的に集めて加工するAzure Data Factory

それだけではなく以下の機能を備えており、従来のETLツールと比較した大きなアドバンテージとなっています。

●オンプレミスとクラウドの両方にあるデータをAzure上で一元管理できる

●90を超えるデータコネクタを追加費用なしで利用でき多様なデータを統合できる
例)SalesforceやMarketoなどの営業・マーケティングツール
AWSやGoogle Cloudなどのクラウド
MySQLやOracle DBなどのDBMS

●初期投資不要の従量課金制でスモールスタートしやすい

●一般ユーザーから開発者向けまでスキルに応じた柔軟な開発環境を提供
GUIによるノーコード開発、細やかな機能開発がしたい場合にはPython等によるソフトウェア開発も可能

● SSIS(SQL Server Integration Service)を提供

●既存のオンプレミスのSQL Serverを数回のクリックでAzureに移行できる

2.Azure Data Factoryで構成するデータ統合のコンポーネント

Azure Data Factoryで構成するデータ統合基盤の主なコンポーネントを図示します。ETLツールとしてのAzure Data Factoryが中心にあり、その前後にデータソースとデータ格納先が存在する構成になります。

 

Azure Data Factory データ分析基盤の構成

▲Azure Data Factoryで構成するデータ活用基盤の主なコンポーネント

 

データソースとしては、オンプレミス上のSQL Severなどのデータベースやその他のデータベース、テキストや画像などの非構造データ、SaaSアプリケーションのデータなど多種多様なデータが利用できます。データコネクターとして、Azure Data Factoryを利用することで、これらのデータを簡単に抽出・収集することができます。オンプレミスとの接続はVPN、ExpressRoute(閉域網)またSaaSとの接続はインターネット経由になります。

データの格納先としては、大量の生データを安価で蓄積できるAzure Data LakeもしくはAzure SQL Databaseを利用します。格納されたデータセットは、Azure Data Factoryで加工し、Power BIなどのBIツールでの分析をはじめとした各種分析に利用することができます。もちろんAIモデルの構築にも利用できます。

また活用するデータのセキュリティやガバナンスを確保する各種認証にはAzure Active Directly(Azure AD)を利用します。

3.Azure Data Factory活用例

Azure Data Factoryを活用して、大きな手間がかかっていたExcelデータ集計を完全に自動化できる活用例を紹介します。

●Azure DataFactory導入前の状況

Excelで管理していた営業予算データ、販売実績データとSQL Serverに格納していた顧客購買データを突き合わせて、毎週の営業会議の資料を作成していました。

資料作成は、これら3種類のデータをExcelシートに読み込むところから始まります。2種類のExcelデータはコピー&ペーストで入力、顧客購買データはMicrosoft Queryを利用して、最新データを毎回読み込んでいました。その後、手作業で加工するのですが、フォーマットが少しずつ異なっているため、作業が捗りませんでした。

この作業のための工数がかかり、リアルタイムでの状況の変化に気づくことができず、機会損失することも多くありました。

 

Azure Data Factory 活用例

 

●Azure Data Factory導入後

Azure Data Factoryを活用して、データの取得と加工を自動化し、Azure Data Lakeに自動格納して集約できるようにします。これによりAzure Data Lakeには常に最新のデータが自動的に置かれるようになります。ExcelおよびSQL Serverとの連携は標準的に用意されているデータコネクトを利用して、簡単に実現することが可能です。

さらにAzure Data Lakeに集約されたデータをAzure Data Factoryで加工し、Power BIで可視化、レポート化するようにします。Power BIのダッシュボード上で、いつもでどこからでも最新状況を確認することができるようになり、情報のタイムラグによる機会損失が大幅に減らすことができます。
Azure Data Factory 活用例

 

>>Excel データ集計 自動化について(詳細はこちら)
2021年12月31日までのご検討で、Microsoft より導入支援金が出ます!

4.Azure Data Factory導入の流れ

実際の業務でAzure Data Factoryを活用する際には、小さく始めて、活用イメージを掴んでから大きく広げていく「スモールスタート」の考え方が有効です。

① データ活用の目的を決める

最初に行うべきことは、データを活用する目的を定めることです。目的が定まれば、それを達成するにはどのようなデータが必要かを考えます。続いてそれらのデータが実際に取得できるかを確認します。

【データ活用の目的例】

●組織全体のKPIの進捗を把握する
対象データ:売上データ​、販管費データ​、商談データ

●BtoBの営業活動における受注向上
対象データ:売上データ​、商談管理データ​、インサイドセールス活動データ​、見込み顧客データ​、企業データ

●機器の稼働状況の可視化と異常の通知
対象データ:IoTセンサーデータ、稼働状況データ

 

② 見たいデータを手作業で集計/加工

データが集まったら、それらを分析できるように形式を整えたり、加工したりしなければなりません。実際にデータを集めてみればわかりますが、そのままの形では使えないデータがけっこう多いのです。また不要なデータも多いですし、重複しているデータもかなりあります。そういったデータも整理して、必要なデータを重複のないようにします。

こうしたデータの整理作業をクレンジングと言います。クレンジングをまずExcelでやってみて、その後の加工や集計も同じくExcelでやってみます。手動での実行になりますので、データはあまり多くないほうがよいでしょう。グラフや集計表を作ってみて、目的が達成できそうかどうかを確認します。

Azure Data Factory 導入の流れ

③ Azure DataFactoryで集計/加工を自動化する

ここまでで収集するデータが決まりました。データを加工する手順も把握できているはずです。ここでようやくAzure Data Factoryの出番です。収集するデータが存在するデータソースをAzure Data FactoryにGUIを使って登録します。最初はExcelを使って、イメージ通りにデータが収集され、グラフ等も描けるかを確認します。

本格的に業務で活用するにあたっては、加工もAzure Data Factoryで自動的に実行されるように設定します。またデータが大量になるためAzure Data Lakeにデータを蓄積するようにします。ExcelではなくPower BI等のBIツールを使えば、分析も簡単になります。BIツールのダッシュボードに登録しておけば、いつでもどこでも最新状況が確認できるようになります。

 

Azure Data Factory 導入の流れ

 

ここまでは一人ないし少人数で進めて、ひとまず軌道に乗ったら利用者を少しずつ増やしていき、フィードバックをもらって改善していきます。ある部門で活用が進めば、他部門へも展開していきます。継続的でリアルタイムな分析および判断が全社的に行われるようになることがゴールです。

5.Azure Data Factory導入費用

便利なAzure Data Factoryですが、導入費用はどのぐらいかかるのでしょうか。

その前にアクティビティとパイプラインという用語だけ簡単に説明しておきます(本稿ではおおよそのイメージを掴んでいただくことを目的にしています。詳細は弊社の担当営業にお尋ねください)。アクティビティとはデータに対して実行する処理のことです。またパイプラインとは、連携して実行する一連のアクティビティの論理的なグループのことです。

まず月額コストに含まれる要素とその価格を示します。これらは初期費用なしで、使用量に基づいて課金されます。

●Data Factoryパイプラインのオーケストレーションと実行

タイプ Azure Integration Runtime 料金 Azure マネージド VNET 統合ランタイムの料金 セルフホステッド統合ランタイムの料金
オーケストレーション1 $1/1,000 実行 利用不可/1,000 実行 $1.50/1,000 実行
データ移動アクティビティ2 $0.25/DIU 時間 利用不可/DIU 時間 $0.10/時間
パイプライン アクティビティ3 $0.005/時間 利用不可/時間

(最大 50 の同時パイプライン アクティビティ)

$0.002/時間
外部パイプライン アクティビティ4 $0.00025/時間 利用不可/時間(最大 800 の同時パイプライン アクティビティ) $0.0001/時間

1. アクティビティの実行、トリガーの実行、デバッグの実行
2. Azure データセンターからデータを送信するためのネットワーク帯域幅の追加料金
3. 検索、メタデータの取得、削除、作成中のスキーマ操作 (接続のテスト、フォルダー リストとテーブル リストの参照、スキーマの取得、データのプレビュー) など
4. リンクされたサービス上で実行されるアクティビティ(Databricks、ストアド プロシージャ、HDInsight のアクティビティなど) https://docs.microsoft.com/ja-jp/azure/data-factory/transform-dataを参照

●Data Flowの実行とデバッグ

タイプ 料金 1 年予約( 割引) 3 年予約( 割引)
汎用 仮想コア時間あたり $0.303 仮想コア時間あたり $0.227 ~25% の節約 仮想コア時間あたり $0.197 ~35% の節約
メモリの最適化 仮想コア時間あたり $0.365 仮想コア時間あたり $0.274 ~25% の節約 仮想コア時間あたり $0.238 ~35% の節約

●Data Factoryの操作

タイプ 料金
読み取り/書き込み* $0.50/50,000 変更エンティティまたは参照エンティティ Azure Data Factory 内でのエンティティの読み取り/書き込み*
監視 $0.25/50,000 取得実行レコード パイプライン、アクティビティ、トリガー、デバッグの実行の監視**

*操作には、作成、読み取り、更新、削除、エンティティには、データセット、リンクされたサービス、パイプライン、統合ランタイム、トリガーが含まれる
**監視操作には、パイプライン、アクティビティ、トリガー、デバッグの実行の取得と一覧表示が含まれる

なお非アクティブなパイプライン(定義されているが1カ月間に1度も実行されなかったパイプライン)には、月額$0.80が課金されます。

最後に構築や保守およびメンテナンスに関するご支援を弊社が承る場合の費用をお示しします。データにより価格が変動しますので、詳しくは弊社担当営業にご相談ください。

・ 構築作業 1,000,000円〜
 ※2021年12月31日まではマイクロソフトからの支援金により無償になります
・ 製品保守費用(月額) 200,000円
・ データ基盤メンテナンス費用(月額) 200,000円

 

>>データ分析プラットフォーム導入支援について(詳細はこちら)
2021年12月31日までのご検討でMicrosoftより導入支援金が出ます!

 

6.まとめ

Azure Data FactoryはAzure上で提供されるETLツールですが、一般的なETLと比較すると以下のアドバンテージを持っています。

・ オンプレミスとクラウドの両方にあるデータを一元管理
・ 90を超えるデータコネクタを追加費用なしで利用できる
・ 初期投資不要の従量課金制→スモールスタートしやすい
・ 一般ユーザーから開発者向けまでスキルに応じた柔軟な開発環境
・ オンプレミスのSQL Serverを数回のクリックでAzureに移行可能

Azure Data Factoryを活用する際は、スモールスタートが始めるのをオススメします。まずはデータを活用する目的をしっかり考えて、その目的を達成するためにどのようなデータが必要でどのように加工すればよいかをExcelで確認します。その後Azure Data Factoryを導入し、必要なデータと加工処理を設定します。最初は少人数から始めて徐々に利用者を増やし、1つの部門で軌道に乗れば、他の部門に横展開していきます。最終的なゴールは継続的でリアルタイムな分析および判断が全社的に行われるようになることです。

このようなスモールスタートの考え方はDX推進でも応用できます。またDX推進においてデータの統合は必須要件ですから、Azure Data Factory自体もDX推進に欠かせないツールと言えます。したがって、これから全社的にDXを推進したいと考える企業、あるいはDXを推進しているがデータ統合に関する課題を抱えている企業にとって、Azure Data Factoryは最初に導入を検討すべきツールの1つだと考えます。

Azure Data Factoryに限らずAzure関連製品は、常に機能拡張が行われており、本記事の内容も既に変更となっている部分がある可能性があります。最新情報につきましては弊社担当営業にお問い合わせいただければと存じます。

【ガイドブック プレゼント】
Microsoft Azureではじめるデータ基盤の導入入門

なお、今回ご紹介した内容は下記の資料に詳細を記載しております。
具体的な構成案や導入する際の費用など知りたい方は、ぜひこちらの資料も参考にしてください。

\Azure活用でデータ基盤を導入したいIT担当者の方向け

Azure データ活用基盤導入入門の資料

Azure データ活用基盤 資料ダウンロード資料のダウンロードはこちら

この記事を書いた人

Azure導入支援デスク 編集部
Azure導入支援デスク 編集部
こんにちは!日商エレクトロニクスでは、Microsoft Azure活用に関する有益な情報を皆様にお届けしていきます。Azure移行、データ活用、セキュリティなどに関するお困りごとや、Microsoft Azureに関する疑問点などお気軽にご相談ください。

ブログにしてほしいネタなどのリクエストもお待ちしております。