データリネージについて

データリネージは DataPlex の機能で、システム内でのデータの移動（デー��の送信元、データの通過先、データに適用される変換）を追跡できます。

データリネージが必要な理由

大規模なデータセットを扱うには、多くの場合、テキストファイル、テーブル、レポート、ダッシュボード、モデルという特定のプロジェクトのニーズに合わせてデータをエンティティに変換します。

たとえば、すべての購入を 1 つの SQL テーブルに記録するオンラインショップがあるとします。アナリストがデータを簡単に操作できるように、この 1 つのテーブルから情報を抽出し、リージョン、ブランド、または販売価格ごとに小さなテーブルを生成するジョブの実行を開始します。アナリストも同様に、変換をさらに実行し、これらの小さなテーブルを他のデータソースと統合して、さらに多くのテーブルを生成します。

これは、関係者にとって大きな課題になる可能性があります。

データコンシューマでは、セルフサービスツールを使用してデータが信頼できるソースから来ているかどうかを判断できません。
すべてのデータ変換を追跡する信頼できる方法がないため、データエンジニアは問題の根本原因を突き止めることができません。
データエンジニアやアナリストは、テーブルを変更または削除する前に、考えられる影響を完全に評価することはできません。
データガバナンスは、組織全体でセンシティブデータがどのように使用されるかを把握することや、規制要件を遵守していることを保証できません。

データリネージは、以下を可能にする実践的な方法を提供するソリューションです。

リネージグラフで可視化して、データがどのように収集され、変換されるかを理解します。
エントリとデータ処理に関するエラーを根本原因まで追跡します。
インパクト分析を通じてチェンジマネジメントを改善: ダウンタイムや予期せぬエラーを回避し、依存するエントリを理解して、関係者と協力します。

リネージの可視化グラフ

リネージグラフは、特定の Data Catalog エントリ用の Data Lineage API によって収集される情報を表します。

サンプルグラフには、最下部に固定��れるSQL コードを表示する詳細パネルを使用して、変換されてから新しいテーブルに統合される 2 つのテーブルからのデータが表示されます。 — **図 1**: Dataplex UI のリネージ可視化グラフの��。

Dataplex は、Data Lineage API と連携して、データリネージによって認識されるエンティティと完全修飾名が一致するエントリを識別します。一致する Dataplex のエントリについては、詳細ページの [リネージ] タブにアクセスしてグラフを表示できます。

リネージグラフには、次の 2 種類の要素が表示されます。

リネージ情報の作成に関連するエンティティを表す横長の長方形のボタン。リネージイベントのソースまたはターゲットになります。
ソースエンティティまたはターゲットエンティティの作成または更新を行うプロセスを表す小さな正方形ボタン。プロセスボタンでは、Data Lineage API に報告されたソースシステムに固有のアイコンが使用されます。たとえば、BigQuery ジョブではアイコンが使用されます。

データリネージ情報モデル

基本的な形式で、リネージは、ソースからターゲットに変換されたデータのレコードです。Data Lineage API は、これらの情報を収集し、プロセス、実行、イベントのコンセプトを使用して階層データモデルに整理します。

処理

プロセスは、特定のシステムでサポートされているデータ変換オペレーションの定義です。BigQuery リネージのコンテキストでは、process はサポート対象のジョブタイプの 1 つです。

Run

プロセスが実行されます。プロセスには複数の実行を指定できます。実行には、開始時刻と終了時刻、状態、その他の属性などの詳細が含まれます。詳細については、run リソースのリファレンスをご覧ください。

イベント

イベントは、データ変換オペレーションが実行され、ソースとターゲットのエンティティ間でデータが移動した時点を表します。

イベントには、特定のイベントの送信元とターゲットを定義するリンクのリストが含まれます。イベントは、リネージの可視化グラフの計算に使用されますが、Google Cloud コンソールに直接公開されることはありません。Data Lineage API を使用して、これらのテーブルの作成、読み取り、削除を行うことができます（更新はできません）。

例

BigQuery テーブル間でデータをコピーする次の例について考えてみます。

例では、customer_year というテーブルと customer からデータを抽出し、top_customer というテーブルを作成します。 — **図 2.**テーブルデータのソースを示すグラフの例。

テーブル間のデータの移動方法は、リネージプロセス（グラフでアイコンによって示される）で説明されています。これは SQL CREATE TABLE AS SELECT クエリまたは INSERT ステートメントです。

その SQL ステートメントを実行するたびに、個々の実行が構成されます。実行にはイベントが含まれます。これらは、どのテーブルがソースとして使用され、どのテーブルがターゲットとして使用されたかを記録します。この例では、テーブル customer_year と customers はどちらも、ターゲット top_customer テーブルのソースです。

自動データリネージトラッキング

Data Lineage API を有効にすると、データリネージをサポートする Google Cloud システムがデータの移動の報告を開始します。各統合システムは、さまざまなデータソースのリネージ情報を送信できます。サポートされているすべてのプロダクトの詳細については、以下のセクションをご覧ください。

BigQuery

BigQuery プロジェクトでデータリネージを有効にすると、Dataplex によって次のリネージ情報が自動的に記録されます。

次の BigQuery ジョブの結果としての新しいテーブル:
- コピージョブ
- Cloud Storage URI を使用して Cloud Storage から許可された形式でデータを読み込む読み込みジョブ*
- Google 標準 SQL で次のデータ定義言語（DDL）を使用するクエリジョブ
  - CREATE TABLE
  - CREATE TABLE AS SELECT
  - CREATE TABLE COPY
  - CREATE TABLE CLONE
  - CREATE TABLE FUNCTION
  - CREATE TABLE LIKE
  - CREATE VIEW
  - CREATE MATERIALIZED VIEW
Google 標準 SQL で次のデータ操作言語（DML）ステートメントを使用した結果としての既存のテーブル
- 次にリストされたテーブルタイプのいずれかに関連付けられた SELECT。
- INSERT SELECT
- MERGE
- 更新
- 削除

BigQuery のコピー、クエリ、読み込みジョブは、プロセスとして表されます（リネージの可視化グラフで一括表示アイコンをクリックしてください）。各プロセスでは、最新の BigQuery ジョブの属性リストに BigQuery job_id が含まれています。

その他のサービス

データリネージは、次の Google Cloud サービスとの統合をサポートしています。

カスタムデータソースのデータリネージ

Dataplex で Data Lineage API を使用して、統合システムでサポートされていないデータソースのリネージ情報を手動で記録できます。

既存の Data Catalog エントリの完全修飾名と一致する fullyQualifiedNames を使用すると、Dataplex は手動で��録されたリネージの可視化グラフを作成できます。カスタムデータソースのリネージを記録する場合は、まずカスタム Data Catalog エントリを作成します。

カスタムデータソースの各プロセスでは、属性リストに sql キーを含めることができます。このようなキーの値は、データリネージグラフの詳細パネルでコードのハイライトをレンダリングするために使用されます。記載のとおりに SQL ステートメントが表示されます。機密情報を除外する責任はユーザーにあります。鍵名 sql では、大文字と小文字が区別されます。

OpenLineage

すでに OpenLineage を使用して他のデータソースからリネージ情報を収集している場合は、OpenLineage イベントを Dataplex にイン��ー��、Google Cloud ��ー��にそれらのイベントを表示できます。詳しくは、OpenLineage との統合をご覧ください。

現在の機能制限

すべてのリネージ情報は 30 日間のみシステムに保持されます。
リネージ情報は、関連するデータソースを削除した後も保持されます。つまり、BigQuery テーブルとその Data Catalog エントリを削除しても、API を使用して最大 30 日間は、そのテーブルのリネージを読み取ることができます。

データリネージにアクセスする

データリネージ機能にアクセスするには、以下を使用します。

Google Cloud コンソールの Dataplex UI のエントリ詳細ページ。リネージグラフを表示するをご覧ください。
Google Cloud コンソールの BigQuery UI のテーブル詳細ページ。リネージグラフを表示するをご覧ください。
Google Cloud コンソールの Vertex AI UI の [データセットと Model Registry] ページ。リネージグラフを表示するをご覧ください。
データリネージ API

次のステップ

BigQuery テーブルのコピーとクエリジョブのデータリネージを追跡する方法を学習する。
Google Cloud システムでデータリネージを使用する方法を学習する。
管理情報については、更新された IAM セクション、リネージに関する考慮事項、データリネージの監査ロギングをご覧ください。