終末 A.I.

データいじりや機械学習するエンジニアのブログ

【読書メモ】『Data Governance: The Definitive Guide』 Chapter 1

目次

データガバナンスとは

  • データガバナンスは、組織によって収集されたデータの品質、整合性、セキュリティ、および使いやすさを保証するためのデータ管理機能のこと
  • データのライフサイクル全体で、データガバナンスは、すべての利害関係者が簡単にアクセスできる形式でデータを利用できるようにすることに重点を置く
  • 望ましいビジネス成果(インサイト、分析)を生成し、関連する場合は規制基準に準拠する方法で使用できるものでなければならない
  • データガバナンスでは、利害関係者が企業内のすべてのデータの高品質な統合ビューを確実に取得できるようにする必要がある
  • データが安全であることを保証するためにデータガバナンスを実施する必要がある。具体的には下記
    • 許可された方法で許可されたユーザーのみがアクセスできる
    • 監査可能です。つまり、変更を含むすべてのアクセスがログに記録される
    • 規制に準拠している
  • ユーザーが企業データを使用して、主要業績評価指標(KPI)を使用した意思決定、リスク評価、および管理をサポートできるようにするには、信頼できるデータが必要
  • データガバナンスの原則は、企業の規模やデータの量に関係なく同じ

データガバナンスに関連するもの

データの信頼性の強化

  • データガバナンスの目的は、データの信頼性を構築すること
  • データの信頼性を確保するには、データガバナンス戦略が、発見可能性、セキュリティ、および説明責任という3つの重要な側面に対処する必要がある
  • 発見可能性のためには、技術メタデータ、リネージ情報、およびビジネス用語集をすぐに利用できるようにすることが必要
  • セキュリティのためには、規制への準拠、機密データ(個人を特定できる情報など)の管理、データのセキュリティと漏洩防止の観点が必要
  • 検出可能性とセキュリティが整っているてはじめて、データ自体を製品として扱い始めることができる。その時点で、説明責任が重要になり、データドメインの境界の周りの所有権と説明責任のための運用モデルを提供する必要がある

データの分類とアクセス制御

  • データガバナンスに関連する主なアクティビティには、データの分類とアクセス制御が含まれる
  • ガバナンスポリシーは通常、データに責任を持つグループ(例えば、雇用者情報の場合は人事部門)によって指定される
  • ポリシー自体は、多くの場合ITチームによって実行される

データガバナンスとデータイネーブルメントおよびデータセキュリティの関係

  • データガバナンスは、データイネーブルメントを拡張して、データ取得を実行できるワークフローを含む
  • ユーザーは、コンテキストと説明でデータを検索し、関連するデータストアを見つけて、正当な理由として目的のユースケースを含めてアクセスを要求する
  • 承認者(データスチュワード)は、ユーザーのニーズを確認し、ニーズが正当化かどうか、アクセスを要求されているデータが実際にユースケースに役立つかどうかを判断し、データにアクセスできるようにする必要がある
  • データガバナンスは、データセキュリティの仕組みが整っていることに依存するが、不正アクセスの防止だけでなく、データ自体に関するポリシー、つまりデータクラスに応じた変換にまで及ぶ

なぜデータガバナンスはより重要になっていくのか

データサイズの成長

  • 2018年11月に発行されたホワイトペーパーで、International Data Corporationは、グローバルデータスフィアが2025年までに175ZBに膨れ上がると予測している

データを利用する人々の指数関数的増加

  • IDCはまた、現在世界で50億人を超える人々がデータを操作していると報告しており、この数は2025年には60億人(世界の人口の約75%)に増加すると予測している
  • 企業は「データ主導の意思決定」が可能であることに夢中になっており、膨大な数の人員を必要としている

データ収集方法の高度化

  • データをバッチ処理して分析のためにロードするだけではなく、企業は、リアルタイムのストリーミングデータと分析を活用して、顧客により良い、よりパーソナライズされたエンゲージメントを提供することが必要になっている

多様な種類のデータ(機密性の高いデータを含む)の収集

  • データのやり取りの多くには、社会保障番号、クレジットカード番号、名前、住所、健康状態など、無数の機密データの生成とその結果の収集が含まれる
  • これらの非常に機密性の高いタイプのデータの収集が急増しているため、そのデータがどのように使用および処理され、誰がそれを表示できるかについて、顧客は大きな懸念を抱いている

データ利用ケースの拡張

  • 企業は、データを使用してより良いビジネス上の意思決定を行うよう努めている
  • さらに、顧客がより良い意思決定を行うのを助けるためにデータを使用している

データを扱う新しい規制や法律

  • データとデータの可用性の向上により、データ、データ収集、データアクセス、およびデータ使用に関する規制が望まれ、必要になっている
  • EUの一般データ保護規則(GDPR)や米国のカリフォルニア州消費者プライバシー法(CCPA)などの新しい規制は、無数の企業に適用される使用および収集管理についての規制の例にすぎない
  • 従来のデータアーキテクチャ戦略に組み込まれていなかったため、これらの新しい規制へのコンプライアンスを維持するためにテクノロジーとビジネスプロセスを変更するのに苦労している

データ利用についての倫理的関心

データガバナンスのビジネス的価値

  • データガバナンスは、知識労働者が必要とする簡単にインサイトを得るという戦略的ニーズに対応する
  • データガバナンスが戦略的プロセスである組織では、知識労働者は、ミッションを遂行するために必要なすべてのデータを簡単に見つけ、安全にアクセスを申請し、明確なタイムラインと透過的な承認プロセスを備えたシンプルなプロセスでデータへのアクセスを許可されることを期待できる
  • データの承認者とガバナンス担当者は、どのデータに誰がアクセスできるか、どのデータがガバナンスの管理ゾーンの「外側」にあるかを簡単に把握できる
  • CIOは、組織内のデータの高レベルの分析をレビューして、「データの総量」や「準拠していないデータ」などの定量化可能なメトリックを総合的にレビューし、リスクを理解(および軽減)することができる

イノベーションの促進

  • データガバナンス戦略は、うまく機能している場合、プロセス(ガバナンスの下でデータを利用できるようにする)、人(ポリシーを管理し、組織全体のデータアクセスを導き、必要に応じてサイロを解消する)、および上記を容易にするツールの組み合わせで構成される
  • データガバナンスは、理想的には、組織のリスク態勢を維持しながら、組織内のすべての従業員が一連のガバナンスルールの下ですべてのデータにアクセスできるようにする
  • すべての知識労働者に管理された方法でデータへのアクセスを提供することで、個人が組織内に存在するデータに基づいて質問への回答を迅速にプロトタイプ化できるようにすることで、イノベーションを促進できる

データガバナンスとデータ分析の大衆化の緊張関係

  • 多くの場合、完全なデータの民主化は、データガバナンスと矛盾すると考えられているが、そうではない
  • 覚えておくべき重要な概念は、データには2つのレイヤーがあるということ。データ自体とメタデータ
  • データガバナンスを使用すると、次の3つのことを実行できる
    • 管理されているすべてのデータのインデックスを含むメタデータカタログにアクセスし、特定のデータの存在を検索できるようにする。優れたデータカタログには、検索の範囲を制限する特定のアクセス制御ルールも含まれている
    • データへのアクセスを管理する。これには、取得プロセスおよび最小アクセスの原則を順守する方法が含まれる
    • 他の手順とは別に、データアクセス要求、データアクセス承認サイクル、承認者(データスチュワード)、および後続のすべてのアクセス操作で「監査ログ」を利用できるようにする
  • データガバナンスは、データの民主化を可能にし、より多くの知識を持つ従業員がより多くのデータにアクセスできるようにする機能になる。したがって、データの使用をより簡単かつ迅速にするビジネスの加速器になる

リスク管理 (盗難、誤用、破損)

  • CIOと責任あるデータスチュワードが長い間抱えていた主な懸念事項は、リスク要因は何か、それを軽減する計画は何か、そして潜在的な損害は何か、ということ
  • CIOはこれらの質問への回答に基づいてリソースを割り当てる
  • データガバナンスは、そこに提示されている他のトピックの中でも、データに対するリスクを管理するための一連のツール、プロセス、およびポジションを担当者に提供する
  • リスクには、盗難、誤用、データの破損がある

コンプライアンス

  • データガバナンスは、一連の規制がビジネス、特にビジネスプロセスのデータに適用される場合に活用される
  • 規制は、本質的に、組織が運営するビジネス環境内で機能するために遵守しなければならないポリシーである
  • ポリシーを実現するために以下のようなことを行う
きめ細かいアクセス制御
  • アクセス制御は、何よりもセキュリティに関連する確立されたトピックである。きめ細かいアクセス制御は、アクセス制御に次の考慮事項を追加する
  • アクセスを提供するとき、適切なサイズのコンテナへのアクセスを提供しているか
  • アクセスを提供するとき、適切なレベルのアクセスを提供しているか
  • アクセスを提供する場合、アクセスはどのくらい開いたままにする必要があるか
データの保持と削除
  • 重要な規制は、データの削除と保存を扱っている。設定された期間、およびその期間以上のデータを保存するという要件は一般的
  • 逆に、組織は特定の情報を保持する時間を制限して、責任を制限しながら迅速な結論を導き出すことができる
監査ログ
  • 規制当局に監査ログを表示できることは、ポリシーが遵守されていることの証拠として役立つ。削除されたデータを提示することはできないが、データが作成、操作、共有(および誰と)、アクセス(および誰によって)され、後で期限切れまたは削除された手段の監査証跡を表示できる
  • データガバナンスの目的で役立つためには、監査ログは不変で、書き込み専用であり、最も要求の厳しいデータ保存ポリシーである限り、それ自体で長期間保存される必要がある
  • 監査ログには、データとデータ操作自体に関する情報だけでなく、データ管理機能の周辺で発生する操作に関する情報も含める必要がある
機密データクラス
  • 多くの場合、規制当局は、あるクラスのデータを他のデータとは異なる方法で処理する必要があると判断する。これは、保護された人々のグループ、または一種の活動に最も一般的に関係する規制の中心である
  • データのどの部分を実際に処理するか、およびこのデータを構造化ストレージまたは非構造化ストレージに保存されているデータと比較する方法を正しく特定するのは、組織の責任

データガバナンスについて考える組織の考慮事項

  • 組織がデータガバナンスプログラムとその目標を定義し始めるとき、それらが運営される環境を考慮に入れるべき
規制とコンプライアンスのニーズの変化
  • 規制環境の変化により、組織はガバナンスに関して警戒を怠らない必要がある
  • 企業は既存の規制について知っている必要があるだけでなく、変化する規制や規定、およびビジネスのやり方に影響を与える可能性のある新しい規制についても把握する必要がある
データの蓄積と組織の成長
  • インフラストラクチャのコストが急速に減少し、組織が有機的に成長し、追加のビジネスユニットを取得することで成長する中で、データ蓄積のトピックと、大量のデータを迅速に蓄積するための適切な対応方法が重要になる
  • 組織は、データレイクを構築することですべての問題を解決できると考えていたが、現在、これらのデータレイクは、理解および管理することが不可能な大量のデータを含むデータの沼地になりつつある
データをクラウドに移動する
  • 従来、すべてのデータは、組織によって提供および維持されるインフラストラクチャに存在していた。これは、組織がアクセスを完全に制御できることを意味し、リソースの動的な共有はなかった
  • クラウドコンピューティングの出現により、組織はオンプレミスとクラウドインフラストラクチャの対応と投資について考える必要がある
データインフラストラクチャの専門知識
  • ハイブリッドコンピューティングにより、組織はオンプレミスとクラウドの両方のインフラストラクチャを利用でき、マルチクラウドにより、組織は複数のクラウドプロバイダーを利用できる
  • これによりガバナンスが複雑になり、ガバナンスの実装に使用されるツールの機能を超えてしまう

learning.oreilly.com