終末 A.I.

データいじりや機械学習するエンジニアのブログ

【読書メモ】『Data Governance: The Definitive Guide』 Chapter 3

目次

役割、責任、ハット

  • 多くのデータガバナンスフレームワークは、多くの役割と責任の複雑な相互作用を中心に展開する
  • これらのフレームワークは、十分に機能しているデータガバナンスマシンをスムーズに実行し続けるためにその役割を果たす各役割に大きく依存する
  • これに伴う問題は、従業員のスキルセットが不足しているため、または人員が不足しているため、ほとんどの企業がこれらのフレームワークに正確にまたは半完全に一致することはめったにないこと
  • ハットという用語は、実際の役割または役職と実行されるタスクの違いを表すために使用
  • 同じ人が、日常業務の一環として、さまざまな役割に合わせたタスクを実行したり、さまざまな帽子をかぶったりすることができるというイメージ

ハットの種類

リーガル(補助)
  • このハットには、データ処理およびこの情報を社内で伝達するための法的要件への準拠に関して、会社が最新であることを確認するタスクが含まれる
  • 収集されたデータの種類と、外部監査の際に会社がコンプライアンスに準拠していることを確認するためにデータがどのように扱われるかについて深い知識を持っている必要がある
プライバシー責任者(ガバナー)
  • このハットの重要なタスクは、法務部門が適切と見なした規制に確実に従うこと
  • さらに通常、会社のガバナンスプロセス全体を監督する。これには、どのガバナンスプロセスをどのように実行するかを定義することも含まれる
  • COVID-19でモビリティレポートや、患者との接触通知を開発する際に、どのようなデータをもとにどのようなアプリケーションを作成するかについて、このハットが役割を果たした
データオーナー(アプローバー/ガバナー)
  • データオーナーのタスクには、プライバシー責任者によって設計されたプロセスや戦略を物理的に実装することが含まれる
  • これにはほとんどの場合、会社のデータアーキテクチャの構想と作成に加えて、ツールとデータパイプラインの選択と実装、およびストレージの作成、監視、保守が含まれる
データスチュワード(ガバナー)
  • データスチュワードのタスクには、データの分類とカテゴライズが含まれる
  • あらゆる種類のガバナンスを実装するには、データを定義してラベルを付け、機密、制限、健康関連などのデータを明確に識別する必要がある
  • ハットと役割という用語の使用を推奨する理由の大部分は、データスチュワードの「役割」を果たしている単一の人物を見つけることは非常にまれであるという事実によって例示される
  • 手動で時間のかかる役割の性質と、ほとんどの場合、スチュワードシップの職務を遂行する専任の人がいないという事実のために、多くの場合、これらの職務は会社全体のさまざまな人または別の役割を持つ人に課せられる
  • そのため、完全なデータの分類/カテゴライズがうまく行われない、完全に行われない、または最悪の場合、まったく行われないことがよくある
  • スチュワードシップがなければ、ガバナンスはせいぜい不完全であるため、これは注意すべき重要な項目
  • 現在ほとんどの企業が採用しているガバナンスプロセスの多くは、スチュワードシップが不十分であるという事実を回避するために実施される
データアナリスト/データサイエンティスト(ユーザー)
  • データアナリストとデータサイエンティストは、一般に、企業内のデータの主要なユーザーまたは主要なユーザーの一部であり、主にデータガバナンスの取り組みの対象
  • ガバナンスの実行が優れているほど、アナリストまたはサイエンティストはより優れた(そしてより安全に)仕事をこなし、貴重なビジネス洞察を提供することができる
ビジネスアナリスト(ユーザー)
  • よりデータ主導型になるために、企業には、アナリストやサイエンティストによって作成されたデータ分析に非常に興味を持っている、ビジネス側の一定数いる
  • 一部の企業では、データエンジニアは、ビジネスユーザーの「セルフサービス」を支援するために、はるかに単純な分析プラットフォームの作成と保守を支援する
  • データ主導が進むと、アナリスト/サイエンティストは、多くの分析で質問に答えることになり、そのうちのいくつかは単に答える時間がない
  • ビジネスユーザーが自分の質問のいくつかに直接答えることができるようにすることで、アナリスト/サイエンティストはより複雑な分析の質問に答えるために時間を解放することができる
カスタマーサポートスペシャリスト(ユーザー/補助)
  • カスタマーサポートスペシャリストは、技術的にはデータの「閲覧者」にすぎませんが、機密データにアクセスする必要があるこの役割を持つタイプの人々
  • それらはデータの消費者であり、それらのニーズ、およびそれらに適切なアクセスを許可する方法は、企業のガバナンス戦略を実行する他のハットによって考慮および管理される必要がある
経営メンバー(補助)
  • 多くの企業では、経営メンバーは、データガバナンス戦略の実際の実行に関して限られたタスクしか持ってない
  • それにもかかわらず、彼らは「財布のひも」を持っているので、統治の壮大な計画において重要なハット
外部の監査者(補助)
  • 規制に単に「準拠」するだけではもはや十分ではない。企業は現在、コンプライアンスを証明する必要がある。これは、ガバナンス戦略とプロセスの採用方法に直接的な影響を及ぼす
  • 多くの場合、企業は、誰がどのデータにアクセスできるか、およびそのデータ(そのリネージ)の場所にアクセスできることを証明する必要がある

データエンリッチメントとその重要性

  • データガバナンス戦略の実装を成功させるために重要なタスクはたくさんあるが、最も重要なのはデータの分類、カテゴライズ、およびラベル付けであると主張することができる
  • データスチュワードハットの中心的なタスクである適切なデータエンリッチメント(メタデータをデータに添付するプロセス)がなければ、適切なデータガバナンスは不十分
  • データスチュワードのこの中心的なタスクは非常に重要だが、データスチュワードのハットをかぶっている人は、データオーナーのハットだけでなくプライバシー責任者のハットもかぶっていることがよくある
  • 多くのハットをかぶると、やることが多すぎて、ほとんどの場合、時間のかかるデータエンリッチメントタスクの大部分はリストから外れる

考慮事項、課題、いくつかの成功事例

考慮事項と課題

ハットVSロールと企業の構造
  • さまざまな企業がガバナンスを実現するために採用するさまざまな種類のアプローチを検討すると、根本的なニーズは、そのプロセスの一部に責任を持つ具体的な人がいること
  • これは、プロセスの一部を実行することが明らかに誰かの仕事である場合は簡単だが、役割の間の境界線がぼやけている場合、これらのあいまいな境界線は、不十分な作業、誤解、および全体的な管理ミスをもたらす
  • ガバナンス戦略を成功させるには、役割だけでなくタスク、およびこれらのタスクの責任者または説明責任者に依存することは明らか
コミュニティーの知識と領域専門家
  • アナリストがどのデータセットが「適切」であるかを見つけるのに役立つツールが必要である
  • これにより、アナリストがデータを検索するときに、このデータセットは最高品質であり、ユースケースにとって最も有用なものであることを知ることができる
  • 現在、ほとんどの企業を通じて、アナリストがどのデータセットを使用する必要があるかを知る方法は、口コミまたは「コミュニティーの知識」によるもの
  • これは、役割が変わったり、人が移動したりするため、企業にとって明らかな問題で、企業は、アナリストがデータセットにコメントしたり、データセットをランク付けして、検索時に他の人が確認できる「有用性」スコアを与えるのに役立てる機能を要求する
  • この提案にはメリットがないわけではないが、検索性と品質のより大きな問題が立ちはだかる。データセットの有用性を知り、その知識を他の人に伝達することを「人々」に依存する形で行う戦略は誤りがあり、拡張するのは(不可能ではないにしても)困難
  • これは、特定の1人または複数のユーザーにかかる労力を軽減(または無効化)するツールがプロセスを支援できる部分。たとえば、最も使用されているデータセットを検出し、検索で最初にそれらを表示できるツールは、コミュニティーの知識や領域専門家への依存を最小限に抑えるのに役立つ
データの定義
  • タイプに関係なく、すべての企業は、情報に基づいたビジネス上の意思決定を推進するために使用できるデータを収集できることを望んでいる
  • ただし問題は、データを使用するには、データを知っている必要があること。表の列の文字列または数字が何を意味するかを知っている必要がある
  • そして今、それらの数字、文字列が本質的に機密性の高い情報を表しているかどうか、したがって特定の方法で処理する必要があるかどうかも知る必要がある
  • データの強化はデータを「知る」ための鍵だが、それでも大部分は手動のプロセスになる。通常、実際の人はデータのすべての部分を見て、それが何であるかを判断する必要がある
  • このプロセスはそれ自体が面倒であり、異種のデータストレージシステムやさまざまなデータ定義やカタログの複雑さを考慮すると、ほとんど不可能
  • 一般に、この作業の「不可能な」性質は、それが決して行われないことにつながる
古いアクセス手法
  • 歴史的に、データを表示したり操作したりする必要さえあるユーザーや役割は多くなかった
  • 今日のデータ駆動型ビジネスでは、さまざまな方法でデータに触れる必要のある多くのユーザーがいる可能性がある
  • どのデータにアクセス制限が必要かを知ることと、これらの制限をどのユーザーに適用する必要かを知ることの間には相乗効果がある
  • アクセスに関するさらなる複雑さは、データにアクセスするユーザーの意図の複雑さ。アクセスを許可できる、または許可する必要があるユースケースと、アクセスを厳密に拒否する必要がある他のユースケースがある
  • つまり、アクセス制御とポリシーは、特定のユーザーの白黒の「アクセスを取得する/アクセスを取得しない」ルールだけでなく、ユーザーがデータを使用している目的も考慮に入れるのに十分な機密性を備えている必要がある
規制コンプライアンス
  • データ収集の急増により、GDPRやCCPAなど、最も機密性の高いデータだけでなく、個人のすべてのデータを保護することを目的とした新しい規制が導入された
  • 分析する適切なデータを見つけるという観点からだけでなく、削除する適切なデータを見つけるという観点からも、検索性が重要

いくつかの成功を収めたプロセスと戦略

ストレージシステム内のデータ分離
  • キュレートされた/既知のデータをキュレートされていない/未知のデータから分離する戦略をとる。この方法をとるために、2つの一般的な戦略がある
  • 最初の戦略は、キュレーションされていないすべてのデータをオンプレミスのストレージシステムに保持し、分析に使用できるキュレートされたデータをクラウドにプッシュすること
    • この戦略のメリットは、既知のクリーンでキュレートされたデータのみを公開すると、誤ってまたは悪意のある人物によってデータが漏洩する可能性が大幅に減少すること
    • ただし、この戦略にはいくつかの欠点がある。1つは、データがこのように分離されている場合(一部はオンプレミスにあり、一部はクラウドにある)、ストレージをまたいだ分析を完了するのは不可能ではないにしても難しいということ
    • もう1つの欠点は、分離には、これらの複数のストレージシステムとデータパイプラインの維持と対応が必要であり、追加のアクセス制御の作成、保守、および実施、を長期にわたって維持するのは難しい
  • 2番目の戦略は、キュレートされたデータとキュレートされていないデータが分離されているという点で最初の戦略と似ているが、これは同じクラウド環境内で実行するもの
    • この戦略の長所と短所は、1つ目の戦略とほぼ逆
    • この戦略では、ストレージシステム、データパイプライン、およびポリシーの管理と維持が1つのシステムに制限されるため、常に最新の状態を維持することがはるかに簡単で合理化される
    • 一方で、パブリッククラウド内に存在するすべてのデータには、データがパブリックインターネットに(意図的または意図せずに)漏洩するという潜在的な欠点がある
事業部門によるデータの分離と所有
  • データのエンリッチメントは、多くの理由でデータガバナンスを成功させるための重要な課題。主な課題は、努力のレベルと説明責任および所有権の欠如
  • 企業がこの問題に対処する1つの方法は、事業部門ごとに管理するデータを分離すること
  • この戦略では、各事業部門は、そのデータに対してのガバナンスの作業のみを行うことになる
  • 各事業部門は、その事業の種類について深い知識を持っており、データ(パイプライン)の出入り、データのエンリッチメント、アクセス制御の実施/管理、およびガバナンスポリシーを処理する
  • このプロセスが非常に成功する傾向がある理由はいくつかる。1つ目は、特定の「チーム」が管理する必要のあるデータの量が少ないこと
  • これにより、作業が減るだけでなく、そのデータに関するより深い知識が得られる。データに関する深い知識により、より迅速なデータエンリッチメントと、より迅速でより堅牢な分析を実行することができる
  • 2つ目の理由は、データに対する明確で識別可能な所有権と説明責任があること
  • データに対する明確な説明責任がない場合、そのデータが失われたり、忘れられたり、さらに悪いことに、誤って管理されたりする
  • ただし、このプロセスはいくつかの落とし穴がある。主なものは、基幹業務ごとにデータを分離すると、データのサイロ化が促進され、データの設定方法によっては、企業間の分析が妨げられる可能性があること
データセットのViewの作成
  • 多くの企業で採用されている古典的な戦略は、データセットのさまざまな「ビュー」を作成すること
  • この戦略は、「クリーンな」ビュー(機密データがハッシュまたは削除されたビュー)に対して、ほぼすべての人が分析を簡単に実行でき、様々な心配をする必要もないもの
  • この戦略はいくつかの理由で長期的には問題がある。1つ目は、これらのビューを作成するにはかなりの時間と労力がかかること
  • 2番目の問題は、新しいデータが入ってくると、常に新しいビューを作成する必要があるということ。これにより、「新鮮な」ビューの作成に多くの時間と労力が費やされるだけでなく、管理が困難なデータセット/テーブルが急増する

learning.oreilly.com