終末 A.I.

データいじりや機械学習するエンジニアのブログ

データエンジニア

【読書メモ】『Data Governance: The Definitive Guide』 Chapter 3

目次 役割、責任、ハット ハットの種類 リーガル(補助) プライバシー責任者(ガバナー) データオーナー(アプローバー/ガバナー) データスチュワード(ガバナー) データアナリスト/データサイエンティスト(ユーザー) ビジネスアナリスト(ユーザー) …

【読書メモ】『Data Governance: The Definitive Guide』 Chapter 2

目次 エンタープライズディクショナリ データクラス データクラスとポリシー ユースケースごとのデータポリシー データ分類と組織化 データカタログとデータマネジメント データアセスメントとプロファイリング データ品質 リネージ追跡 データ保持とデータ…

【読書メモ】『Data Governance: The Definitive Guide』 Chapter 1

目次 データガバナンスとは データガバナンスに関連するもの データの信頼性の強化 データの分類とアクセス制御 データガバナンスとデータイネーブルメントおよびデータセキュリティの関係 なぜデータガバナンスはより重要になっていくのか データサイズの成…

DataHub vs OpenMetadata ~OSSデータカタログツール比較~ 【概要編】

データカタログ、皆さんはどう運用してますでしょうか。必要だとは思うけどプライオリティーが低く特に導入していない、スプレッドシート(エクセル)管理でお茶を濁している、各クラウドベンダー標準のものをとりあえず使っている、という所も多いのかなと…

Cloud Storage Transfer ServiceでAssumeRoleを使ってS3からデータを移行する

※ この記事は2021年10月の情報に基づいて記載しています。 ※ 最新情報はGCPのドキュメントを参照ください。 Cloud Storage Transfer Serviceは、GCP内から直接S3等のクラウドストレージ(もしくはオンプレミス)のデータ移行を行うことにより、高速で高並列…

データテストライブラリー「Deequ」を触ってみた

DeequはAWSがリリースしているデータテストを行うためのライブラリです(Deequの説明ではUnit Testと表現されています)。 ここで言うデータテストは、ETL処理やデータマート作成処理などの意図通り動いているどうか、取り込んだデータが昔と変化していない…