数据湖访问控制和治理的六个原则


数据是当今企业真正的差异化因素可能是一个老消息,但在尝试将数据用于数字化转型计划时,公司仍面临着严峻的挑战。公司创建大量数据湖泊并聘请数据科学家和分析师,但他们仍然无法克服那些希望使用数据来支持新应用程序的人与那些负责确保适当的访问控制和治理以满足快速发展的监管要求的人之间的紧张关系。保护私人客户和员工信息 - 大规模。

实现这一目标需要流程和技术。我们将专注于技术。随着组织构建和使用平台来实现其数据目标,他们必须确保提供访问控制和治理的任何解决方案都建立在以下六个基本原则之上:

  • 数据为中心
  • 丰富的访问策略
  • 可扩展性和自动化
  • 统一可见性
  • 开放,API优先设计
  • 混合和多云准备

1.以数据为中心

数据访问策略和治理不应基于所使用的存储系统或分析引擎。相反,解决方案必须以数据为中心,并使用您当前部署的工具以及将来可能部署的工具实现策略的一致性实施。为此,架构应该能够支持多个分析框架,例如纯SQL,混合SQL,结构化但不是SQL(数据框架,Spark),以及机器学习和商业智能。

2.丰富的访问策略

有效的访问控制和治理必须支持各种粒度的结构化和非结构化数据。对于非结构化数据,粒度应该从几个文件夹到单个文件。对于结构化数据,粒度应该从一组数据集到单个数据集,到列,行甚至单元格。其他关键功能包括针对不同用户和用例的匿名化,标记化,屏蔽和数据编辑(通常称为模糊处理)。同样重要的是能够应用政策,例如同意管理和擦除权,这将支持不断发展的隐私法规,如GDPR和CCPA。

3.可扩展性和自动化

部署数据湖的一个关键目标是能够大规模运营和使用平台,而无需扩展人力资源和集成成本。您的数据湖访问控制和治理方法应具有相同的可伸缩性和成本目标。实现这一目标需要:

定义 -支持更复杂和复杂的策略结构,例如基于上下文的动态视图和基于属性的策略。这些将使得大规模定义政策变得更加容易。
实施 -政策需要适用于任何规模的数据集和工作负载,适用于任何工具,范围从单个数字千兆字节到多个千兆字节,而不会影响性能。
管理 -管理访问策略,特别是围绕细粒度访问控制,应基于API优先设计并允许自动化。昂贵的人工管理方法无法支持大量用户,这将限制随着时间的推移扩展数据湖访问控制和治理的能力。还必须将策略应用于数据,而无需为每个策略和使用工具创建多个视图和数据对象。

4.统一可见性

数据访问控制和治理应解决使用可见性的两个方面:

历史可见性 - 通过审计跟踪提供用户活动和访问模式的视图。审计跟踪中内容的质量和丰富程度必须一致,并且不能根据使用应用程序或源系统而变化。此审计跟踪还可以在以后用于构建数据湖的下一组功能,例如使用情况分析,退款和资源管理。
当前状态可见性 - 是否能够回答诸如“谁有权访问给定数据集,以及他们的视图是什么?”这样的用户访问哪些数据?“”如何访问此数据集?
如果数据使用可见性的任何一个方面缺失或不足,组织就无法深入了解有效治理所需的用户活动。

5.开放,API-First Design

访问控制和治理的方法需要能够支持新的工具,框架和供应商,这些工具,框架和供应商将不可避免地加入分析和机器学习生态系统。这意味着它应该使用一个简单的,面向服务的架构,该架构在API设计中是第一位的。坚持使用API​​优先设计,可以轻松集成当前和未来的企业工具,如Active Directory(AD)或单点登录(SSO)系统,用于身份管理,用于诊断和异常检测的日志管理框架以及目录用于业务元数据。

访问控制和治理解决方案还必须与存储和分析平台无关,并且接口应该是可插拔的。此外,该解决方案应该与供应商无关,以避免供应商锁定。

6.混合和多云准备

一个致力于敏捷并采用同类最佳技术以更快地创造商业价值的现代组织也在以同样的方式考虑基础设施。混合和多云是许多C级管理人员的首选。这意味着除了采用API优先设计方法之外,数据访问控制和治理的方法应该是供应商不可知和云原生的,并支持混合基础架构。这种组合有助于确保长期正确的架构。

结论

对于大多数组织而言,在现代的基于云的数据湖上提供访问控制和治理需要在用户授权和保护私人信息之间取得成功平衡。拥有合适的技术和工具对于支持组织实现业务敏捷性的总体目标至关重要,同时不会在安全性,治理或隐私方面做出任何妥协。通过确保他们的数据访问控制和治理方法基于上述六个原则,组织可以实现这一目标。

本文由 学习链 作者:学习链 发表,其版权均为 学习链 所有,文章内容系作者个人观点,不代表 学习链 对观点赞同或支持,未经许可,禁止转载,题图来自Unsplash,基于CC0协议。

抱歉,评论已关闭!