sudotty / reading_note

笔记
8 stars 0 forks source link

可拓展的数据管理——数据管理是如何被打乱的 #10

Open sudotty opened 4 years ago

sudotty commented 4 years ago

随着企业看到有了数据就有可能产生影响,数字化进程不断加快。数据使企业能够更好地了解客户,从而获得更好的、独特的个人体验。数据为企业提供了新的、差异化的机会,从而推动了销售的提升。有了数据,我们可以优化现有的流程,通过寻找模式来预测未来。它使得创新成为可能,我们可以开发新的收入模式。

随着人们对提高客户满意度、额外收入、新的商业模式和运营效率的高期望值,企业开始投资于数据仓库、大数据、商业智能和高级分析技术。这种架构的实施是一个很大的挑战,因为许多企业所面对的数据场景规模和复杂度都很大。通过组合系统来构建一个环境,这些系统都是单独设计和实施的,是一项耗时而复杂的工作。研究1显示,87%的组织在商业智能和分析方面的成熟度较低。

在这些成熟度的挑战旁边,我看到了一些大的趋势。本来就很复杂的数据格局,在外部和新的数据源的使用下,数据格局将继续增长。由于云计算、分离式和专用基础设施、软件即服务和API经济的推进,碎片化的趋势即将到来。同时也存在着对隐私、安全和监管部门日益关注的担忧。随着数据的黑暗面越来越清晰,政府的介入,数据管理成为重中之重。

管理、整合和分发数据场景将成为一个更大的问题,因为更快地进入市场的时间会更快。还有竞争的时间压力方面,需要更快地开发和交付业务案例。选择正确的模式是很困难的,在压力下,人们会走捷径,这将引入更多的复杂性,并将在更长远的角度上损害架构。

现有的挑战、复杂性和地平线上的新趋势是一种危险的鸡尾酒,这要求我们重新考虑如何进行数据管理和数据整合。为了在数字化的世界中生存,需要一个现代的数据架构,既能应对现有的挑战,又能照顾到未来的趋势和发展。

在这一章中,我将说明数据管理在组织中的重要性和变革的必要性,我将首先向大家展示一些影响行业内相当多变革的趋势。

首先,我将重点讨论外部驱动因素,即你的组织之外的影响我们的因素,如竞争对手、新技术或法规等。并非所有你读到的或被告知的东西都能成为实际的趋势,所以要能够区分真实的信息和那些被提供信息的人进行商业操纵的信息,这一点很重要。

然后,我将重点讨论内部驱动力,即来自组织内部的力量,如企业战略、结构、流程、技术能力或员工士气等。

sudotty commented 4 years ago

外部趋势

主要是指市场上出现的东西和我们可以从外部进行的观察。组织会受到这些外部因素的趋势影响,不管他们喜欢与否,都必须改变。外部的趋势从技术到监管都有不同的变化。 高级分析有不同的类型。描述性分析是指回过头来解释已经发生的事情。诊断性是指解释为什么会发生。预测性是指会发生什么,而预测性是指应该发生什么。

sudotty commented 4 years ago

据Garter 2报道,高级分析技术已经得到了许多公司的认可,并被视为重中之重。潜在的应用包括:

由于公认的价值和战略优势,很多方法和框架已经被开发出来,以不同的方式进行高级分析。

第一个也是最有影响的创新是计算能力的提高和在多台计算机上分配分析工作的能力。在这样的情况下,计算机协调和并行处理我们想要解决的问题,使分析工作的速度大大加快。分布式的处理能力可以在几分钟甚至几秒钟内产生结果,而不是让计算机运行数周或数月的时间,而不是在几分钟甚至几秒钟内产生结果。这使得我们可以使用更多的数据,并得到更准确的答案。分布式计算的计算能力不再是瓶颈。

使用分布式存储和处理海量数据的发展始于Hadoop:一个开放源码软件实用程序的集合,它允许企业处理和分析海量数据。Hadoop在2006年开放源码,在2013年到2014年之间成为主流。它为我们所说的大数据开辟了空间。Hadoop的优势在于它的模块化生态系统,随着时间的推移,Hadoop的发展,引入了许多新的处理和数据库设计。通过Hadoop,你可以将许多不同的组件结合在一起,这使得它成为一个具有竞争力的平台。

sudotty commented 4 years ago

Hadoop 已死?

Hadoop的优势也是弱点。现代化的、易于管理的云平台一直在诱惑着客户,把管理Hadoop的复杂性带走了。竞争对于大的Hadoop厂商来说意味着麻烦。

然而,Hadoop不太可能完全消失。像亚马逊、微软和谷歌这样的大型云计算公司,已经开始将复杂度抽象化,将Hadoop生态系统的一部分变成了用户友好型的高性价比服务。

sudotty commented 4 years ago

另一个帮助Advanced Analytics进一步发展的趋势是开源。在开放源码软件中,源代码是公开的。它允许每个人自由使用、重新发布和修改软件。开源让高级分析软件更加普及,因为它摆脱了商业厂商昂贵的授权环节,让每个人都可以互相学习。工程师们只需从互联网上下载一份免费的软件拷贝,就可以快速进行实验。

sudotty commented 4 years ago

开放源码也开辟了专业数据库的领域。Cassandra、HBase、MongoDB、Hive、Redis等等,通过使存储和分析海量的数据以实现大数据的洞察力,颠覆了传统的数据库市场。所有这些新的数据库可能性的结果是,构建和开发新的解决方案的效率急剧上升。不再使用传统的关系型数据库,将数据组织成一个或多个表的列和行,并在代码中构建所有的逻辑,而是可以通过高度专业化的数据库轻松解决复杂的问题。例如,一个复杂的社交网络分析,用专门的图数据库4比传统的关系型数据库可以更好地实现。这些新的数据库产品很多都是开源的,这使得消费变得很容易。这种包括数据库在内的技术的多样性,导致看到同样的数据最终会出现在更多不同的数据库中。趋势是更加专业化的数据库和处理框架。

sudotty commented 4 years ago

在高级分析技术继续向前发展之后,伴随着新的算法发展,出现了第二波发展浪潮。人工智能(AI)、机器学习(ML)和自然语言处理(NLP)等技术应运而生。这些技术的部署被视为更大的竞争优势,因为结果更准确。ML不仅会做假设,而且会对模型进行重新评估和重新评估,同时部署多个模型,所有这些都不需要人工干预。机器学习中计算机执行复杂任务的方式,是人类永远无法完成的。人们的期望是,我们对AI、ML和NLP在未来的能力还只是触及到了表面。因此,这些技术的增长意味着数据的加速增长。

sudotty commented 4 years ago

AI、ML和NLP之间的差异

人工智能、机器学习和自然语言处理多年来一直是高级分析词汇的一部分。有些人交替使用这些术语,但不管有什么重合,它们都不是相同的技术。

Machine learning (ML)

在ML中,系统通过识别模式从数据中学习,只需最少的人为干预。系统从实例中学习,使用有监督或无监督的学习方法。在有监督的情况下,系统被赋予一个特定的目标。系统使用各种属性(也称为特征)对这些结果进行训练。结果越接近目标,模型就越好。在无监督学习中,没有指定目标。

自然语言处理(NLP)

NLP就是利用自然语言来分析和理解计算机与人类之间的交互作用。最终的目标是最终产生响应或允许系统基于人与人的交互做出决策。

人工智能(AI)

与机器学习相比,人工智能的范围更广,因为它试图复制或模仿人脑。机器学习和自然语言处理可以被认为是人工智能内部使用的子集或技术。

sudotty commented 4 years ago

在分布式处理、开源和新的数据库类型的支持下,我们可以从高级分析的增长中得出的结论是,这些趋势将极大地改变我们的数据格局。未来的分析应用和数据库类型将不断增加。数据景观将更加碎片化,这将证明是成功实施数据管理的一个挑战和主要障碍。

sudotty commented 4 years ago

API和云计算是主流

另一个大的趋势是API的兴起。API是应用程序编程接口的首字母缩写,它允许两个应用程序或应用程序组件之间相互对话。因此,API使组织更容易将应用程序、系统和设备与其他应用程序连接起来。API在体系结构中的作用也将在后面详细讨论(第4章),但API带来的一个作用是,构建和共享可重用服务成为主流。通过API,企业可以构建有趣的可共享的商业模式。所有的东西突然间都可以连接起来了。

云计算公司巧妙地应对了这一API连接趋势。亚马逊CEO杰夫-贝索斯(Jeff Bezos)日明确表示,"从此以后,他的所有团队都要通过共享服务接口来公开自己的数据和功能"。与其投入和花费时间去重新发明车轮,不如消费已经开发出来的东西,由其他方提供。这成为了公有云之所以如此受欢迎的主要差异化因素之一。构建可重用服务的做法是一个令人难以置信的流行趋势。企业消费服务,并在这些服务之上开发新的商业模式和软件。这种模式也被称为软件即服务(SaaS)。

API连接的这些进步带来的后果是,随着数据使用和消费的增加,经济变得更加依赖API。数据突然在不同的环境中分布,从而更加分散。通过与其他公司共享数据,或者使用云或SaaS解决方案,数据最终会在不同的地方,这就增加了整合和数据管理的难度。此外,我们还看到了网络带宽、连接性和延迟问题,因为同样的数据会被从应用中拉出来,通过网络反复分发。追求单一的公有云战略不会解决这些挑战。这意味着,如果你想把API和SaaS做得很好,并利用公有云的能力,就一定要掌握数据整合。

sudotty commented 4 years ago

软件的交付速度正在发生变化

在当今世界,以软件为基础的服务是企业的核心,这意味着新的特性和功能必须快速交付。为了应对更多的敏捷性需求,亚马逊、Netflix、Facebook、谷歌、Uber等公司出现了新的意识形态。这些公司基于两个信念,在软件开发实践中脱颖而出。

第一个信念是改变目前的敏捷方法,将软件开发融入到一切开发和运营的环境中,从而改变目前的敏捷方法。这种改变不仅是技术上的改变,也是文化上的改变,因为它涉及到开放的沟通、信任、透明和跨学科的团队合作。在这种工作方式中,软件开发(Dev)和信息技术运营(Ops)被融合在一起。DevOps。

第二个信念是关于必须开发应用的规模。通过将单体化的应用转化为更小的分解服务,灵活性有望上升。这种开发方式带来了很多的热门词汇:微服务、容器、Kubernetes、领域驱动设计、无服务器计算等。我暂时不会深入到每一个概念的细节,但这种软件开发的演进伴随着复杂性的增加,以及对数据更好地控制的需求的攀升。

将一个单片式应用转化为分布式应用会带来很多挑战。当把你的应用分解成更小的碎片时,你的数据会分散在不同的小组件中。你还将你的(单一的)唯一的数据存储,在那里你完全理解了你的数据模型,并将所有的数据对象聚集在一起,过渡到数据对象分散在各个地方的设计。这就带来了几个挑战;增加的网络通信、需要同步的数据读取复制、一致性和引用的完整性问题等等。

软件开发的转变趋势,需要一个架构,让更多的细化的应用分发数据。这也需要不同的设计理念:更加强调数据的互操作性、捕捉不可更改的事件、可重复性和松散耦合。

sudotty commented 4 years ago

数据量不断增加

数据使用量的增加、高级分析和数据共享对数据总量的增加有很大的贡献。但也有其他趋势,这也增加了数据的增长。

物联网(IoT)对数据量的增长做出了巨大贡献。物联网是指小型设备、传感器、智能手机、游戏,都在产生数据。由于将有数十亿的数据,因此预计数据创造、数据分布和数据速度(数据需要处理的速度)都将会有很大的发展。

另一个有趣的发展领域是开放数据8的使用。开放数据是指任何人都可以自由使用、重复使用和再分配的数据。它可以成为丰富现有产品、服务的机会,也可以让人们更好地了解全球问题。例如,世界卫生组织(世界卫生组织)拥有一个大型的开放数据库,对所有人都是公开的。这种开放数据有可能帮助医疗公司更好地检测疾病和风险因素。

最后,当我们开始更多地使用数据时,需要分析和存储的数据量开始呈指数级增长,这也是符合逻辑的。我们会对数据进行复制,将其转化为新的上下文,并产生新的数据。我们将在XREF这里更深入地讨论这个问题。

数据无止境的增长的后果是,有用和可靠的数据整合成为一个更大的挑战。在几个系统中统一数据已经很困难,更何况我们需要整合成千上万的内部和外部潜在的(开放)数据源。这一挑战再次使我们对更好的数据整合的需求变得更加明确。

sudotty commented 4 years ago

读/写比例不断增加

先进的分析、API连接、物联网(IoT)和开放数据的使用,对我们需要读取的数据量产生了炽热的影响。数据的使用也更加不可预知和多样化。比如说API,期望运营系统实时可用来读取数据。再比如说高级分析,需要随机读取,很可能需要更大的数据量来预测未来。

我们希望使用的大部分数据,都存储在事务系统和运营系统上。它们是关键任务(运营)流程的权威数据源。这些系统是为一致性而优化的,但不是为密集的、不可预测的数据读取而优化的。读写比的变化是一个问题,原因有两个。

第一个原因是应用和数据库的设计。事务性和操作性系统通常在短时间内有几百万、几百万个请求要完成。它们必须保证数据库事务处理的可靠性和数据的完整性。这些目标是有代价的,这就是性能。读和写进程的隔离,需要数据库等待其他进程完成。读请求量越大,进程需要等待的时间就越长,因为每一个事务都需要一个接一个的仔细处理,以保证其完整性和完整性。因此,对于意外(分析性)读的可用吞吐量是有限的。

第二个原因是数据从系统中传递出去的速度的吞吐量限制。一般来说,数据被存储在硬盘驱动器10上。它们有一个转速,即每分钟转数(rpm),它告诉你盘片(装有磁性数据的圆盘)的旋转速度有多快。速度通常从5400到10.000rpm不等,这给了我们最大的传输速率和数据读取量在50到120兆字节/秒(MB/秒)11。此外,还有寻求时间,也就是执行器臂上的头部组件移动到要读取数据的磁盘位置所需的时间。无法预知的负载要求致动臂走得更多,这就会增加等待时间,限制了吞吐量。

传统的硬盘驱动器已经经历了一次进化,可以被昂贵的闪存技术所取代,这种技术称为固态硬盘(SSD)。它们没有移动的机械部件,速度更快,但其速度仍然受到电子在物质中运动的物理限制12的限制。

数据传输的限制,事务性设计和更密集的数据消耗是一个巨大的工程问题。一般来说,系统并不具备瞬间拉出无限量的数据的能力。为了克服重读带来的这些影响,防止系统受阻或停止,我们需要重新思考数据的存储方式,以及如何在应用之间分配数据。在XREF这里,我们将更深入地讨论这个问题。

sudotty commented 4 years ago

网络的速度越来越快

网络速度越来越快,带宽也在逐年增加。我参加了2018年Gartner数据与分析峰会(Gartner Data & Analytics Summit 2018),谷歌在会上展示了在他们的云中,可以在一分钟内移动数百兆兆字节的数据。

这种太乙级数据的移动,让我们有了一个有趣的方法,我们现在可以通过复制数据,而不是把计算能力带到数据上--这一直是常见的最佳做法,因为网络的限制,我们现在可以把它转过来,通过复制数据,把数据带到计算能力上。网络不再是瓶颈,所以我们可以将TB级的数据从环境中快速移动到环境中,让能力消耗数据。特别是随着SaaS和机器学习即服务(MLaaS)市场的普及,这种模式变得更加有趣。我们不在内部做所有复杂的事情,而是利用网络来向其他方提供数据,而不是在内部做所有复杂的事情。

这种复制(复制)的分布式模式,将数据推向不同的设施(如云端等)上的计算能力,将使数据格局更加碎片化,这再次使得清晰的数据管理策略比以往任何时候都更加重要。

sudotty commented 4 years ago

隐私和安全问题将成为数据管理的首要任务。

数据无疑是企业优化、创新或差异化的关键,但数据也开始暴露出更黑暗的一面,暗含着更多不友好的成分。剑桥分析(Cambridge Analytica)文件和万豪公司5亿账户被黑客入侵14都是数据隐私丑闻和数据泄露的令人印象深刻的例子。其他更畸形的例子是AI deepfakes 15诈骗,它可以产生令人信服的视频或音频,旨在欺骗别人相信一段虚拟假象是真实的。

海量数据的趋势,更强大的高级分析技术和更快的数据分发速度,引发了围绕着数据的危险性的争论,也引发了伦理问题和讨论。由于企业会犯错,越过道德底线,我期待政府介入,加强和坚定监管。我认为,我们对真正的数据隐私和数据伦理问题的研究还只是触及到了表面。我的信念是,监管将迫使大公司在收集哪些数据、购买了哪些数据、组合了哪些数据、如何分析了哪些数据、分发(出售)了哪些数据等方面给予透明度。大公司需要开始思考透明度、隐私优先的方法以及如何处理大的监管题目。以下是一些企业已经在处理的现有题目的例子。

处理监管是一个复杂的话题。想象一下,当使用不同的云环境和SaaS服务,数据分散的情况。满足GDPR和CCPA的要求是很难的,因为企业需要对所有的个人数据进行洞察和控制,无论数据存储在哪里,都要对所有的个人数据进行洞察和控制。数据治理和处理个人数据20是许多大公司的首要任务。

这些更强的监管要求和数据道德规范将导致进一步的限制、额外的流程和加强控制。从数据的源头和数据的分布方式来进行洞察是至关重要的。需要有更强的内部治理。强化控制的趋势与快速软件开发的方法论背道而驰,文档较少,内部控制较少。这需要对内部如何进行数据管理采取不同----更多的防御性的观点。

sudotty commented 4 years ago

内部趋势

既然我们已经了解了外部的驱动因素和趋势,那么我们还必须审视内部的变革需求。内部的趋势当然取决于内部环境和你所工作的公司是什么情况。我接下来要介绍的是我在整个职业生涯中观察到的比较普遍的问题。

sudotty commented 4 years ago

企业被陈旧的数据架构所困扰着

许多企业正在处理的最大问题之一就是如何从目前的企业数据架构中获得价值。基于数据仓库和商业智能的第一代架构在90年代开始流行,它的理念是为整个组织拥有一个中央集成的数据存储库,其中包含多年的详细数据。考虑到数据的总量、多年的发展和知识的积累、密集的业务使用,更换迁移将是一项风险大、耗时长的活动。因此,很多企业并没有放弃这种架构,仍然用它来反哺数据需求量大的应用。

在新的数字化时代,新鲜的需求比以前更快地出现,这使得敏捷性和响应性成为必要条件。这与企业数据仓库的设计相矛盾,因为它需要各方之间的沟通和协调,所以一般来说,企业数据仓库的设计都是耗时长、要求高的操作。虽然这些架构可以通过自动化、代码生成和更好的数据管道来拉伸,但它们永远无法提供未来数字化时代所需的敏捷性。

敏捷性降低的后果是,架构师、工程师和用户都在用直接的接口绕过他们的数据仓库。这些点对点的接口成为永久性的,也是每一个赶时间的人的最佳实践。由于数据的消耗量不断增加,点对点接口很快就会增长到无法管理的复杂程度。

工程师和架构师也会根据组织的数据组织,创造性地调整数据仓库架构。不正确的(分析和操作)工作负载被放置在数据仓库中,数据被不正确地整合,或者创建了太多层次的抽象。数据仓库,一般来说,数据仓库有很多跨系统的依赖关系。在你的架构中,数据仓库有了紧密耦合的数据仓库,就很难将现有的应用迁移到公有云上。在你意识到之前,所有的消耗性应用都必须从on-premises转移到公有云上。话虽如此,但企业数据仓库以及最终整个数据架构变得一团糟并不令人震惊。同时,对高质量和一致性数据的需求依然存在。

后期的架构是基于数据湖的理念。通过捕获数据的原样--以原始格式--任何消费者都可以决定如何使用、转换和整合数据。这些架构的问题在于,原始数据本身就携带着大量的可重复工作。数据往往被污染了,不能清晰地代表真实的事实。另一个问题是,有了原始数据,一切都是紧密耦合的。源系统,随时都可能发生变化,数据的链条会断裂,所以变化必须始终小心翼翼地协调。这导致很多举措永远无法进入生产,始终停留在试验模式。

最后,这些架构背后有很多集中化的思维。中心化团队的创建,使用中心化的规划。这种依赖性和等待性让其他团队无法有效执行。中心化的数据模型是口授的,要求每个人都要使用相同的术语和定义。这就没有留下任何创造性的空间。最后,数据专业人员与业务人员的分离--以及随之而来的集中化是一个令人担忧的问题:通过将数据知识与领域和业务洞察力分离,团队被困扰着进行不断的交叉沟通。显然,我们需要实事求是地看待目前的企业数据架构,并拿出更好的东西来! XREF HERE将深入探讨这些问题。

sudotty commented 4 years ago

需要将业务系统和事务系统整合起来

需要更快地做出决策,这就提出了新的挑战。传统上,事务性(操作性)应用和分析性应用之间存在着明显的分割,因为事务性系统一般来说不足以提供大量的数据或不断推送数据。最好的做法一直是将数据策略分成两部分。

与此同时,这种明显的分化正在变得更加模糊。运营分析(Operating Analytics),其重点是预测和改进现有的运营流程,预计将与事务系统和分析系统紧密合作。分析的结果需要重新整合到运营系统的核心,使洞察力在运营背景下变得有意义。

这种趋势需要一个集成架构,将业务系统和分析系统同时连接起来。它还要求数据整合要以不同的速度工作,即运营系统的速度和分析系统的速度不同。最后,它要求将历史数据保留在原有的操作背景下。

sudotty commented 4 years ago

自助服务分析需要一种新的安全模式

IT与业务用户之间的关系一直是个难题。IT团队一般会把大部分时间花在开发、维护、协调和问题与事件管理上。同时,业务用户期望即时交付,不会出现生产效率低、交付速度慢的情况。自助服务解决了这些问题,因为它可以让业务用户快速、直观地访问数据,而不需要任何特定的专业知识,也不需要IT部门的帮助。

通过自助服务,业务用户可以自行执行查询和生成报表。它让业务部门内部的个人可以更轻松地使用数据,创造洞察力,驱动他们的用例,拥有更多的自由度和自主责任。这一趋势还得到了另一个趋势的支持,即在这些自助服务工具中,高级分析功能将更容易使用。我们将开始看到公民数据科学家的作用22,利用他们的专业知识快速将数据转化为预测。

另一方面,自助服务也是一种威胁,因为它与完全的业务控制不同步。赋予太多访问数据的责任,会引入业务用户进行有毒的数据组合的风险,这将使用户违反法律,损害客户的信任,违反道德规则,甚至造成不正当的表象。自助服务还引入了人工分配数据的风险,不知道谁能访问什么数据。这可能会导致数据不一致,造成数据的不一致和潜在的数据泄露。最后,自助服务工具越来越强大,具有机器学习和自动决策能力。这可能会导致无法解释和错误的商业决策,可能会对整个企业的声誉和商业模式造成潜在的影响。

自助服务的趋势要求我们对数据的使用有一个新的目标运营模式,对工具进行更好的定位,包括更强的工作方式的纪律性。这也需要新的安全模式,我们要对数据进行分类和保护。

sudotty commented 4 years ago

公司正在实施自己的数据道德和安全政策。

数据使用量的增长使得如果没有更强的数据管理和数据治理纪律,就更难控制。许多公司没有等待新的法规,而是主动将数据道德政策落实到组织中。他们不愿意承担任何风险。我看到了对更多的控制、更好的流程和自动化的明显需求。

大量的商业公司看到了这个机会,并通过分析、记录和检测的框架涉足这一领域。数据安全是一个热门话题,所以我预计,如果公众对数据的密集使用的舆论发生变化,企业寻求更多控制的趋势会持续下去,甚至会加速。

sudotty commented 4 years ago

新的商业模式正在崛起

正如我在前面的章节中简单提到的,公司正在不断开发新的商业模式,以利用数据(数据货币化)。数据货币化就是将数据货币化,为新的商业模式服务。它更多的是创造新的收入,而不是增加现有的收入流。

人工智能和机器学习有望助推这一趋势,因为它使数据更加有价值。数据将成为许多未来价值主张的核心。已经有很多公司开始免费使用这些智能服务,以收集尽可能多的数据。一些公司的例子是。

随着数据量的增加,洞察力的增加,数据或模型也会变得更有价值。API连接、云计算、开放数据和SaaS将使企业更容易开始更快速地推出新的商业模式。既然上市的时间很短,那就必须要快。数据整合,即收集、组合和整合许多数据源的学科,是典型的挑战,它可以成为快速上市的差异化因素。

sudotty commented 4 years ago

需要建立一个从生态体系到生态体系的架构

很多人认为一个企业是一个单一的生态体系,有很强的边界。我认为这些人都错了。现代企业的核心业务功能和服务越来越多地与第三方及其平台整合在一起。通过合作,创造了新的数字化商业模式。在这样的合作中,每一方都要在提供数字化产品和服务的端到端价值链上发挥作用。这样一个动态的价值链被称为数字生态系统。

现在也可以看到这种数字生态系统架构。在荷兰银行,有很多初创公司,它们与其他初创公司竞争。这些初创公司可能完全站在自己的IT部门和基础设施团队的立场上,但他们也与更大的企业有联系。通过与合作伙伴在很多数据方面的紧密合作,我们为第三方玩家和客户提供附加值。

我所看到的是,快速分发、整合或曝光数据的能力是一个重要的需求。需要一个从生态系统到生态体系的架构。

sudotty commented 4 years ago

工具的激增导致成本增加,并带来了分散的复杂性

由于需要大量的新工具、数据库、框架、库、库和开放源码组件,为了跟上技术和业务需求,非常大的公司都在为IT成本的增加而苦苦挣扎。在过去,大多数公司只有几个关系型数据库的口味,如Oracle、SQL Server、MySQL和一些商业智能工具供内部使用。厂商和发布管理周期是相当可监督的。但这些天来,IT维护和运维部门的人都很辛苦。对于每一个问题,我都可以指出一些特殊的数据库。在生产中使用五六个不同数据库的密集型用例已经不是特例了。当组织走向分布式架构时,这种复杂性将变得更深。另外,分析工具、应用、服务和框架的空间也会让人应接不暇。供应商来了又来,走了又走。对于采购等部门来说,很难跟踪和区分所有这些不同工具的附加值是什么。

新工具的采用速度增加了成本。在不仔细评估工具的情况下,它引入了潜在的锁定风险。规模较大的公司在内部重新计费时也会很纠结。工具、应用程序和数据库往往是由一个团队提供服务,作为一种服务模式,然后提供给其他团队。如果服务方式不正确,就有可能出现额外的依赖性和分散的复杂性。为了降低这些风险,需要应用和数据集成原则。我将在第2章和第6章中介绍这种分散的场景背后的集成方面和复杂性。

sudotty commented 4 years ago

总结

涵盖了目前影响我们使用数据的主要趋势。我们看到数据增长加速,计算能力的提高,分析技术的进步。数据的消耗在增加,数据需要快速分布,需要更强的数据治理。我们也看到,由于云、SaaS和微服务等趋势,数据管理需要去中心化管理。所有这些都必须与市场化时间较短的情况相平衡,这要归功于强大的竞争。这种高风险的组合对我们提出了挑战,让我们以完全不同的方式来做数据管理。我在这本书中设想的分层架构将解决许多甚至是所有这些问题。

分层架构要求我们对数据管理和数据整合有很好的理解。