孟达“模块化数据中心”打造大数据时代
本篇文章3040字,读完约8分钟
模块化数据中心已成为解决当今企业面临的日益增长的数据处理需求的通用解决方案。越来越多的政府单位和企业正在考虑利用模块化数据中心的诸多优势和独特能力来满足各方面的数据处理需求。 PB大数据带来的挑战 互联网时代,尤其是社交网络、电子商务和移动通信,将人类带入了一个基于“PB”的结构化和非结构化数据信息的新时代。那么PB数据的概念是什么呢?说到数据量,人们通常会把它和美国国会图书馆联系起来。麦肯锡首席分析师迈克尔·楚伊(Michael Chui)指出,美国国会图书馆“在2011年4月之前收集了235兆字节的数据,1兆字节相当于4倍。” 人均实时消费数据将在未来10年内达到百万分位数,是当前数据消费的千分之一。如此巨大的数据处理需求将给现有的传统计算中心带来一系列巨大的挑战,包括实时数据处理、按需动态资源分配和调整、大规模系统运行的能效等。从业务角度来看,迫切需要解决软硬件资源的统一管理、按需分配、信息资源的合理调度、共享和交换以及池化管理等问题,以形成一套“兼容”的资源服务池,并按需从池中获取所需的资源或服务。 “以数据为中心”的新数据中心 在这种情况下,传统的数据中心必须转变为以数据为中心的数据中心,它可以灵活地将任务调度到数据位置接近的处理单元。传统数据中心的设计目标是能够持续工作。设计师要求设计的产品能够正常工作,不会损坏数百年。设计师心目中的数据中心是一堆孤立的物理设备。事实上,建立传统数据中心的最初动机是管理越来越多的物理设备,保持良好的环境,不损坏或丢失,并且有人会修复故障。此外,传统数据中心资源是孤立的,无法在整个数据中心实现实时动态调度,这也是传统数据中心资源效率低下的根本原因。 随着数据中心的发展,传统数据中心的问题逐渐暴露出来。在充分吸收传统数据中心问题的基础上,大蒙数据中心引入了“以数据为中心”的新概念。从逻辑上讲,达蒙的新数据中心提供了一个全球资源目录,其中包含各种应用系统的所有数据,并构成了一个全球统一的逻辑数据库。当用户发起对该虚拟逻辑数据库的数据访问请求时,首先通过检索全局资源目录来回答数据是否存在,然后从资源目录信息中获取其位置信息,如果数据是从物理位置本地存储的,则从本地物理库中获取,否则,根据从资源目录信息中获取的远程位置信息,通过统一的远程数据访问接口获取实际数据。 由此可见,达蒙的新数据中心相当于一个巨大的全局逻辑库,可以根据业务需要采用一些算法。然而,实际的物理库只会存储使用频率较高的数据,这不仅可以节省存储资源,还可以降低数据集中带来的数据更新成本。同时,根据数据访问的热度,可以实现物理库中数据的动态存储管理。最常用的数据被放入最快的存储器,第二个数据被放入固态磁盘,一般数据被放入磁盘,长时间不使用的数据被移动到外部磁盘磁带,并且长时间不使用的数据被清除以腾出空间给空。 高效部署的模块化 物联网和互联网等信息技术的快速发展带来了数据的爆炸式增长。为了适应大数据的发展趋势,数据中心不断扩大规模,提高性能,以支持日益复杂的海量数据管理需求。 出于性能考虑,分析和应用所需的经常使用的数据和数据通常从远程数据源提取并交换到数据中心的目标数据库,以便进行集中处理。数据集中化带来了方便处理和提高性能等好处,但同时也带来了数据一致性问题。如何以更低的成本和最快的速度将数据源中已更改的数据转移到数据中心的目标数据库进行更新,以保持双方数据的一致性,已经成为数据中心建设中必须考虑的问题。大梦突破传统解决方案,采用“模块化”的数据中心建设思想,不仅实现了数据同步,还实现了显著的性能优化。
首先,在数据交换层面,传统的数据交换使用时间戳、触发器、MD5等方法来捕获增量数据,这使得数据源的数据库产生较大的负载和延迟。当数据量大、同步时间短时,传统方案不能同时满足处理性能和数据一致性的要求。大明的模块化数据中心使用读取数据源数据库运行日志文件的方法来分析数据变化。通过监控日志文件中的更改,可以近乎实时地捕获数据更改。值得一提的是,这仅占用非常少量的操作系统监视和读取文件资源,基本上不会影响被监视的数据库实例的操作。 其次,在数据中心建设方面,传统的数据中心建设周期很长,而达蒙模块化数据中心在现场的部署速度非常高效,主要是由于模块化数据的分类和预制。从数据处理的整个生命周期来看,主要分为四个方面:数据采集与提取、数据集成与管理、面向业务的数据服务和多样化的数据应用。它们每个都有统一的接口、统一的标准和模块化产品的统一顶层设计。这些以达蒙数据库产品为核心的产品集,为模块化数据中心的快速部署奠定了坚实的基础。按照数据管理生命周期的顺序,通过了解模块化数据中心内部的管理机制,我们可以发现大蒙新数据中心优于传统数据中心的独特亮点: 数据交换:在从其他业务系统采集和访问数据时,数据交换平台可以利用梦异构数据的实时同步工具,处理“大密度、实时异构”的采集需求,满足频繁交换和数据量巨大的自动采集需求。但是,对于交换频率低但有一定清洗和转换要求的自动采集要求,使用ETL工具定期处理“定期采集、清洗和转换”的采集要求。对于对秘密敏感且不允许直接交换的数据,请求服务引擎用于实现“按需访问和数据自治”的查询和比较要求。 数据管理:数据交换和收集完成后,需要对数据进行整合和分类,数据管理平台可以实现这些需求。对于各种集成的项目数据资源,数据资源管理平台针对不同的收集渠道和承载方式,采用一致的可视化管理和维护方法,整体呈现出分散、分散的信息。同时,根据各种信息资源的业务属性描述、来源信息等内容,使用元数据管理进行统一描述、统一收集和统一管理,使得信息资源的重用成为可能。针对数据采集过程中出现的不一致和不准确的数据,质量管理和改进主要基于质量管理平台。根据质量规则,发现各种数据质量问题,并给出质量整改门户,以促进数据集成的质量改进。根据数据集成后的分类编目要求,数据资源编目系统主要是依据业务属性、提供者、系统类型等因素对数据进行分类编目,使数据能够被成功访问和重用。对于涉及的大量原始非结构化数据,通过文档管理系统进行统一管理,可以有效节省存储空间空并提供全文检索等增值功能。 数据分析:数据集成后的服务发布和应用过程主要基于数据分析服务平台。根据数据集成建立数据仓库和在线分析的需求,商务智能分析平台主要用于实现数据仓库建设、在线分析设计、在线分析展示等功能。 数据展现:根据数据选择性展现的需求,可以基于数据门户实现数据的组合和筛选,完成数据对不同人员、不同环节、不同模式的选择性展现能力。 数据服务平台提供基于集成数据的非可视化数据服务接口,满足横向比较、纵向比较和跨服务系统对接的需求。根据数据中心和业务系统运行的可视化需求(如系统承载能力、访问状态、异常信息等)。),运行维护监控系统主要用于通过监控入口、仪表盘和驾驶舱进行多角度可视化。根据管数据可视化表示的要求,基于数据的表示应用程序提供了基于集成数据的可视化组件的设计和表示。 结论 在大数据时代,达蒙数据库坚持创新发展的技术路线。业界率先实施模块化数据中心建设的新概念。以数据流为主线,实现从大数据存储、数据交换、数据管理、数据分析到数据应用的全生命周期管理。结合多年的项目建设和实践经验,达蒙数据库致力于为各行业更多的政府机构和单位提供大数据平台的咨询和技术服务。作为国内数据库品牌的骨干和龙头企业,它为国内信息化建设做出了贡献。
标题:孟达“模块化数据中心”打造大数据时代
地址:http://www.iqulvyou.com/mqhg/3394.html
免责声明:全球名企网是集资讯和商务为一体的食品行业实用型资讯媒体,部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,全球名企网编辑将予以删除。