基于云计算的异构数据集成模型构建

时间:2024-11-15 10:50:02 公文范文 来源:网友投稿

刘雪芳 朱玲

摘要:异构数据的集成及处理一直是学者们探究的问题,近年来兴起的基于云计算构建的异构数据集成模型,能够获得统一的数据处理方式与管理办法,以供云计算环境下各业务应用,为异构数据统一查询、检索、业务应用处置的多元异构数据间的映射和关联创造便捷条件。文章介绍了国内外云计算异构数据集成模型的构建基本情况,指出了云计算下异构数据集成模型的基本构成,并就现有的模型构建实现的技术展开了论述,以便为用户提供优质的数据服务。

关键词:异构数据;
云计算;
构建;
集成模型

中图分类号:TP311  文献标志码:A

1 国内外云计算下异构数据集成模型的构建基本情况

现有国外云计算下的数据库基本上都是由一些实力雄厚的公司单独研发设计的,如database.com数据库出自Salesforge公司之手。微软以Windows Azure 云操作系统为基础独自研发设计了SQL Azure 数据库,且可开始提供云计算环境下的关系数据库服务。然而云数据库出自各个公司,且大部分仅对该公司构建的数据库体系使用,支持异构数据库的表现不尽如人意,且缺少统一的规范标准。目前,我国研究此种数据库才刚开始,还没有建立成熟完善的理论体系。

大型云端应用注重的对象以存储海量数据与数据高并发读写为主,并进一步优化数据模型与架构的结构,有效提升了可用性、并发性以及延展性等[1]。然而,这种系统大部分在管理数据方面的表现都比较差,仅有数据存储功能。为使系统具有数据管理功能,系统开发者一般要在“裸”系统的基础上进行研发设计,自底层着眼设計,从而赋予系统以若干定制的数据管理功能。但是,为了适应云计算的发展,此类数据管理型应用迎来了新挑战,暴露出一些问题。基于云计算的运行数据管理型应用时,必须确保多数据中心与多数据源协作处理,在云计算下集成信息系统内数据结构的数据与数据库类型。

所以,有必要建立云计算下的异构数据集成模型。在建立的过程中,必须充分考虑云环境的特征,为各种云存储数据与主流数据库的集成提供支持。一方面,用户对数据库有着高并发量访问的需求,且有高效访问并存储数据的需求,而此模型恰巧可以满足这些需求。另一方面,对于数据库,用户有数据库事务一致性、实用价值高、可延展性强的需求,而此模型可以满足这些需求。

2 云计算下异构数据集成模型的基本构成

2.1 数据结构与任务调度引擎

此层的任务是接收来自上层的和用户查询任务相对应的一系列逻辑操作,并以虚拟数据库结构为参考,促使逻辑操作变成与之对应的任何集合,然后向异构数据集成接口传输子任务集合,如图1所示。

进入异构数据集成接口层进行查询,传输结果集,完成后对所获得的数据予以归纳汇总与整合,紧接着向上层的云端数据查询获取分析接口层传输结果。这一层,数据获取分析生成及管理技术发挥着最关键的作用。在实施数据查询处理操作的过程中此层基本上会选用生成子任务集合的途径,因此,在设计时此层内含的模块有数据获取分析用户管理、数据获取分析任务管理等,以对用户数据获取分析请求生成的数据获取分析任务的运行以及状态管理进行监管与控制。

当然,在此层还需用到分布式数据获取分析执行引擎相关技术。通过使用该项技术,才能顺利完成模块分解的任务,结合所有数据系统与数据库的具体特征,提高对下层的异构数据集成接口的利用率,结合所有数据系统与数据库的实际特征执行与之对应的任务[2]。

2.2 云数据存储和资源管理

在整个系统内部,此模块居于基础位置。云环境下,运用资源与数据管理技术可以赋予所有功能层以更多的选择,从而更好地优化配置系统资源,做好数据管理以及存储工作,并达到在云环境下存储并查询海量、高负载、高并发的数据的目的。

云计算下的元数据与服务管理技术是本层应用的一项关键技术,为了使用户能够更方便地进行数据管理与数据存储,此技术必须能为所有数据源配置存储架构。对于底层而言,各类存储结构如传统关系数据库、分布式数据库均对其适用,可以将统一的元数据提供给上层,为其进行服务管理等创造条件。

2.3 数据的获取分析应用接口

此层主要作为云端数据获取分析应用接口所用,将其作为统一的对外调用接口。在本模型中,为了符合数据查询的相关要求,本模型可以为传统关系数据库、分布式数据库以及NoSQL数据系统提供自定义的、统一的查询语言。用户可以对shell接口下定义,利用标准SQL将用户数据传输进去,从而得到分析调用语句描述,分析并诠释命令,再一次进行请求查询,对下层的异构数据集成接口进行调用,然后将用户所需的数据分析结果返回。此接口的设置为应用开发商将本公司的服务无缝迁移至云计算创造了便利条件[3]。

本层的核心技术为自定义数据获取分析命令解释模块,该模块支持在云计算环境下使用。该层可以统一地接收用户发出的数据获取分析语句的请求,对数据获取分析语句进行解析,从而得到可与不同数据源相对应的逻辑操作,如图1所示。

2.4 本体基础下的异构数据集成接口

异构数据集成接口在云计算下异构数据集成模型内起到了十分关键的作用,是建立云计算下异构数据集成模型的关键要素,主要负责建立上层中的数据、对引擎任务实施调度,并呈现最终结果。在该接口内,异构数据语义映射集成技术发挥着十分重要的作用,在研发此技术的过程中,必须将相关工作做到位,促进局部环境语义向所有环境语义实现转移。换言之,在不同的数据语义环境下,基于本体之上会完成数据语义相似、数据集成一致的映射,在分布式环境下提高对有关技术的利用率。此外,在异构数据集成接口内部有异构数据格式集成技术这项技术,该技术效果显著,可以实现转换数据系统类型与内容,如可以实现XML文件数据与关系数据之间的转变以及映射。

3 模型实现的核心技术

3.1 数据获取分析语句语义分析方法

通过应用此法,可以实现对系统内部应用的数据获取分析与管理命令的处理,完成执行命令、解析命令等诸多操作。此模型基于云存储访问操作以及传统的SQL语法创造了一种语言——CHDI-SQL,以用于在云计算下访问并管理异构数据源,并对其进行执行与解析,从而让使用人员能便捷、高效地描述获取分析请求,得到所需数据。同时,可用此模型对CHDI-SQL 语言实施语义扩展接口的定义,便于其新增自定义语义描述。

3.2 云计算下异构多数据源并发控制及协同获取分析方式

基于云计算环境获得异构多数据源状况时,因为位于任一节点的数据源或许仅仅涵盖了需要的一些信息,在获取并处理相关数据时无可避免地要进行并行计算、网络通信、协同处理以及数据源异构性等,对进行数据获取分析提出了难题。针对若干异构数据源,将其打造成虚拟数据库,由其负责对特定的数据进行分析。

3.3 云计算下的异构数据集成方式

通过对传统异构数据集成进行研究后发现,大部分均运用的是访问者与DBS服务接口直接交互的方式,这难免会让用户在应用中处理数据集成以及数据访问等一系列问题时要面临更高的异构数据集成难度。通过应用云计算下的异构数据集成技术,可以做到智能化地处理异构数据集成问题。基于此,文章建立了联合虚拟数据库系统,所有虚拟节点的接口与实际的相同,在实际数据源节点上其主要工作包括:查询执行原子操作任务的进度、分析并处理异构数据语义。而联合虚拟数据库系统不具备贮藏数据的功能,仅支持整合优化异构数据源。服务联合模型支持调用虛拟DBS服务,并和组成联合的所有DBS接口实现交互[4],使用图中列出的结构进行异构数据集成。

3.3.1 联邦虚拟数据库

在具体应用中,结合系统负载的实际状况在云内若干台服务器上可自动部署该数据库。此数据库在与位于云端的异构数据集成接口连接的过程中主要依托的是异构数据结果集成接口,并对源于异构数据集成接口的统一语义、数据格式实施集成处理,优化整合云内所有的异构数据源,从而得到统一的联邦虚拟数据库。

3.3.2 异构数据集成接口

通常在进行设置时,设计人员会将该接口设置在云端,让其以云端的异构数据为对象实施异构数据语义与格式的集成处理。异构数据格式集成可实现对表冲突与物理冲突的处理,物理冲突指因数据源存储所产生的冲突;
而表冲突指命名冲突、表结构冲突以及表关系冲突等,如在对异构数据格式进行集成处理的过程中,可以考虑选择采取基于 XML 的数据格式解析中间件的方式重新对数据格式予以整理,从而妥善处理冲突问题[2]。异构语义集成可用于对数据语义冲突进行处理,语义冲突指在对同种现实世界事物进行描绘的过程中,在刻画结构、方式以及内容里两个对象产生的语义的不一致性。通过预处理、分析异构数据源将数据的统一性提取出来,得到建立局部本体的语义内容,能使数据集成过程中出现的物理冲突得到妥善的处理。语义冲突监测机制可以发现数据集成时产生的语义冲突,对表冲突进行处置,将异构清除、语义冲突解决,达到集成异构数据的目的。

3.4 云计算下大规模数据存储与资源管理办法

Hadoop可用于分布式处理许多数据,是当下被普遍使用的一种用于开发大规模数据存储及资源管理的软件框架。在进行分布式处理时,其采取的方式具有高效、可靠、可伸缩的特点。系统的核心框架为MapReduce、Hadoop 分布式文件系统(HDFS),后者为Nam-eNode/DataNode结构,其集群内部有1组DataNode节点、1个 Nam-eNode节点,是依靠NameNode节点对DataNode节点进行一致性地调度,对其发布删除、创建、复制的命令,而DataNode节点主要承担着处理所有节点内的数据等事务。

MapReduce的主要功能是对大数据集进行并行处理,在处理过程中,其先对系统内设置的总任务进行分割处理,然后得到大量子任务,任一子任务基于集群节点里均可实施并行处理操作。为了确保所有子任务节点安全、可靠、稳定,在创建数据块副本时,HDFS往往会创建两个以上。

云计算下大规模数据存储与资源管理模块可用于分布式处理许多数据;
为了保证支持重新分布处理失败的节点,每一层都得对若干个工作数据副本进行维护;
可考虑选取可伸缩数据处理和存储模式,如此便可以实现对PB级的数据的高速处理[3]。

4 结语

目前,在国内外的许多大型制造业领域云计算下异构数据集成模型已得到了大范围的运用,且许多分公司均完成了信息化建设,同时建立了大量异构信息管理系统。在未创建并执行此模型的过程中,企业必须安排专人负责归纳汇总分公司的信息与数据,以给决策者作出准确决策提供借鉴,云计算下的异构数据集成模型大大提高了效率。执行此模型以后,分公司的所有数据均可以得到及时整理,便于企业制定准确决策,强化企业市场应对能力。

参考文献

[1]周俊晖,赵聪浩,冯振俭,等.多源异构数据集成的实景三维数据模型[J].北京测绘,2022(5):563-570.

[2]王梦林,龚智煌,渊博,等.基于BIM的绿色建筑运维多源异构数据集成路径研究[J].土木建筑工程信息技术,2022(4):68-73.

[3]李帅,郭妍彤,周文迪.基于Neo4j的数据空间多源异构数据集成管理研究[J].现代计算机,2021(12):36-42.

[4]温浩宇,李京京.大数据时代的数字图书馆异构数据集成研究[J].情报杂志,2013(9):138-141.

(编辑 王雪芬)

Construction of heterogeneous data integration model based on cloud computing

Liu  Xuefang, Zhu  Ling

(Jingdezhen College, Jingdezhen 333000, China)

Abstract:  The integration and processing of heterogeneous data have always been a problem that scholars have explored. In recent years, the heterogeneous data integration model has been constructed under the basis of cloud computing. The following business applications create convenient conditions for the mapping and associations between the unified query, retrieval, and business application disposal of heterogeneous data. To this end, this article first introduces the basic situation of the construction of cloud computing heterogeneous data integrated models at home and abroad, and then specifically pointed out the basic composition of heterogeneous data integration models under cloud computing, and finally develops the technology of the existing model construction implementation. It is discussed to create high-quality services for users in terms of data.

Key words:
heterogeneous data; cloud computing; construction; integrated model

猜你喜欢 云计算构建 动车组检修基地与动车检修分析科学与财富(2016年28期)2016-10-14实验云:理论教学与实验教学深度融合的助推器大学教育(2016年9期)2016-10-09环境生态类专业大学生创新创业能力培养体系的构建与实践大学教育(2016年9期)2016-10-09

推荐访问:构建 模型 集成