企业信息化中的数据集成经历了这一个发展过程:早期数据分析阶段多库系统存在存在这样的问题,比如可用性差(源数据库或通信网络故障导致系统瘫痪)、响应速度慢(全局查询延迟和低层效率影响响应速度)、系统性能低(总体性能取决于数据源中性能差的系统)和系统开销大(因每次查询要启动多个系统,通信和运行开销大)等问题。数据集成是在逻辑上或物理上把不同来源、格式、特点的数据有机地整合,从而为企业提供全面的数据共享。数据集成的目的是要运用一定的技术手段把分布、异构系统中的数据按一定的规则组织成一个整体,使用户能有效地对其进行共享、分析!
在企业数据集成领域,已经有了很多成熟的方法可以利用。目前通常采用数据联邦、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术为解决数据共享问题提供了不同的方式。数据联邦(federation)是数据集成的方法之一,其优点是数据依然保留在原来的存储位置,而不必构建一个集中式数据仓库。但数据联邦查询反应慢,不适合频繁查询,而且容易出现锁争用和资源冲突等问题。中间件通过统一的全局数据模型来访问异构的数据库、遗留系统和Web资源等。中间件位于异构数据源系统(数据层)和应用程序(应用层)之间,向下协调各数据源系统,向上为访问集成数据的应用提供统一数据模式和数据访问的通用接口。各数据源的应用仍然完成各自的任务,中间件主要集中为异构数据源提供一种检索服务。数据仓库的数据集成依赖提取、转换和装载(ETL)过程。此外,由于主数据管理能较好地解决数据仓库中数据不准确的问题,越来越多的企业会重视主数据管理项目。
目前Informatica、SAS和IBM等企业推出了高效的数据集成平台,为数据共享和数据集成提供了基础。其中Informatica公司是数据集成平台领域的佼佼者,也是集数据集成和数据质量平台于一体的少数几个供应商之一。该公司所提供的统一数据集成平台具备广泛的连接性,可以集成大型机数据、关系型数据、文件数据、应用程序数据、消息队列、可扩展标识语言(XML)和非结构化数据等多种类型的数据。
在信息化过程中,企业的子公司、各部门往往各自负责局部的信息系统选型、建设和维护,导致大量的信息孤岛。同时数据来源广泛,数据格式更加多样,企业数据主要集中在文件系统、数据库和消息队列。此外,blog、Wiki、邮件和手机短信也成为企业数据的载体。如何把具有不同业务语义,格式不同的数据集成起来是一件具有挑战性的工作。对许多企业而言,由于不同用户提供的数据可能来自不同的数据源,数据内容、数据格式和质量千差万别,数据准确性、真实性和完整性都不同,实施数据共享和数据分析就需要对数据进行整理,有效的集成也是必要的。
|