著名美国信息系统专家詹姆斯·马丁(James
Martin)在20世纪80年代中期就提出了计算机信息系统是以数据为中心的原理,写出了许多数据集成的理论和方法专著。其中《信息工程与总体数据规划》提出了“数据中心原理”,其主要原理是:
1)只要企业的性质和目标不变,它的数据类就是基本稳定的。
2)任何业务管理的瞬间,都是对这些数据类的数据输入(数据的增加、修改或删除等)和数据输出(数据的检索、打印或使用等)。
3)系统的开发应该面向数据,因为数据是稳定的。系统的开发不应该面向处理过程,因为对数据的加工处理过程是多变的。
他同时明确提出“数据环境”(Data
Environment)的概念,认为计算机信息系统应用有四类数据环境,反应了由低级到高级的发展过程。
第一类数据环境是数据文件(Data
Files)环境。是指早期用程序语言(比如COBOL)建立的数据存储结构,缺乏数据分析工作,一般是与应用程序密切相联。优点是应用开发见效快,缺点是随着应用的增多,冗余的、不一致的数据也会越来越多,从而形成了混乱的数据环境,系统维护和集成十分困难。
第二类数据环境是应用数据库(Application
Data Bases)环境。当数据库管理系统出现以后,数据存储结构的建立大大简化了,但是数据分析工作没有跟上,使用DBMS按用户视图“建库”,方便性带来了随意性,于是应验了“数据库风险”,可能更快地形成混乱的数据环境,系统维护和集成同样十分困难。
第三类数据环境是主题数据库(Subject
Data Bases)环境。经过科学的规划和设计,用DBMS建立具有共享性和一致性的、本来意义上的数据库,即“主题数据库”。以主题数据库为主的数据环境才是集成化的数据环境,在这种数据环境中才能开发和运行集成化的信息系统。
第四类数据环境是信息检索系统(Information
Retrieval Systems)。是指对一些主题数据库进行萃取和深加工,为高层查询和辅助决策准备的数据环境。
实际上,国内许多信息系统的开发基本上是在应用数据库的环境中转来转去,面临着集成化的困境,很大程度上是由于并不知晓或忽视了“数据环境”这个关键问题。