科学与统计数据库英文缩写为SSDBMs: Scientific and
Statistical Data Bases Management system。
国家社会经济数据的主体是统计数据,企事业经营管理数据的主体是统计数据,科研教学单位科技信息的主体也是统计数据。统计数据在统计学中又被称为统计指标。从二十世纪八十年代末开始,本产品开发者中的许多人员便师从中国人民大学信息中心主任江昭教授追踪世界先进技术和理论进行科学统计数据库产品的开发和研制,取得了诸多阶段性的成果,培养了许多进行计算机和统计决策分析跨学科研究的工程学和经济学硕士,这个具有前瞻性的研究与后来的计算机数据库领域中的在线分析处理(OLAP:On-Line
Analysis Process)多维数据技术和数据仓库中的关键技术殊途同归,但是SSDB技术和OLAP技术的根本不同在于SSDB技术是从统计指标和统计表业务角度出发,面向最终业务用户;而OLAP技术则是从关系数据库逻辑表出发,面向数据库技术人员。
SSDBM技术的核心思想是:以统计指标和统计表的结构特征出发建立统计数据库系统和统计信息系统。
其中,统计指标具有质量统一性、历史性、大量广泛性、结构性和动态变化性等特点。
质量统一性:统计指标是质(指标名)和量(指标值)的统一,质和量缺一不可,许多现有的SSDBM系统在存储统计指标时,只存指标值,不存或部分存储指标名的方法是有很大问题的。指标名一般是字符型数据,是存储指标的依据,指标值是数值型数据,是数据加工处理的对象。SSDBM系统在存储两类不同性质的数据时,应该采用不同的存储技术,并应清楚地描述它们之间的联系。
历史性:统计数据是历史发展的积累,随着时间的推移,以往的历史数据不会失去存在的意义,而是进行数据分析、趋势预测的基础,因此在SSDBM系统中,新收集到的统计指标不能覆盖原有的数据,这和一般的事务型数据库系统有着明显的差异。
大量广泛性:统计指标所记录的对象可能横向涉及到各行各业的各种事物,而且由于人们信息处理手段的加强和提高,管理的范围在不断拓展,所以SSDB系统很难确定一个清晰的系统边界,这和一般的事务型数据库系统有着明显的差异。广泛性带来对系统模型抽象和概括的困难。
统计指标的纵向历史性和横向广泛性造成统计指标的大量性,这种数量规模是一般事务型数据库系统难以比拟的,所以国外一般将SSDBM系统研究归于大规模数据库系统(VLDB)的研究领域,大规模数据库系统的首要问题是数据的存取问题,许多SSDBM系统研究人员对此缺乏深刻的认识,而把系统开发的主要精投入在打印报表、输出图形、模型分析和决策支持等进一步需要解决的后续问题上;统计指标的大量性还在于统计指标是以倍增的方式增长数据的,而原始数据是以累加的方式增长数据的。比如北京市民表中增加了一个新市民“张三”, 那么数据库中仅增加几个数据,而统计指标中增加一个新的年份“2000年”,则 所有统计指标都增加一个。
结构性(多维性和层次性):针对单个统计指标分析,它具有结构多维性。即一个统计指标是由多个基本元素构成的。如统计指标“2000年北京市男性少数民族人口数XXX万人”,是由2000年、北京市、男性、少数民族、人口数、123、万人构成,我们称这些元素为指标元,缺少任何一个指标元,指标的含义就会变化或模糊;针对多个统计指标分析,它具有结构层次性。这种统计指标间的层次关系,也是由于指标元的层次关系造成的,如全国可分为省市,再可分为县市等指标元,工业可以分为轻重工业,轻工业又可分为纺织、食品等指标元。
动态变化性:历史性必然造成变化性和不规范性,统计所涉及的对象是随着历史的变化而变化的。这主要造成三个问题:统计指标的增减;核算同一事物使用的计量单位不同,造成统计指标的不可比,如用英尺、码等计算长度,后又用市尺和丈来计算,现在用公分和米来计算;统计口径的变化,造成统计指标的不可比,统计口径是指统计指标包含的范围,如原来海南省属于广东省,后独立建省等等。变化性和不规范性是计算机数据处理最棘手的问题。
其中,统计表是业务人员和管理人员处理统计数据的基本方式,但不应该是统计数据库系统的基本存储方式,统计表是动态的可生成的,以成千上万的统计表作为数据库系统存储模式,必然造成数据管理的复杂性、数据的冗余性、数据的不可查询性和历史性数据的不可比性。现在国内外众多的统计信息系统多是按照此种方法建立的,并作为中层管理信息系统的主体,但是,当统计表随着业务发生变化时,数据库结构必然发生变化,则应用程序必然要修改,实际上整个系统必须推翻并重新开发。
科学统计数据库从根本上解决了统计指标、统计表的采集、效验、存储、查询、分析等技术难题,用户可以根据直观的统计业务知识操作整个系统。