www.T1soft.com

 

首页 | 关于我们 | 软件产品与服务 | 解决方案 | 技术理论基础 | 成功案例和科研成果 | 动态和评述 | 联系我们 | 留言簿 

  

 

河北省科技统计数据库构建及共享平台建设

者:胡宝民/李子彪/徐大海/鲍 红  摘自:《科技管理研究》

 

 

  摘要:科技数据是反映国家科技创新、经济增长、社会进步和国家安定的重要战略资源。然而, 目前科技数据统计口径、计算方法不一致,数据难以覆盖社会整个方面,数据共享还处于较低水平,科技数据难以有效地发挥其对决策的支撑作用。本文借2000年全国、全省进行全社会R&D资源清查契机,对全省如何科学有效收集数据,解决数据共享问题进行了研究,给出了河北省科技统计数据库及共享平台建设的理论和方案,并在河北省建设区域科技统计数据管理系统,最后对系统的运行状况进行了分析与评价。

  关键词:科技数据;共享平台; 系统;数据共享

  1 引言

  科技数据是反映国家科技创新、经济增长、社会进步 和国家安定的重要战略资源。科技统计是对科技活动状况的定量测定,是制定科技政策、编制科技发展规划和计划,实现科技管理科学化、现代化的重要基础之一,也是评价科技政策和计划实施效果的主要依据。随着社会经济的快速发展,政府管理部门对科技统计数据的准确性、时效性要求越来越高,政府和相关组织的决策过程也越来越依赖于具有国际可比性的系统、完整、准确和及时的科技数据、资料和相关信息。随着信息化的发展,经济社会对科技数据的要求也越来越高,科技数据也越来越趋向于统一的标准交流和共享。

  2 当前我国科技数据收集与共享存在的问题

  目前,随着我国信息化时代的发展,原来的科技统计 体制的不足也逐渐显现出来,一是从科技统计制度调整运行的组织上看,我国的科技统计调查分散在各个部门,各部门报表设计更多地侧重本部门的管理需要,各部门的指标设置、分类标准和计算方法还存在着比较多的差异。少部分可以综合的指标也存在统计口径和计算方法不一致等问题,影响到科技统计数据的国际可比性,制约着科技统计工作整体效能的发挥。二是从科技统计的对象及范围来看,我国国民经济生活中的科技活动单位越来越趋于多元化,统计数据对科技发展决策的支撑力越来越趋于多元化,原来的科技统计的条块分工已难以覆盖到社会的整个方面,从而使获得的科技统计数据与现实的差距越来越大,统计数据对科技发展决策的支撑能力越来越趋于弱化。三是随着我国宏观经济的发展,国家对科技统计数据的准确性和时效性要求越来越高,而现在的科技统计数据的分散和由于技术原因造成的数据发布时间滞后及数据共享程度低的问题,已严重地制约了科技统计数据效能的发挥。

  造成这些问题的原因在于:国家层次缺乏宏观管理与协同协调,政府对公益性科学数据共享的投入不足,没有形成完善的数据交换标准和强有力的共享服务技术支撑以及政策、法规体系的保障。

  针对以上问题,经国务院同意,2000年8月22 日开 始,科技部等7部委联合在全国启动了我国建国后规模最大的科技活动普查,即全国全社会R&D资源清查。我国将以此为契机,全面推进科技统计制度改革。河北省也以此为契机,全面推进科技统计制度改革,对河北省全社会R&D资源进行了清查,并整合了所有的R&D资源,建立了共享的数据库和技术平台,使河北省的科技统计制度与体制改革,从此进入一个新的阶段。

  为此,本文对区域科技统计数据共享与共享平台建设进行了分析研究,并以河北省为例,给出了河北省科技统计数据管理系统建设方案,并在后面分析了实施效果。

  3 区域科技统计数据共享与共享平台建设思路与 方案

  此项研究是以工程的理论和方法为根基, 针对科技统计工作中存在的各种问题和不足,以对科技统计业务流程的研究分析和再定义为基础,从完善统计工作制度及工作方案出发,利用先进的计算机技术和网络技术,通过构建完整的地方科技统计数据管理系统。从根本上解决区域统计工作中长期存在的指标不一、数据分散、共享程度低和数据利用缺乏效率的问题。区域科技统计工作整体技术方案如下图1:

 

  

  4 河北省科技统计数据共享与共享平台建设

  科技统计工作是一项政策性强、社会影响大的科技管理基础工作。为了解决在河北省科技统计工作中存在的上述三个问题,借2000年开始的河北省全社会R&D资源清查为契机,对河北省科技统计数据库建设与研究进行了深入的分析,提出了一套完整的技术解决方案:采用与国际接轨的科技统计指标体系,利用数据库技术和网络通信技术,通过制定和实施《河北省科技统计数据采集及质量控制方案》采用人工审核和计算机审核相结合以确保统计数据的准确性,并以此为基础构建了“河北省科技数据处理系统”,实现了异构数据库的整合,彻底解决了科技统计工作中数据分散问题,实现了各科技统计实施部门数据的整合和共享,提高了统计工作效率和统计数据的使用效益,在全国率先建立了省级区域科技统计数据管理系统。

  4.1 系统构建的前期工作。河北省以往的科技统计工作中

  原始数据的采集与国内其他省份的科技统计工作相似,缺乏一套完整、同一的数据标准和技术规范,忽视了网络环境下信息的集成和共享需要,造成数据库相互之间不能兼容,制约了许多宝贵信息资源的综合利用。此外,原始数据的收集过程中有相当一部分是由基层单位上报汇总而得到,其中难免有虚报现象的出现。这些含有“水分”的数据必然对日后进行科学研究和政策制定产生不良的影响。

  (1)建立和完善统计调查制度。建立和完善河北省科技统计的标准和管理制度是保证“河北省科技统计数据管理系统” 建设成功并达到既定目标的重要基础工作。为此,在原始数据采集工作中依据“科学”、“规范”的基本要求和出发点,采取了以下几方面措施:1)经过全面调查研究,建立并实施《河北省科技统计数据采集及质量控制方案》等科技统计管理制度,保证基础数据的准确性和规范性。制定和建立《河北省科学技术研究与发展计划项目执行情况调查制度》、《河北省科技专项凋查制度》等科技统计工作制度,2)制定符合国家要求的统汁口径,建立省级统计实施部门执行的科技统计工作制度,保证科技统计来源的完整性和“河北省科技统计数据管理系统“的科学性、权威性。3)通过摸底调查,对原来不能覆盖的统计调查单位进行增补,通过制定科学的实施方案,对部分指标进行整理和重新界定,结合河北省实际,建立了既符合国际规范,又具有实际操作性的河北省科技统计指标体系,保证了统计数据的完整性。

  (2)建立和完善数据控制制度。1)基础数据填报单位在对数据进行采集后,利用Intemet下载相应的数据录入软件进行数据的电子化,在数据上报时,由于各统计对象的实际条件不尽相同,为用户提供了多种方式的上报手段选择。各部门可以将数据导出生成电子文档通过磁盘或E-mail上报,也可以通过远程拨号服务(dial-up service)上报。除了Web网站上报形式外, 上报数据均以双循环嵌套的方式加密后保存和传输,保证了传输过程中的安全。2)数据上报完成后,在数据处理程序中建立各指标的对比和

逻辑关系,对各单位上报的数据进行校验和正确性审核,采用人工判断与计算机审核相结合,提高统计数据的正确性和准确性,保证进库数据的较高质量如下图2。

 

  4.2 构建科技统计数据管理系统。由于各统计实施部门的统计数据库结构存在一定的差异性,在全省科技统计数据管理系统的构建中,使用应用层的编程端口ADO,利用其方便灵活、访问数据效率高(相对于DAO和RDO等对象模型)、适合于各种客户机、服务器应用系统和基于Web的应用的特点,通过OLE DB提供的COM访问数据,并结合ActiveX等技术完成来自不同部门、不同结构的数据的采集,并充分利用MS SQL中的STORED PROCEDURE和VIEW,发挥DBS处理大批量数据快速高效的优势,针对不同部门对数据的不同要求对数据集中处理。同时应用数据挖掘的概念,通过MDDB(多维数据层)对数据进行汇总、多维分析、解析预测,产生各种分析图表,并与MS Office相结合,根据各部门需要产生多种格式的电子文档,为数据使用者提供多种数据形式选择。

  (1)系统构建原理。该系统以各数据(子)库为核心, 以SQL Server为数据平台,Delphi为软件开发环境,采用模块化设计思路,应用数据仓库的概念建立基本数据层、综合数据层、MDDB(多维数据层)、OLAP/OLAM。

  在OLAP/OLAM层应用联想、划分、聚类、预测、顺序模式,相似时间序列等数据挖掘方法,使用统计学、决策树,神经网络,模糊逻辑,线性规划等科学方法,进行数据转换、数据挖掘、数据解释和解析预测,产生各种分析图表,详细数据流程如上图3。

  (2)系统的支撑环境。该系统采用客户机、服务器(C/S)结构,系统服务器端以WindowsNT为操作系统,SQL Server为后台数据平台,客户端以Windows 9x或Windows XP系列为操作系统, 网络协议采用TCP/IP, 系统支撑结构环境如图4所示:

  (3)系统的基本业务流程。来自不同数据库的基础数据通过录入模块、经有效性检查,按照不同的统计指标提取相应的数据,经过加工和转换得到全省全部科技统计数据。这些统计数据既可以提供基于Web的不同用户的即时查询,还可针对全省各科技统计管理部门的管理要求,产生相应的统计分析报表、统计年鉴和统计数据集等。如下图5所示:

  (4)系统软件设计。该系统包括数据处理分系统、数据汇总分系统、系统设置分系统等,其中数据处理分系统的主要功能有:数据导入、数据导出、数据浏览、数据编辑等;数据汇总分系统的主要功能有:汇总生成、汇总输出、汇总数据查询、数据分析等;系统设置分系统的主要功能有:运行选项及权限设置等。

  (5)数据的安全保障与系统维护。针对共享数据的不同需要,遵照相关的安全保密制度,在不同层次采取多种安全措施,软硬结合,保证数据安全。采用网络防火墙加多层验证技术纺织对网站的非法攻击,保证系统网络平台的安全和网站的数据安全;采用多级用户权限管理制度,

  在符合安全保密制度的前提下。让不同的用户得到自己需要的信息;同时对数据库进行同域异地备份,在发生一定程度的以外情况时能够保证数据库的数据安全。

  (6)统计数据的发布与利用。科技统计数据收集和处理完成后,在保证省科技厅、省统计局、省教育厅等部门实现数据共享的基础上, 还通过一定渠道向全社会进行数据发布。同时,省科技厅还组织专家对统计数据进行深入研究与开发应用。

 

  4.3 系统中的关键技术处理。该系统为解决原有科技数据统计工作中存在的共享程度低、数据处理手段落后等主要问题和不足,采取必要的措施和技术手段,逐一加以解决,主要关键技术如下:

  (1)应用IDEFIX对来自部门、不同结构的数据进行分析、优化,确定各数据对象间的联系,建立实体联系图;应用OOP技术,对统计指标、汇总算法等对象进行优化、封装、简化复杂问题,降低开发难度;充分利用Stored Procedure和View,对基础数据进行预处理、筛选,减少冗余数据,降低数据复杂性。

  (2)以元数据为调度中心,对数据仓库与数据对象进行抽取、换换、装载(ETL)、数据挖掘。并对以多维形式组织起来的数据(数据立方体)采取切片(Slice)、切块(Dice)、旋转(Pivot)、向上综合(Roll Up)和向下钻取(Drill Down)等各种分析动作,从多角度、多侧面观察数据库中的数据。采用基于关系型数据表上的OLAP,即ROLAP方式,在主题中事实表关联多个二维关系表的星型结构之上模拟多维数据立方体,然后在数据立方体上实现OLAP操作。将各种OLAP操作请求通过一个ROLAP引擎动态翻译成SQL语句,在数据仓库中的综合数据表(事实表)中进行查询得到所需结果。

  5 系统实施初步效果与总结

  河北省科技统计数据管理系统于2000年11月建成,并开始在河北省科学技术厅、河北省统计局、河北省教育厅及全省科技统计相关单位应用。运行几年来,在河北省科技统计工作中取得了非常好的效果。

  (1)有效解决了河北省科技统计领域存在的指标不一、数据分散、共享程度低,数据利用效率低的问题,在全国率先实现了省级科技统计工作的网络化和电子化,为提高河北省科技管理工作水平提供了有力的技术保障。

  (2)利用数据管理系统提供的统计报表自动生成功能和分析功能,编辑出版了《河北省R&D清查资料汇编》、《河北省科技统计年鉴(2001、2002)}、《河北省科技系统统计数据集(2000、2001)》、和《河北省科学技术研究与发展计划项目执行情况统计调查报告(2001、2002)》等一系列统计资料。

  根据测算,河北省科技数据管理系统的建成,可使各出版物的编辑时间较以往缩短80% 以上,基层报表上报时间节省6o% 以上,数据分析利用周期节省时间50% 以上。

  (3)“科技统计数据管理系统”能提供基层填报单位的数据上传、数据审核、数据导人和数据汇总等,大大提高了科技统计工作效率。

  (4)数据的发布和利用是科技统计工作开展的最终目标,做好了统计数据的发布和利用工作,科技统计数据才能发挥出应有的社会效益,才能为科技进步和社会发展发挥应有的推动作用。“科技统计数据管理系统” 充分利用Intemet技术方便快捷的优势,提供了基于Web的数据浏览和查询,实现了全省科技统计数据的共享,通过制定不同级别的访问权限,为省内各高校、科研院所及社会公众提供所需的即时科技统计数据,使其在原始数据的采集及前期处理上节约了大量的人力、物力和财力,提高了为科技统计数据的利用效率,为河北省提高科学管理和科技决策水平提供了重要的基础条件。

 

 

  参考文献:

  [1]张维明,邓苏,汤大权.信息系统集成技术[M].北京:电子工业出版社.2002.23—33,165—166,219—221.

  [2]谢志峰,王立,孙静春.Web数据库通用访问方式在供应链管理中的应用[J].计算机集成制造系统—CIMs.2001,7(8):59—63.

  [3]席相霖,许书.VBAforProject2000库函数大全[M].北京:希望电子出版社.2002.

  [4]司有和.信息管理学[M].重庆:重庆出版社,2001.

  [5]黄鼎成,郭增艳.科学数据—共享管理研究[M].北京:中国科学技术出版社,2002.

  [6]施慧中.科学数据共享原则与政策措施初步研究[M].北京:中国科学技术出版社,2002.

  [7]徐冠华.构筑“数字地球”促进中国和全球的可持续发展 [J].科学新闻周刊,1999,(38):6—7.

  [8]Information Infrastructure Task Force(IrrF).The National Information Infrastructure:Agenda for Action [M].Washington D.C.,1993.

 

首页[1]末页

 

版权所有 ©2003 中国人民大学统计数据库研究室