www.T1soft.com

 

首页 | 关于我们 | 软件产品与服务 | 解决方案 | 技术理论基础 | 成功案例和科研成果 | 动态和评述 | 联系我们 | 留言簿 

 

  

统计工作者眼中的数据仓库建设

朝阳区数据仓库系统建设的重点和难点

作者: 不详 摘自:《博客网

  

 

  摘要:

  “朝阳区社会经济综合数据仓库系统”是以数据仓库技术为基石,在分析型处理的基础上补充完善事务性处理能力,最终成为社会经济基础数据库的重要组成,成为社会经济发展的辅助决策系统。作为一项庞大而复杂的系统工程,在建设过程中必将面临不少的困难和问题。目前,数据仓库建设工作正处于前期调研的准备阶段。经过一段时间的工作,我们总结、归纳出了几个重点和难点问题,一方面为其他开展此项工作的同仁提供参考,另一方面为下一步的系统开发工作做好准备。

  

  北京市市委、市政府制定了迈向新世纪“新三步走”的战略目标,到2010年,北京将率先在全国基本实现现代化,构造起现代化国际城市的基本框架。朝阳区委、区政府根据中央及北京市的发展规划,制定了朝阳区 “十五”计划《纲要》,提出了加快农村城市化、城市现代化、区域国际化进程,把朝阳区建成北京商务中心区、高新技术转化区、科教文化发达区、富裕文明新城区的奋斗目标。信息化是衡量一个城市现代化水平和综合实力的重要标志, 是实现朝阳区“三化四区”发展目标的新动力和支撑点。朝阳区信息化的发展任务就是要建设“数字朝阳”,而电子政务数据中心则是“数字朝阳”的重要组成之一。数据中心是搭载各种电子政务应用系统,实现重点信息库如人口基础信息库、法人单位基础信息库、自然资源和空间地理基础信息库、宏观经济数据库、干部管理数据库等政务信息资源共享的基础软件平台。统计局作为掌握全区近70%信息资源的职能部门,组建宏观经济数据库责无旁贷。

  作为区县一级的统计机构,我们早在上世纪九十年代初就在日常工作中引入了计算机技术,从最早的8086系列微机到现在的奔腾Ⅳ代,从Dos操作系统到Win XP,历经了几代技术变革,我们的统计应用软件也从DBaseIII开始,经过Foxbase、FoxPro For Dos、FoxPro For Windows、Microsoft Visual FoxPro几代数据库产品。历史的变迁,使计算机的应用融入到统计工作的各个细节,但是我们却惊奇的发现,十多年来,我们传统的工作模式却没有得到变革,尤其是在网络技术飞速发展的今天,我们仍然处于一种数据没有得到整合,信息分散无法共享,资源开发还依赖于大量的手工编程,工作效率、信息应用质量还较为低下。

  如果要改变这种状态,就要将最新的技术引入到工作实践当中,彻底改变传统的工作模式。通过分析,我们认为有必要引入新型数据分析系统——数据仓库技术,通过它实现资源的整合,实现快速的分析、预测,实现信息的共享,使其成为统计人员进行深层次研究的工具,成为领导进行决策的助手,成为公众了解社会发展、经济发展的窗口。

  一项新技术的引入,并不象购买一件产品那么简单,在实施过程中还存在着许多困难,还有非常繁重的工作需要去完成,才能真正发挥它的作用,体现它的价值。

 

  在组织实施过程中,有三个重点问题要解决好。

  一、明确建立系统的目的和意义

  明确建立系统的目的和意义,是任何信息化项目不可回避的问题,数据仓库项目的建设,将投入大量的人力、物力、财力,必然会引起大家的议论,如果不能在思想上统一,也必然会引起工作上的矛盾,出现不配合的现象。所以,统一思想,明确目的和意义,是推动工作顺利开展的重要环节。我们认为应明确以下三点:

  一是数据仓库系统的建立,是对数据资源的整合,将分散于各专业的数据组合成一个整体,摸索出它们的规律和特点,搭建一个通用的数据管理平台,使历史数据成为有效的、可延续的、再利用的活档案,体现了对单位负责,对政府负责,对历史负责。

  二是数据仓库系统的建立,是要建立一套对数据进行深层次分析、对社会经济形势进行科学预测的工具,脱离原始的手工编程汇总这种低效率、低质量、不全面的分析预测模式,成为一个使数据能够得到充分应用的分析平台。

  三是数据仓库的建立,就是要提高统计服务的质量、扩大服务范围,成为专业人员依赖的工具,成为领导决策的助手,成为社会公众进一步了解社会的窗口。

  系统的开发决不是一两个人可以完成的,领导的重视固然重要,还需要有全部干部的支持,只有全部同仁都明确了系统应用的目的和意义,才能真正投入到这场统计事业的变革当中,成为改革的参与者,集中大家的智慧,共同完成这项重要的任务。

 

  二、合理地制定系统开发进度

  数据仓库系统是一个庞大而复杂的系统工程,它的实施、完善不是一朝一夕就可以完成的,一次性完成所有开发也是不现实的,所以在系统开发进程中,要遵循长远规划、分步实施的原则,合理地制定系统开发进度。项目实施分三年完成,我们也可以按此分为三个阶段。

  第一年要完成基础部分,如元数据库、维度数据库、数据导入功能、数据导出功能、汇总表管理功能、实时分析功能、OLAP数据展现功能、Web门户网站等,初现系统雏形。

  第二年除完善基础部分外,重点在完成其他系统需求功能,如报表设计功能、维度数据库变更管理功能、书籍管理功能、系统安全体系等,完成、完善系统的所有功能,形成一套完整的系统。

  第三年是完成主题的扩展、数据的全部导入,系统进入到正常运转阶段。

 

  三、解决好人力资源搭配的问题

  数据仓库项目的远景目标是令人神往的,但其实施过程中的艰巨性和繁杂性也是令人不能忽视的,要想使系统更具应用性,必须在系统开发过程中合理地解决人力资源搭配的问题。

  首先是单位领导层组成工作领导小组,并明确具体牵头领导,便于协调人力、物力、财力,监督、监控项目实施全过程。如果缺少必要的组织、协调、沟通,就会为工作进展带来许多不便利的地方,延缓工作进度。

  其次是建立工作小组,由计算机技术人员与统计专业人员共同组成,负责需求调研、项目招标、系统测试、应用培训等具体工作的实施。任何一项信息化建设都不能单靠某一类人员,尤其是在最为关键的需求调研阶段,需要技术与专业人员的密切配合。专业人员是最终的使用者,没有他们的参与,在推广应用阶段会造成很多阻力,甚至会使系统流产;技术人员起着启发需求并将需求转化为计算机模式的作用。

  第三个方面是在系统正式应用前期需要投入大量的人力,尤其是专业人员进行数据资料的整理、清洗、筛选工作,因为只有他们才更了解历史数据的实际情况,所以这方面的人力调配也是必不可少的。

  在系统开发过程中,要着重解决四个难点问题。

  一、系统需求调研是系统的根基

  系统开发所面临的最大难点是系统需求的确定。系统需求调研,就是“理论与实践相结合”,这是任何一个信息化项目的第一阶段工作,也是整个系统的根基。一个再先进、再成熟的技术,都不是拿来就可以顺畅地使用的,必须要与实际工作相结合,才能真正发挥它的技术优势。

  在需求调研过程中,最忌讳出现“一头沉”的现象。技术人员要与业务人员积极配合,摸索、浓缩、优化业务需求中的规律,找到技术与业务的最佳结合点,最终形成一个通用性、扩展性具佳的系统平台。同时,要注重系统的前瞻性。系统开发不能仅满足当前的业务需求,技术人员有责任提醒业务人员,启发业务需求,力争改革工作模式、优化工作流程、开拓新的服务。

  就数据仓库技术与统计业务需求而言,重点要掌握好事务型处理与分析型处理的结合。数据仓库技术重点是在分析型处理,而统计工作注重的是“快”,尤其是在当期数据分析过程中,往往还会带来数据的不稳定性,这也与数据仓库技术原理相背离。所以在系统设计时,要兼顾数据变动、实时汇总等事务型处理。

  二、维度管理最具“特色”,报表设计要符合需要

  从数据仓库技术原理上来讲,维度是元数据库的重要组成部分,维度元数据是相对稳定的,各类数据源要依据以统一、规范的元数据库为标准进行整理。但我国目前仍处于快速发展阶段,社会变革、经济发展都将使我们的元数据成为系统的“暗礁”,如行政区划的变动、行业分类的增减等等,使元数据经常性地更新变动,这是不可回避的难点问题。所以在系统设计时,要充分考虑到元数据的变动性,合理地解决元数据变更这个难题。

  报表展现、图表展现是数据仓库技术中OLAP技术的主要功能,但其提供的报表样式与我国较为复杂的统计报表要求不符。在统计系统的报表设计方面,由于其是专业统计部门,所以报表样式种类多、样式复杂,而且在同一报表中可能会出现两种以上的子表,而且样式不同。针对这种情况,首先是要对报表进行合理的拆分,重新整合成数据仓库中的“电子报表”,其次就是在技术上完善报表设计功能,使它符合应用者的工作习惯、查阅习惯,实现需求与技术的结合。

  三、操作性能是系统推广应用的动力

  系统面向的用户是专业人员、是政府领导层,更有广大的社会公众,他们所见到的、所应用的只是门户网站上的信息。数据仓库的重要特性之一就是查询的简便、快速,而大量的管理工作、数据准备工作却是要业务人员在后台去完成。就象一件商品,消费者只要购买成品就可以使用了,而加工的过程是不会去理会的。所以,系统的真正推广在于数据的丰富性,而这种丰富性是由专业人员大量的工作而形成,真正的应用者是我们的专业人员。

  由此可见,系统的操作性能将是系统推广应用的主要动力。从现有的专业人员计算机应用水平来看,整体能力不高,如果操作复杂,必会带来消极因素,影响到整个系统的应用。这也是在以往信息化项目建设过程中出现的问题。

  数据仓库系统的建设,从时间上来讲,要注重系统的生命力,从范围上来考虑,将本着以统计为基础,进而扩大到整个政府信息资源的整合,因此必然要注重系统的扩展性、通用性、灵活性。

  系统的通用性、灵活性、扩展性,肯定要牺牲操作步骤的简化,增加系统管理的复杂程度;而操作步骤的简化,肯定要牺牲系统的灵活性,而且也可能会增加系统管理的复杂程度。所以,一方面我们要找到最佳结合点,另一方面就是要提高操作性能,通过简捷友好的对话界面、灵活多样的操作模式使操作性能变得简单明了,进而化解因操作步骤增加带来的不良影响。

  四、系统的安全性

  数据仓库系统的安全性在整个系统的建设中是至关重要的环节。忽略了安全性就如同人忽略了人身安全一样,生命本身在没有安全保证的情况下,再完美无缺又有什么意义呢。

  数据仓库系统安全分为两部分进行考虑,一方面是网络安全性,一方面是基于主机的安全性。这两个方面在实现过程中都存在着一些难点。

  在基于主机的安全性方面,系统应该具有较强的系统热备份机制和异地灾难恢复能力,保护计算机硬件、软件和数据不因偶然或恶意的原因而遭到破坏、更改和泄露,尽可能地降低系统故障修复时间。

  网络安全方面,如何实现防火墙、入侵检测系统和风险审计三者的优化整合也是一个难点。因为系统安全与系统性能是一对矛盾。为健全和弥补系统的缺陷和漏洞,要采取多种技术手段和管理措施,这样势必会给系统的运行和用户的使用带来不便。所以,系统的安全性应该是在确保系统的安全的基础上,减少处理的运算量和存储量,不影响系统的正常运行和合法用户的操作活动,因此这二者之间必须有一个好的契合。

 

首页[1]末页

 

版权所有 ©2003 中国人民大学统计数据库研究室