A. 数据库发展历史是什么
数据库对于普通人来讲
就可以简单理解为有固定格式的数据集合,回
专门为解决某一类数据保存和计答算问题而存在的,
就像单位用的各种各样的报表和单据,
只不过软件会帮你保存管理这些单据和报表在计算机上,
帮你计算求和等等操作 生成你想要的各种数据报告。
利用数据库软件和计算机的高速运算特性,
可以大大提高工作效率和正确性。
减少工作时间成本和人力成本。
没有他们也可以,但是你不得不用手工的办法处理数据,
不管数据量多少都一样。
B. 大数据系统能取代实时历史数据库吗
大数据等煤炭、石油等能源资源一样,是国家基础性和战略性资源,也是信息社会极为重内要先进生产力。国家容大数据战略的发布和实施,开启了我国大数据产业发展新篇章,近两年来,我国大数据产业生态体系不断完善,管理服务应用创新层出不穷,新服务、新模式、新业态不断涌现,为推进产业转型升级、创新社会治理模式、优化民生保障服务提供了重要保障,加速了数字中国建设,成为中国经济社会创新发展的重要驱动力。加快推进大数据在经济社会各领域创新应用,促进产业创新、管理创新、服务创新和治理创新,已经成为落实创新、协调、绿色、开放、共享五大发展理念重要抓手,成为推动中国经济社会创新发展重要途径,成为推动数字中国建设的重要抓手。
C. 学校有哪些数据库是关于本专业的
本科阶段没有数据库专业。按教育部的文件,本科阶段计算机专业只有一个就是计算机科学与技术专业,不过许多的学校会叫不同的名字。另外现在而言又多了软件专业,这个专业的偏向性比较强一些。再说一些计算机的研究生阶段又分了四个方向。具体就不说那四个了。
你说的那些大学,基本上所有的大学都这样啊,还是上面说的由于历史的问题有一些大学会不叫那个名字。
本科所用的大学都会将数据库作为必修课来学的,学好数据库就业肯定不是问题,许多的方面都需要数据库的人才,许多的软件没有数据库是不可以的。因此就业不用太愁。建议学好编程和数据库那更基本上没什么问题。
另外还有一些建议就是你不管在那个大学,那个专业,在大学期间尽量干一些实事,就是比较实际的事情,不要老搞虚的东西,做点项目啦或者自己开发点东西。
D. 历史学有哪些常用的网站/数据库
1. IBM 的DB2作为关系数据库领域的开拓者和领航人,IBM在1977年完成了System R系统的原型,1980年开始提供内集成的数据库服务器—容— System/38,随后是SQL/DSforVSE和VM,其初始版本与SystemR研究原型密切相关。
E. 数据库的发展简史
使用计算机后,随着数据处理量的增长,产生了数据管理技术。数据管理技术的发展与计算机硬件(主要是外部存储器)系统软件及计算机应用的范围有着密切的联系。数据管理技术的发展经历了以下四个阶段:人工管理阶段、文件系统阶段、数据库阶段和高级数据库技术阶段。
数据管理的诞生
数据库的历史可以追溯到五十年前,那时的数据管理非常简单。通过大量的分类、比较和表格绘制的机器运行数百万穿孔卡片来进行数据的处理,其运行结果在纸上打印出来或者制成新的穿孔卡片。而数据管理就是对所有这些穿孔卡片进行物理的储存和处理。然而,1950 年雷明顿兰德公司(Remington Rand Inc)的一种叫做Univac I 的计算机推出了一种一秒钟可以输入数百条记录的磁带驱动器,从而引发了数据管理的革命。1956 年IBM生产出第一个磁盘驱动器—— the Model 305 RAMAC。此驱动器有50 个盘片,每个盘片直径是2 英尺,可以储存5MB的数据。使用磁盘最大的好处是可以随机存取数据,而穿孔卡片和磁带只能顺序存取数据。
1951: Univac系统使用磁带和穿孔卡片作为数据存储。
数据库系统的萌芽出现于二十世纪60 年代。当时计算机开始广泛地应用于数据管理,对数据的共享提出了越来越高的要求。传统的文件系统已经不能满足人们的需要,能够统一管理和共享数据的数据库管理系统(DBMS)应运而生。数据模型是数据库系统的核心和基础,各种DBMS软件都是基于某种数据模型的。所以通常也按照数据模型的特点将传统数据库系统分成网状数据库、层次数据库和关系数据库三类。
最早出现的网状DBMS,是美国通用电气公司Bachman等人在1961年开发的IDS(Integrated Data Store)。1964年通用电气公司(General ElectricCo.)的Charles Bachman 成功地开发出世界上第一个网状DBMS也即第一个数据库管理系统——集成数据存储(Integrated Data Store IDS),奠定了网状数据库的基础,并在当时得到了广泛的发行和应用。IDS 具有数据模式和日志的特征,但它只能在GE主机上运行,并且数据库只有一个文件,数据库所有的表必须通过手工编码生成。之后,通用电气公司一个客户——BF Goodrich Chemical 公司最终不得不重写了整个系统,并将重写后的系统命名为集成数据管理系统(IDMS)。
网状数据库模型对于层次和非层次结构的事物都能比较自然的模拟,在关系数据库出现之前网状DBMS要比层次DBMS用得普遍。在数据库发展史上,网状数据库占有重要地位。
层次型DBMS是紧随网络型数据库而出现的,最著名最典型的层次数据库系统是IBM 公司在1968 年开发的IMS(Information Management System),一种适合其主机的层次数据库。这是IBM公司研制的最早的大型数据库系统程序产品。从60年代末产生起,如今已经发展到IMSV6,提供群集、N路数据共享、消息队列共享等先进特性的支持。这个具有30年历史的数据库产品在如今的WWW应用连接、商务智能应用中扮演着新的角色。
1973年Cullinane公司(也就是后来的Cullinet软件公司),开始出售Goodrich公司的IDMS改进版本,并且逐渐成为当时世界上最大的软件公司。 网状数据库和层次数据库已经很好地解决了数据的集中和共享问题,但是在数据独立性和抽象级别上仍有很大欠缺。用户在对这两种数据库进行存取时,仍然需要明确数据的存储结构,指出存取路径。而后来出现的关系数据库较好地解决了这些问题。
1970年,IBM的研究员E.F.Codd博士在刊物《Communication of the ACM》上发表了一篇名为“A Relational Model of Data for Large Shared Data Banks”的论文,提出了关系模型的概念,奠定了关系模型的理论基础。尽管之前在1968年Childs已经提出了面向集合的模型,然而这篇论文被普遍认为是数据库系统历史上具有划时代意义的里程碑。Codd的心愿是为数据库建立一个优美的数据模型。后来Codd又陆续发表多篇文章,论述了范式理论和衡量关系系统的12条标准,用数学理论奠定了关系数据库的基础。关系模型有严格的数学基础,抽象级别比较高,而且简单清晰,便于理解和使用。但是当时也有人认为关系模型是理想化的数据模型,用来实现DBMS是不现实的,尤其担心关系数据库的性能难以接受,更有人视其为当时正在进行中的网状数据库规范化工作的严重威胁。为了促进对问题的理解,1974年ACM牵头组织了一次研讨会,会上开展了一场分别以Codd和Bachman为首的支持和反对关系数据库两派之间的辩论。这次著名的辩论推动了关系数据库的发展,使其最终成为现代数据库产品的主流。
1969年Edgar F.“Ted” Codd发明了关系数据库。
1970年关系模型建立之后,IBM公司在San Jose实验室增加了更多的研究人员研究这个项目,这个项目就是著名的System R。其目标是论证一个全功能关系DBMS的可行性。该项目结束于1979年,完成了第一个实现SQL的 DBMS。然而IBM对IMS的承诺阻止了System R的投产,一直到1980年System R才作为一个产品正式推向市场。IBM产品化步伐缓慢的三个原因:IBM重视信誉,重视质量,尽量减少故障;IBM是个大公司,官僚体系庞大,IBM内部已经有层次数据库产品,相关人员不积极,甚至反对。
然而同时,1973年加州大学伯克利分校的Michael Stonebraker和Eugene Wong利用System R已发布的信息开始开发自己的关系数据库系统Ingres。他们开发的Ingres项目最后由Oracle公司、Ingres公司以及硅谷的其他厂商所商品化。后来,System R和Ingres系统双双获得ACM的1988年“软件系统奖”。
1976年霍尼韦尔公司(Honeywell)开发了第一个商用关系数据库系统——Multics Relational Data Store。关系型数据库系统以关系代数为坚实的理论基础,经过几十年的发展和实际应用,技术越来越成熟和完善。其代表产品有Oracle、IBM公司的 DB2、微软公司的MS SQL Server以及Informix、ADABAS D等等。 1974年IBM的Ray Boyce和Don Chamberlin将Codd关系数据库的12条准则的数学定义以简单的关键字语法表现出来,里程碑式地提出了SQL(Structured Query Language)语言。SQL语言的功能包括查询、操纵、定义和控制,是一个综合的、通用的关系数据库语言,同时又是一种高度非过程化的语言,只要求用户指出做什么而不需要指出怎么做。SQL集成实现了数据库生命周期中的全部操作。SQL提供了与关系数据库进行交互的方法,它可以与标准的编程语言一起工作。自产生之日起,SQL语言便成了检验关系数据库的试金石,而SQL语言标准的每一次变更都指导着关系数据库产品的发展方向。然而,直到二十世纪七十年代中期,关系理论才通过SQL在商业数据库Oracle和DB2中使用。
1986年,ANSI把SQL作为关系数据库语言的美国标准,同年公布了标准SQL文本。SQL标准有3个版本。基本SQL定义是ANSⅨ3135-89,“Database Language - SQL with Integrity Enhancement”[ANS89],一般叫做SQL-89。SQL-89定义了模式定义、数据操作和事务处理。SQL- 89和随后的ANSⅨ3168-1989,“Database Language-Embedded SQL”构成了第一代SQL标准。ANSⅨ3135-1992[ANS92]描述了一种增强功能的SQL,叫做SQL-92标准。SQL-92包括模式操作,动态创建和SQL语句动态执行、网络环境支持等增强特性。在完成SQL-92标准后,ANSI和ISO即开始合作开发SQL3标准。SQL3的主要特点在于抽象数据类型的支持,为新一代对象关系数据库提供了标准。
1976年IBM E.F.Codd发表了一篇里程碑的论文“R系统:数据库关系理论”,介绍了关系数据库理论和查询语言SQL。Oracle的创始人Ellison非常仔细地阅读了这篇文章,被其内容震惊,这是第一次有人用全面一致的方案管理数据信息。作者E.F.Codd 1966年就发表了关系数据库理论,并在IBM研究机构开发原型,这个项目就是R系统,存取数据表的语言就是SQL。Ellison看完后,敏锐意识到在这个研究基础上可以开发商用软件系统。而当时大多数人认为关系数据库不会有商业价值。Ellison认为这是他们的机会:他们决定开发通用商用数据库系统Oracle,这个名字来源于他们曾给中央情报局做过的项目名。几个月后,他们就开发了Oracle 1.0。但这只不过是个玩具,除了完成简单关系查询不能做任何事情,他们花相当长的时间才使Oracle变得可用,维持公司运转主要靠承接一些数据库管理项目和做顾问咨询工作。而IBM却没有计划开发,为什么蓝色巨人放弃了这个价值上百亿的产品,原因有很多:IBM的研究人员大多是学术出身,他们最感兴趣的是理论,而非推向市场的产品,从学术上看,研究成果应公开发表论文和演讲能使他们成名,为什么不呢?还有一个很主要的原因就是IBM当时有一个销售得还不错的层次数据库产品IMS。直到1985年IBM才发布了关系数据库DB2 ,Ellision那时已经成了千万富翁。Ellison曾将IBM 选择Microsoft 的MS-DOS作为IBM-PC机的操作系统比为:“世界企业经营历史上最严重的错误,价值超过了上千亿美元。”IBM发表R系统论文,而且没有很快推出关系数据库产品的错误可能仅仅次之。Oracle的市值在1996年就达到了280亿美元。 随着信息技术和市场的发展,人们发现关系型数据库系统虽然技术很成熟,但其局限性也是显而易见的:它能很好地处理所谓的“表格型数据”,却对技术界出现的越来越多的复杂类型的数据无能为力。九十年代以后,技术界一直在研究和寻求新型数据库系统。但在什么是新型数据库系统的发展方向的问题上,产业界一度是相当困惑的。受当时技术风潮的影响,在相当一段时间内,人们把大量的精力花在研究“面向对象的数据库系统(object oriented database)”或简称“OO数据库系统”。值得一提的是,美国Stonebraker教授提出的面向对象的关系型数据库理论曾一度受到产业界的青睐。而Stonebraker本人也在当时被Informix花大价钱聘为技术总负责人。
然而,数年的发展表明,面向对象的关系型数据库系统产品的市场发展的情况并不理想。理论上的完美性并没有带来市场的热烈反应。其不成功的主要原因在于,这种数据库产品的主要设计思想是企图用新型数据库系统来取代现有的数据库系统。这对许多已经运用数据库系统多年并积累了大量工作数据的客户,尤其是大客户来说,是无法承受新旧数据间的转换而带来的巨大工作量及巨额开支的。另外,面向对象的关系型数据库系统使查询语言变得极其复杂,从而使得无论是数据库的开发商家还是应用客户都视其复杂的应用技术为畏途。 二十世纪六十年代后期出现了一种新型数据库软件:决策支持系统(DSS),其目的是让管理者在决策过程中更有效地利用数据信息。于是在1970年,第一个联机分析处理工具——Express诞生了。其他决策支持系统紧随其后,许多是由公司的IT部门开发出来的。
1985年,第一个商务智能系统(business intelligence)由Metaphor计算机系统有限公司为Procter & Gamble公司开发出来,主要是用来连接销售信息和零售的扫描仪数据。同年, Pilot软件公司开始出售第一个商用客户/服务器执行信息系统——Command Center。同样在这年,加州大学伯克利分校Ingres项目演变成Postgres,其目标是开发出一个面向对象的数据库。此后一年, Graphael公司开发了第一个商用的对象数据库系统—Gbase。
1988年,IBM公司的研究者Barry Devlin和Paul Murphy发明了一个新的术语—信息仓库,之后,IT的厂商开始构建实验性的数据仓库。1991年,W.H. Bill Inmon出版了一本“如何构建数据仓库”的书,使得数据仓库真正开始应用。
1991: W.H.“Bill” Inmon发表了”构建数据仓库”
二十世纪九十年代,随着基于PC的客户/服务器计算模式和企业软件包的广泛采用,数据管理的变革基本完成。数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。Internet的异军突起以及XML语言的出现,给数据库系统的发展开辟了一片新的天地。
F. 中国党史有哪些数据库
中国共产党新闻网党史专栏。
中国共产党历史网(党史权威数据库)
马克思主义研究网的(中共党史与党建栏目)(中国近现代史栏目)
求是理论网(党史党建专题)
中国社会科学院
党建网
中共中央党校
G. 档案学有哪些数据库
【编者按】:档案学就是探索档案、档案工作和档案事业的发展规律,研究档案信息资源的管理、开发的理论、原则与方法的学科。精品学习网档案学栏目为您提供档案学范文参考,以及档案学写作指导和格式排版要求,解决您在写作中的难题。
浅谈数据库在档案管理中的应用
[摘要]本文分析了数据库在档案管理中应用的现状与不足,讨论了利用数据库技术对档案进行管理的实现和应用,提出了有建设性的对策和建议,提出了自己的思考。
[关键词]数据库 档案管理 应用
信息化是当今世界发展的大趋势,是推动经济社会发展和变革的重要力量。随着我国各单位业务的急速发展,单纯的手工记录方式已无法及时有效地对档案材料进行收集、整理、立卷、归档和管理。而计算机技术在近十年来的迅猛发展,使得各单位利用计算机对档案进行辅助管理成为可能。档案信息化是在档案管理中全面应用现代信息技术,对档案信息资源进行开发、管理和提供利用等服务,主要包括档案资源数字化和网络化、档案信息管理和利用提供的一体化、档案信息的高度共享等。
《全国档案信息化建设实施纲要》规定了我国近期档案工作发展目标,《国家信息化发展战略(2006年—2020年)》的审议通过,为档案信息化提供了有力保障。计算机的介入打破了传统的管理模式,使得原本松散、庞杂的档案管理迈入了集中统一、信息自动化的新领域。虽然,利用计算机辅助管理档案能大量减轻管理工作的强度、提高管理工作的效率,并能减少管理工作的失误,但是由于计算机技术,尤其是数据库的发展是一个逐步开发、完善的过程,同时使用该技术的工作人员也有逐步学习、应用的阶段,因此计算机辅助管理各单位档案中也存在着不少需要解决的问题。
一、数据库在档案管理中应用的现状与不足
随着各单位业务的不断扩大,传统的手工管理档案的方法,已经不能适应成倍膨胀的档案数量,也无法满足社会对档案的巨大利用需求,利用档案管理软件进行计算机管理是提高各单位档案服务水平的必由之路。将手工管理的纸质档案转换为数字信息进入网络,即从档案的实态转换到虚拟态,档案信息与载体分离,在这个意义上说网络传递的仅是档案信息,用户得到的仅是复制品,而非档案原件。使用数据库计算机辅助管理档案不同于以往对纸质文档进行收集、整理、立卷、归档、管理等工作,管理人员除了需要具备档案管理业务素质外,还需要对计算机及数据库应用具备一定的认识。有相当多的档案管理工作人员知识结构老化,缺乏计算机技术知识,不能准确、规范地录入基本信息,导致基本信息错误、缺失甚至张冠李戴。与此同时,由于一些档案管理软件在建立时仅考虑当时的数据量和用户需求,数据库结构中只有比较有限的几个数据字段,数据库容量较小,不能导出通用格式的数据。当数据量成倍增加,数据库运行的速度就相应减慢,使工作效率被迫降低。
二、数据库在档案管理中的应用建议
要全面提升档案数据库系统的安全水平是个艰难的过程,涉及方面很多,需要管理部门投入人量的人力物力。有些方面,例如,设备的可靠性,火灾预防等方面,主要涉及投入力度的问题:防止人为的有意识破坏方面,如泄密监取密码口令、计算机病毒、黑客等,主要依靠管理制度和计算机安全专项技术。但在数据库的一致性、完整性问题上,档案管理部门自身起着决定性作用。主要应关注以下几点:
1.采用科学的数据库开发方式
早期使用结构化方法开发的档案管理软件,其稳定性、可修改性和可重用性都比较差,用户需求的变化往往造成系统结构的较大变化,并且需要花费很大代价才能实现这种变化。新的档案管理软件可采用面向对象的程序设计方法,商定一种或多种数据转换方式,以便数据能够在不同软件之间实现信息共享。考虑到信息网络化的需要,档案管理软件可具备通过网页进行数据查询、交换的功能。同时还应考虑数据量增加的速度和数据库技术发展的趋势,以便今后对数据库进行升级或更新换代。对于管理条例的各种文件可采用数码照相或者文本方式进行保存整理,通过公文类程序或网页进行交换及查询。
2.确保档案的保密性和安全性
单位档案的保密性和安全性是十分令人关注的问题。档案一旦进入计算机网络系统,网络的安全将直接关系到档案的保密性。对于计算机网络与电子文件所存在的技术上的弱点只能靠技术上的发展去解决。作为计算机网络的使用者,电子文件的形成者和保管者都有责任关注信息技术的最新发展,也有责任采用诸如防火墙、密码技术、网关、虚拟保险箱、电子印章、电子水印等最先进信息技术解决上述问题。同时通过建立符合科研档案技术发展规律的各种工作规范来保障电子文件的安全。只要工作规范,技术到位,这一科研档案工作的主要障碍是完全可以解决与克服的。
加强网络监控,及时备份数据。网络中存在的安全性问题是对档案管理系统安全性最大的威胁。目前有多种网络安全策略,各种安全策略必须相互配合才能真正起到保护作用,其中网络的访问控制可以说是保证网络安全最重要的核心策略,它的主要任务是保证网络资源不被非法使用和访问,它也是维护网络系统安全、保护网络资源的重要手段。另外,要注意建立计算机检索查询和提供档案信息的主要服务方式,为使用者提供网状信息组织结构,使用户可以根据自己的意志沿着信息之间的关系链进行浏览,而不是按照规定途径进行检索和查询档案信息。
3.关注计算机病毒的新变化
当档案信息系统扩展到局域网甚至互联网时,计算机病毒成为不可回避的危害,而且新型病毒具有许多网络时代的新特征,例如,病毒传播主要通过网络途径扩散,病毒与计算机入侵关系密切,Windows操作系统的网络功能是常见的攻击点,等等,档案工作者应当时刻注意新的技术变化,制定针对性策略,并从管理制度、技术监督、后备保护、应急措施等多方面综合防范。
4.加强法制建设
保障档案信息安全单纯依靠档案管理部门自身的努力是不够的,还需要有相关法律、规章制度的约束。因此,档案信息安全与其它社会问题一样,是一个复杂的综合性较强的问题,各个环节必须紧密衔接才能发挥作用。立法在保障档案信息安全性中的作用是不言而喻的,缺乏法律支持的信息安全保障是纸上谈兵。我国已将信息安全列入国家信息化发展战略,辽宁省早在1998年就通过了《辽宁省计算机信息系统安全管理条例)),这些都将在档案信息安全保障中发挥重要作用,但随着新问题的出现还需要更完善的、更专业的法律、法规出台。
参考文献:
[1]张姝,韩振英.计算机在学籍档案管理中的应用[J].洛阳工业高等专科学校学报,1998,(4).
[2]刘淑芬.计算机网络技术与学校档案管理[J].学校档案,1999,(1):23-25.
[3]徐志敏.计算机技术对档案工作的影响[J].办公室业务,2000,(3):32-33.
档案数据库建设中存在的问题及解决思路
钱毅
摘要:档案数据库是档案信息资源管理的核心工具,目前我国档案数据库的建设和利用状况还存在不少问题。作者首先解析了档案数据库的概念,指出应当从档案业务需求的角度去考察数据库的功能,并分析了档案实践的发展导致了档案数据库内容变化的几大因素。在档案建设过程中存在的问题包括缺乏有效统筹规划、数据库定位不准确、标准规范缺失、数据质量不高等。要解决这些问题,作者提出应当加强档案数据库规划管理、完善标准规范、建立健全质量控制体系、培养人才队伍等措施。
关键词:档案数据库 概念 问题 思路
数据库技术是20世纪60年代末发展起来的一门信息管理技术,是公认的信息资源开发、管理和服务的核心手段。目前数据库的建设规模、信息量大小和使用频率已经成为衡量一个国家信息化水平和综合国力的重要尺度。在我国国家和地方各级的档案信息化规划中,档案数据库作为档案信息资源管理的核心工具也都得到了广泛的重视。但档案界一直存在着如何盘活档案资源、提高利用效率等问题。应该说,拥有先进的数据组织技术和灵活可靠管理手段的数据库技术理论上可以从容面对这些挑战,为档案信息化搭建一个坚实的平台。事实上几乎所有的档案信息管理系统的中心都由档案数据库来担当,无论其形式是档案辅助管理系统还是所谓的数字档案馆。但档案数据库的建设和利用状况仍然不容乐观,还存在着数据结构封闭、数据质量不高,档案信息资源尚未完全走出信息孤岛的状态。笔者拟从对档案数据库的概念、档案数据库的应用现状及建设思路几个方面来分析这些问题。
一、档案数据库概念解析
档案数据库的建设在我国已经有20余年的历史,但其理论发展却并不充分。笔者通过期刊网(www.cnki.net)进行查阅,在1994~2005年间查询到篇名中包含“档案数据库”的文章仅有28篇①,内容多局限在实际工作总结的层次上,对档案数据库的概念描述和理论挖掘相对较少。
通过文献调研,笔者发现早在1987年孙淑扬就指出“档案数据库属于文献数据库,是档案自动化的重要内容,它是经过整理组织以机读形式出现的档案信息集合。②”洪漪编著的《档案信息组织与检索》中认为“机读档案数据库,简称档案数据库,是以一定的组织方式存储在一起的机读档案数据的集合。这些数据包括档案题名、责任者、来源、页码、分类号、主题词、摘要等,少数包含档案全文。③”杨公之主编的《档案信息化建设实务》一书认为“档案数据库,从广义的角度讲,就是以特定方式组织起来的档案数据集合。具体地讲,就是为了满足多个用户多种应用需要,按照一定的数据模型将本单位所保管的档案信息存贮在计算机中以备使用的数据形式。④”
笔者无意为档案数据库给出一个确切的定义,因为作为支撑点的“档案”与“数据库”在实际应用中本身就是发散性很强的概念,而且还在不断发展变化之中,上述定义都符合其各自特定的信息背景,以致档案数据库在不同阶段的发展中出现了许多称谓,如机读目录数据库、索引数据库,照片档案数据库、全文数据库、多媒体档案数据库等等。因此研究档案数据库,需要综合把握数据库和档案实践的发展,获得对档案数据库的相对完整的认识。
在研究数据库时,除了掌握其先进的管理手段和操作方法外,更重要的是要立足档案信息资源的特点,按照需求引导的原则关注数据库中可以“为我所用”的部分,而不能片面追求数据库功能而忽视基本的档案需求。比如为了描述日益丰富的档案数据类型,我们要求数据库具有完备的数据类型能够表达音频、视频、全文等信息类型;为了加强档案数据质量控制,需要重点关注数据库的完整性管理机制;为了保证档案数据的安全,需要灵活应用数据库的视图功能、权限管理以及加密机制等。此外,数据库提供的共享交换、格式转换、数据仓库等核心功能可以为档案数据库提升管理水平和管理层次都提供技术保障。
同时,我们还要关注档案实践活动的变化,关注这些变化可能对档案数据库带来的影响。笔者认为影响档案数据库内容的主要因素有如下三个方面。
1.档案实体管理。在近年的档案管理活动中出现了许多新情况,比如2000年出台的《归档文件整理规则》允许在文书档案实体管理活动中取消“卷”的概念,这直接影响到档案数据库是否还需要“卷”这一级逻辑层次,从而影响相关表的数据结构。信息记录技术的发展引进了许多新型载体,目前纸张、照片、胶片、缩微胶片、硬盘、软盘、磁带、各类光盘、图纸等共存一室并不鲜见,不同类型的载体需要有不同的数据表来进行管理,档案信息化规划中还要求将这些载体的信息通过各种方式数字化后进入计算机系统,这也极大地丰富了档案数据库的内容。此外,在档案信息利用环节,用户全文和多媒体信息检索需求也会促进档案数据库的数据类型的拓展。
2.档案数据库设计活动。在多数情况下,档案数据库系统并不只是纯粹档案数据的集合,还包括档案管理活动中的其他信息,这些信息可以在数据库设计过程中被纳入管理。比如,在使用数据流图等工具进行数据库需求分析的时候,可以将许多业务流程方面的管理信息纳入数据字典;数据库的概念设计阶段经常使用的ER模型(Entity-Relation Model)要求仔细分析档案管理域中各实体及其之间的联系,并据此建立档案数据库模式,通过这种设计方法得到的数据库通常还包括一些管理实体,比如包括各类人员库、标准库、组织机构表、保管期限表、人员权限表、库房信息等,甚至包括档案借阅者信息,而其中相当一部分不属于档案本体数据所包含的范围。
3.应用环境。不同的机构具有不同的应用环境,像档案馆与一般业务部门的应用环境就有很大差别,它们对于档案数据具有不同的管理要求。比如在信息集中管理应用环境中,为了管理方便,往往将档案与资料、期刊、报纸、图书等大量的非档案成分进行集中管理;文档一体化环境则将文件与档案数据共存一库,彼此依存,或者干脆就是合而为一;电子文件管理应用环境则根据前端控制原则,要求电子档案数据库的建设不能采用事后建库的方式,而必须深入到文件形成阶段,收集电子文件生命周期的完整信息。因此可以看出,不同应用环境下建立的档案数据库的内容范围存在较大的差异。
通过简要分析档案数据库概念的内涵及其变化,笔者认为对于档案数据库的理解不能一刀切,而应该立足档案数据库建设单位的实际环境和系统需求,将包括档案实体信息、管理信息、应用环境信息在内的各种类型数据按照特定数据模型进行组织的数据集合,并以此为据来考察目前我国档案数据库存在的一些问题。
二、档案数据库建设中存在的问题
在档案信息系统的建设过程中,软硬件设施可以通过购买、引进而获得,但一个行业或者部门的信息资源是买不来的,只能依靠自己建设。档案数据库作为档案信息资源采集、处理、存储和传输中心,在档案信息资源中占有举足轻重的作用。因而从宏观上讲,如何规划设计档案数据库的建设,是关系档案信息化进程是否能够顺利进行的关键因素。应该说,我们在这方面取得了很大的进步,数据库建设数量、分布的范围、发展的势头都是可喜的,初步消除了档案部门会沦为“信息孤岛”的疑虑。但同时,许多档案数据库建设中的问题也浮上台面,能否解决好这些问题是关系档案数据库未来发展的关键。
1.档案数据库建设缺乏有效的统筹规划
档案数据库建设是档案信息资源开发的核心工作,但目前我国档案数据库建设缺乏有效的统筹规划。在国家档案数据库建设层面上,除了明清、民国、革命历史档案资料三个目录中心的建设已经启动外,尚未有国家级档案数据库的规划安排,各地档案部门在实际建立档案数据库时基本上是各自为政,在档案数据标准体系尚不完善的情况下,这种局面将会导致数据共享困难。虽然我国就档案数据库的建设也提出过总体指导意见,比如《全国档案信息化纲要》一文中多次提到档案数据库的建设问题,提出“加强档案目录数据库建设”、“进一步加强档案目录中心建设”、“积极推进档案全文数据库和多媒体数据库建设”等,但这些意见缺乏可操作性。此外,如何将电子文件以及数字化档案的信息纳入档案数据库中进行管理,也需要在宏观层面上进行有效的统筹规划。
2.把握好数据库定位
也就是要回答好“建设什么样的档案数据库”的问题,回答这个问题需要充分了解档案数据库的内涵,明确建库的需求和目的,确定数据库定位,有的放矢。数据库定位将直接影响到数据库的建设成本、规模、效能等,是进行档案数据库以及信息系统建设的一个基本出发点。比如,是建立存储档案著录信息为主的目录数据库,还是建立存储档案全文的全文数据库;是根据馆藏的特点建立具有特色的数据库,还是基于馆藏图片、音像等资料建立综合
性多媒体数据库;是建立档案信息管理系统、文档一体化系统还是电子文档管理系统;是独立建库还是若干机构建立联合目录中心,或者是为未来的数字档案馆做数据准备。这些问题都需要提前论证,做好决策。而我们目前的档案数据库建设,在定位方面做的工作还不充分,许多数据库千篇一律,缺乏特色;或者数据库结构相似却不能联合,各自为战,造成资源分散,工作量重复。
3.数据库设计盲目性大,存在不科学的成分
数据库设计是一项非常严谨、科学性很强的一项工程,从可行性分析开始,逐次进行数据分析,绘制数据库的数据字典,然后运用各种工具进行概念模型设计、外模式设计和物理设计,最后才能装载数据库。其中的各个步骤都必须认真对待,偏废不得,前一阶段的设计是下一阶段工作的基础,不适合跨越设计阶段开展工作。
但在实际的档案数据库设计过程中,还存在着许多不科学的问题。特别在数据库可行性分析和数据分析阶段存在的随意现象比较突出。许多设计者对繁琐的数据分析不太重视,往往一上来就开始设计库表结构,这种脱离详细分析的设计方法虽然表面上速度较快,但其质量经不起推敲。对任何一个数据库系统而言,库表结构是其基石所在,基石不牢,大厦则有将倾之虞。
4.数据库逻辑结构缺乏规范
在进行数据库逻辑结构设计时,相关标准规范缺失是造成档案数据库的设计工作流于随意的主要原因,而档案数据库逻辑结构不规范的情况会引起数据库之间转换困难、难以共享等问题。目前正在许多单位开展的数字化工作所形成的图像文件、视音频文件如何建库管理,目前尚未有相关规范出台。电子文件管理元数据规范的滞后使得电子文件归档数据难以收集齐全,还有不少电子文件仍在进行人工著录登记,长此以往,前端控制原则难以在应用系统中得到应用。而在字段结构层面上,不规范的情况则更为突出。像在档案数据库中通常作为主键的“档号”字段的表示方法就五花八门,根据浙江省综合档案馆信息数据库建设调查报告的调查结果,在这浙江省通用的6种档案软件中,有的用4个字段来表示档号;有的定义成数字形式;有的定义为字符型,甚至同一个档案馆在不同时期录入的数据,表示形式也不统一。这将对日后数据库迁移、目录中心数据合并等工作带来极大的困难。
5.数据质量
档案数据库的建设必须保证良好的数据质量,“问水哪得清如许,为有源头活水来”这句古诗启示我们,准确的数据库信息、良好的数据管理是营造档案数据库“一池清水”的先决条件。作为重要的社会信息资源单位,档案部门必须高度重视档案数据质量,在追求数据库数量增长的同时,还要加强“污染防治”工作,防止脏数据的产生。而根据浙江数据库现状调查报告,随机检查结果表明档案数据库质量较好的数据误差也在12%左右,总平均差错率达29%,造成这种状况的原因主要在录入阶段,同时数据库的质量检查制度不完善也是重要原因。
三、档案数据库发展中存在问题的解决思路
1.加强数据库建设规划管理
数据库建设是一项投入非常巨大、周期很长、事关信息化成败的基础工程,应当由档案事业管理部门提供宏观的指导方针,统筹规划,合理布局,提供本地区或本行业数据库建设的蓝图,并会同有关部门对数据库规划的可行性进行论证,提出档案数据建设的具体意见。地方档案部门则根据宏观规划的要求进行详细设计,以实现全局共享为基础,突出特色数据。基于这样的总体思路,可以建立大范围内协调一致的数据结构,数据库框架设计、数据内容都能得到很高的共享度,将会改善目前档案数据库建设自行一套、质量参差不齐的总体状况。
2.加强标准规范的建设
档案信息资源描述标准体系是建设档案数据库的重要保障,相关标准规范的确立和逐步完善有助于各级各类档案数据库需要保持必要的协调,共同为社会提供高效、优质的档案信息服务。档案标准规范的制定要本着“确保数字档案资源格式统一、数据规范、长期可读、便于共享”的原则进行。在实施过程中,应当积极采用国际标准和国外先进标准;一般性的信息处理标准优先采用国家标准,如《文献保密等级代码》、《全国行政区划代码》等标准应当直接采用国家标准,不必另行一套;对档案领域内特有的资源制定行业标准,如《寿险业务档案管理标准》。此外为了保证国家文献系统标准之间的一致性,档案工作标准应尽量与图书、情报的国际、国内标准相一致。
3.建立标准的元数据库
目前数据库的逻辑结构设计比较混乱,虽然从各数据库个体角度观察,并没有太大的差错,但结构的不一致、不兼容会对数据库的共享和相互转换带来很大的困难,甚至难以进行。笔者认为,这个问题的最终解决,依赖于以著录标准化为依托的元数据库的建设。
目前档案数据库的主要记录对象是档案文件的二次文献信息,即文件的著录信息。许多档案数据库结构的确定其实就是将著录卡上的项目转换为数据表上的字段信息。从原理上讲,这个过程应该很容易,但由于我国的《档案著录规则》,虽然规范了著录项目,但并没有规定相应的量化指标,离数据库系统所要求的结构化数据的要求还有相当距离。由于著录标准并不是确定数据结构的强制标准,各档案数据库在建设时都可以根据自己的理解灵活应用,著录项目可以自行增删,字段类型、字段长度可以自由选择,这样的数据库进行互联互通的难度就可想而知了。因此笔者建议以著录标准为基础,建立一定范围内的元数据标准,此处的元数据就是关于数据库中各数据字段的信息,并以此为基础构成元数据字典。该字典提供数据项目的结构化信息,包括数据字段的名称、数据类型、长度、默认格式等规范,并说明字段之间的联系。需要指出的是,这样一个具有内在联系的有机的元数据字典,实质上是为档案数据库提供通信格式,并不要求完全遵循,如果有特殊要求,只需要在此基础上提供转换功能即可。随着档案信息化的深入,元数据字典的建设还应当包括全文和电子文件的元数据项目,为电子文件管理系统的设计提供相应的元数据,实现电子文档的前端控制,从而在根本上解决电子文档接口规范问题。
4.建立健全数据库质量控制体系
针对档案数据库数据质量的问题,笔者认为应当将档案数据库视作档案部门的信息产品,并依照生产产品的管理方式,通过质量控制体系进行监管。该体系以可操作的方式提供对档案数据库的全面质量管理,包括数据库设计、建设、管理活动中主要环节的控制,并制定数据库质量考核指标体系。该体系要求将数据库设计过程作为单独的项目进行管理,通过项目文档能够审查数据库设计过程是否科学、合理;能够对数据库建设过程中的人、财、物进行审计;对数据收集、录入、备份等各环节提供质检措施,保证数据准确、完整;通过质量指标体系对数据库容量、响应时间、查全率、查准率、错误率等进行核查。依照质量控制体系进行管理,能够优化数据库管理活动,加强数据库建设人员的责任感。
5.加强档案数据库队伍建设
随着档案事业的不断推进,对档案信息管理人员的要求越来越高。档案数据库作为档案信息化建设的中枢工程,其规划、设计、实施、管理、维护、标准建设等都需要相关人员具有较高的综合素质,不仅要熟悉馆藏,了解基本档案理论、业务流程、未来发展,还要掌握数据库管理的基本技能,对于档案数据库管理员,还需要具备一定的规划能力和标准化知识,而目前这方面的人才是比较缺乏的,需要档案部门和教育机构通力合作,培养通晓档案数据库建设的全面人才,全面推进档案信息资源的开发进程。
注释:
①查询时间:2005年9月16日,检索形式为“篇名”,检索模式为“精确检索”,数据库来源为“电子技术及信息科学辑目录”,特此说明。
②孙淑扬编著:《档案管理与计算机》,第176页,档案出版社1987年3月。
③洪漪编著《档案信息组织与检索》,第146页,武汉大学出版社,1998年1月。
④杨公之主编:《档案信息化建设实务》,中国档案出版社,2003年,第103页。
(原文载于《档案学通讯》2006年第4期)
H. 工业历史数据库
数据库技术是现代信息科学与技术的重要组成部分,是计算机数据处理与信息管理专系统的核心。工业属历史数据库技术研究和解决了计算机信息处理过程中大量数据有效地组织和存储的问题,在数据库系统中减少数据存储冗余、实现数据共享、保障数据安全以及高效地检索数据和处理数据。施耐德电气在工业历史数据库这一块的研究,随着计算机技术与网络通信技术的发展,数据库技术已成为信息社会中对大量数据进行组织与管理的重要技术手段及软件技术,是网络信息化管理系统的基础。
I. 历史学科关于中、英文研究著作的数据库主要有哪些
《国富论》。作者亚当·斯密(Adam Smith, 1723-1790)是经济学的主要创立者。他于 1723 年出生在苏格兰的克科底,青年时就读于牛津大学。
《我们赖以生存的隐喻》作者为乔治·莱考夫(George Lakoff),美国加州大学伯克利分校语言学系教授,著名语言学家,认知语言学的创始人。本书作为当代语言学经典著作,是公认的认知语言学隐喻系统研究的开始,在国外隐喻研究中具有很大影响。
《科学革命的结构》托马斯•库恩的《科学革命的结构》(The Structure of Scientific Revolutions)算得上是二十世纪学术史上最有影响的著作之一。
《想象的共同体》一书的横空出世,为民族主义研究提供了新的理论范式。这个范式努力避免了「欧洲中心」或「西方中心」的观点,把常被人忽略的美洲,东南亚甚至非洲囊括入其宏大的理论体系。
《规训与惩罚》作者:米歇尔・福柯,20 世纪极富挑战性和反判性的法国思想家。青年时期就学于巴黎高等师范学校,以后曾担任多所大学的教职。1970 年起任法兰西学院思想系统史教授,直至逝世。
《正义论》一书,洋洋洒洒 40 余万字,实际上是一本论文集。美国哈佛大学教授约翰·罗尔斯的《正义论》一书,自 1971 年问世后(罗尔斯针对该书出版后的批评意见,1999 年重新做了修订),在西方国家引起了广泛重视,被视为第二次世界大战后西方政治哲学、法学和道德哲学中最重要的著作之一,将被列为历史经典名著之林。
J. 国内五大论文数据库
国内主要有5大期刊数据库
一、中国知网提供的《中国学术期刊(光盘版)》
也称中国期刊全文数据库由清华同方股份有限公司出版。收录1994年以来国内6 600种期刊,包括了学术期刊于非学术期刊,涵盖理工、农业、医药卫生、文史哲、政治军事与法律、教育与社会科学综合、电子技术与信息科学、经济与管理。收录的学术期刊同时作为“中国学术期刊综合评价数据库统计源期刊”。但是收录的期刊不很全面,一些重要期刊未能收录。
二、中国生物医学文献数据库(CBMDISC)
由数据库是中国医学科学院信息研究所开发研制,收录了自1978年以来1 600余种中国生物医学期刊。范围涉及基础医学、临床医学、预防医学、药学、中医学及中药学等生物医学的各个领域。
三、中文生物医学期刊数据库(CMCC)
由中国人民解放军医学图书馆数据库研究部研制开发。收录了1994年以来国内正式出版发行的生物医学期刊和一些自办发行的生物医学刊物1 000余种的文献题录和文摘。涉及的主要学科领域有:基础医学、临床医学、预防医学、药学、医学生物学、中医学、中药学、医院管理及医学信息等生物医学的各个领域。并具有成果查新功能医学全在线
四、万方数据资源系统(China Info)
由中国科技信息研究所,万方数据股份有限公司研制。该数据库收录的期刊学科范围广,包括了学术期刊于非学术期刊,提供约2 000种的电子期刊的全文检索。被收录的学术期刊都获得了“中国核心期刊(遴选)数据库来源期刊”的收录证书。个别期刊甚至将“遴选”改成“精选”,或者干脆去掉。很多作者因此误以为这就是核心期刊。
五、维普数据库
也称中文科技期刊数据库,维普科技期刊数据库,由中国科学技术信息研究所重庆分所出版。收录了1989年以来我国自然科学、工程技术、农业科学、医药卫生、经济管理、教育科学和图书情报等学科9 000余种期刊,包括了学术与非学术期刊。收录期刊数量很大,但不足之处是部分国家新闻出版总署公布的非法期刊也被收录了。
一般的,学术期刊都能进入至少1个国内期刊数据库。期刊据数据库[3]不是期刊的评价体系,对科研处的期刊性质评价也就缺乏足够的意义,故不宜作为期刊性质评价的依据。
1、万方数据
万方数据提供中国大陆科技期刊检索,是万方数据股份有限公司建立的专业学术知识服务网站。隶属于万方数据资源系统,对外服务数据由万方数据资源系统统一部署提供。
2、全国报刊索引
收录全国包括港台地区的期刊8000种左右,月报道量在1.8万条以上,年报道量在44万条左右,书本式用户有3500多家,现又出版光盘数据库。反映了中国政治、经济、军事、科学、文化、文学艺术、历史地理、科技等方面的发展情况,提供了国内外最新学术进展信息。
该索引是我国收录报刊种类最多,内容涉及范围最广,持续出版时间最长,与新文献保持同步发展的权威性检索刊物,也是查找建国以来报刊论文资料最重要的检索工具。
正文采用分类编排,先后采用过《中国人民大学图书分类法》和自编的《报刊资料分类表》,1980年起,仿《中国图书馆图书分类法》分21类编排,1992年全面改用《中国图书资料分类法》(第三版)编排,2000年开始用《中国图书馆分类法》(第四版)标引,计算机编排。
在著录上,《全国报刊索引》从1991年起采用国家标准——《检索期刊条目著录规则》进行著录,包括题名、著译者姓名、报刊名、版本、卷期标识、起止页码、附注等项。同时,“哲社版”采用电脑编排,增加了“著者索引”、“题中人名分析索引”、“引用报刊一览表”,方便了读者的使用。
3、超星数字图书馆
为目前世界最大的中文在线数字图书馆,提供大量的电子图书资源提供阅读,其中包括文学、经济、计算机等五十余大类,数十万册电子图书,300 万篇论文,全文总量 4亿余页,数据总量30000GB,大量免费电子图书,并且每天仍在不断的增加与更新。
覆盖范围:涉及哲学、宗教、社科总论、经典理论、民族学、经济学、自然科学总论、计算机等各个学科门类。本馆已订购67万余册。
收录年限:1977年至今。
4、维普资讯
维普资讯是科学技术部西南信息中心下属的一家大型的专业化数据公司,是中文期刊数据库建设事业的奠基人,公司全称重庆维普资讯有限公司。目前已经成为中国最大的综合文献数据库。从1989年开始,一直致力于对海量的报刊数据进行科学严谨的研究、分析,采集、加工等深层次开发和推广应用。
5、中宏数据库
中宏数据库由国家发改委所属的中国宏观经济学会、中宏基金、中国宏观经济信息网、中宏经济研究中心联合研创。是由18类大库、74类中库组成,涵盖了九十年代以来宏观经济、区域经济、产业经济、金融保险、投资消费、世界经济、政策法规、统计数字、研究报告等方面的详尽内容,是目前国内门类最全,分类最细,容量最大的经济类数据库。