① 数据库和大数据的区别
在大数据处理当中,数据库提供底层支持,实现了稳固的大数据存储,才能更好地支持下一步的大数据计算。今天的大数据基础知识分享,我们来聊聊大数据当中,数据库和数据仓库的区别,怎么去理解这两者,又该怎么去应用? 首先,数据库是什么?
从定义上来说,数据库是用来存放数据的仓库,数据库由很多表组成,表是二维的,一张表里面有很多字段。字段一字排开,对数据就一行一行的写入表中。
数据库的表,在于能够用二维表现多维的关系,如:oracle、DB2、MySQL、Sybase、MSSQL Server等,都是典型的数据库。
那么,数据仓库又是什么?
数据仓库,可以理解为是数据库概念的升级。从逻辑上理解,数据库和数据仓库没有区别,都是通过数据库软件实现存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大。
数据库和数据仓库的区别:
1.数据库只存放在当前值,数据仓库存放历史值;
2.数据库内数据是动态变化的,只要有业务发生,数据就会被更新,而数据仓库则是静态的历史数据,只能定期添加、刷新;
3.数据库中的数据结构比较复杂,有各种结构以适合业务处理系统的需要,而数据仓库中的数据结构则相对简单;
4.数据库中数据访问频率较高,但访问量较少,而数据仓库的访问频率低但访问量却很高;
5.数据库中数据的目标是面向业务处理人员的,为业务处理人员提供信息处理的支持,而数据仓库则是面向高层管理人员的,为其提供决策支持;
6.数据库在访问数据时要求响应速度快,其响应时间一般在几秒内,而数据仓库的响应时间则可长达数几小时。
关于,数据库基础,大数据数据库和数据仓库的区别,以上就是详细的介绍了。在大数据当中,数据库和数据仓库的知识的,都是值得关注的,也是在学习当中需要去重视的。
② 刚开始学习数据库知识应该看哪些书
ACCESS或者是Foxpro;
<<离散数学>>中的关系代数部分;
数据库原理与优化;
TranSQL-92标准;
SQL、ERVER、MYSQL、ORACLE中的一种。
③ 什么叫历史信息
为“十五”211工程公共服务体系-CERNET高速地区网和重点学科信息服务体系建设项目的子专题项目“重点学科信息资源建设-历史学信息资源系统”,东北师范大学受教育部科技司委托并经过努力,该系统(此处为网址域名)正式投入使用以来,存储总量已达100G。
本历史学信息资源系统主要包括以下内容:
历史学信息资源中心建设,采用本地服务、镜像站点、远程链接等多种方式,整合集成国内外历史学有关的信息资源,建立本领域的核心网络信息资源中心,为不同研究者提供信息支持。具体包括:
国外资料库链接:与国际现有资料库机构联系,建立其链接。
国内出版物资料库:收集国内的相关资料(学术期刊、主要出版物),建立资料库并定期增补、完善。
学位论文资料库:将本领域的博士与硕士学位论文集中成库,并提供检索、浏览等服务。
期刊论文资料库:加工整理中文历史学方面的期刊论文题录数据库,提供检索、浏览等服务。
镜像站点:与国内外主要学术结构、组织,重要学术期刊联系,建立其页面链接、镜像链接。
网络免费历史学资源镜像:不涉及知识产权的中外历史学相关电子文献,具体包括电子图书、影音资料、地图等,提供检索、浏览等服务。
同时,根据不同研究项目的特点,本项目将根据数据特征(如数据类型、国别、历史阶段、关键词以及与之对应的项目等)对现有历史学信息资料进行分类与描述,实现信息资料的分类。
...........................................................................
网址导航:
□
World Wide Web Virtual Library History Central Catalogue “欧洲大学学院”建设的互联网虚拟图书馆。
Abraham Lincoln's Second Inauguration
□
Selected History Resources 普林斯顿大学历史系主办的综合性历史网站。
□
The History Net 由《美国内战》、 《美国史》、《军事史》等杂志组成的内容丰富的历史杂志网站。
□
American Association for the Advancement of Science 致力于推进科学研究的国际非赢利组织,提供许多科学史研究方面的资料。
□
The Development of Western Civilization I 西方文明发展史I(史前文明),涉及到历史、艺术建筑、文学戏剧、音乐、日常生活文化等方面。
□
The Paleolithic Diet Page 一个全方位介绍旧石器时代研究机构、著作、信息、文献的导航网站。
更多....
...................................................................................
历史资源库:(包括历史类图片、地图、视频、图书等) <例举如下>
甲骨文
图片例
□
<序号> = 1 <分类> = B04;F05 <题名> = 包公像 <著者> =
<主题> = 中国古代史;包公;北宋
<文摘> = 简介:该画像是根据合肥包公第36世后裔包信芝等回忆重画的,原作为包拯60寿辰时其学生为他所画,在合肥保存到1966年,后被焚毁。1999年,包信芝等合肥嫡系后裔请画家根据记忆重绘。
<来源> = \项目\中国古代史\包公像.jpg
<点击查看图片>
视频
④ 数据库发展历史是什么
数据库对于普通人来讲
就可以简单理解为有固定格式的数据集合,回
专门为解决某一类数据保存和计答算问题而存在的,
就像单位用的各种各样的报表和单据,
只不过软件会帮你保存管理这些单据和报表在计算机上,
帮你计算求和等等操作 生成你想要的各种数据报告。
利用数据库软件和计算机的高速运算特性,
可以大大提高工作效率和正确性。
减少工作时间成本和人力成本。
没有他们也可以,但是你不得不用手工的办法处理数据,
不管数据量多少都一样。
⑤ 档案学有哪些数据库
【编者按】:档案学就是探索档案、档案工作和档案事业的发展规律,研究档案信息资源的管理、开发的理论、原则与方法的学科。精品学习网档案学栏目为您提供档案学范文参考,以及档案学写作指导和格式排版要求,解决您在写作中的难题。
浅谈数据库在档案管理中的应用
[摘要]本文分析了数据库在档案管理中应用的现状与不足,讨论了利用数据库技术对档案进行管理的实现和应用,提出了有建设性的对策和建议,提出了自己的思考。
[关键词]数据库 档案管理 应用
信息化是当今世界发展的大趋势,是推动经济社会发展和变革的重要力量。随着我国各单位业务的急速发展,单纯的手工记录方式已无法及时有效地对档案材料进行收集、整理、立卷、归档和管理。而计算机技术在近十年来的迅猛发展,使得各单位利用计算机对档案进行辅助管理成为可能。档案信息化是在档案管理中全面应用现代信息技术,对档案信息资源进行开发、管理和提供利用等服务,主要包括档案资源数字化和网络化、档案信息管理和利用提供的一体化、档案信息的高度共享等。
《全国档案信息化建设实施纲要》规定了我国近期档案工作发展目标,《国家信息化发展战略(2006年—2020年)》的审议通过,为档案信息化提供了有力保障。计算机的介入打破了传统的管理模式,使得原本松散、庞杂的档案管理迈入了集中统一、信息自动化的新领域。虽然,利用计算机辅助管理档案能大量减轻管理工作的强度、提高管理工作的效率,并能减少管理工作的失误,但是由于计算机技术,尤其是数据库的发展是一个逐步开发、完善的过程,同时使用该技术的工作人员也有逐步学习、应用的阶段,因此计算机辅助管理各单位档案中也存在着不少需要解决的问题。
一、数据库在档案管理中应用的现状与不足
随着各单位业务的不断扩大,传统的手工管理档案的方法,已经不能适应成倍膨胀的档案数量,也无法满足社会对档案的巨大利用需求,利用档案管理软件进行计算机管理是提高各单位档案服务水平的必由之路。将手工管理的纸质档案转换为数字信息进入网络,即从档案的实态转换到虚拟态,档案信息与载体分离,在这个意义上说网络传递的仅是档案信息,用户得到的仅是复制品,而非档案原件。使用数据库计算机辅助管理档案不同于以往对纸质文档进行收集、整理、立卷、归档、管理等工作,管理人员除了需要具备档案管理业务素质外,还需要对计算机及数据库应用具备一定的认识。有相当多的档案管理工作人员知识结构老化,缺乏计算机技术知识,不能准确、规范地录入基本信息,导致基本信息错误、缺失甚至张冠李戴。与此同时,由于一些档案管理软件在建立时仅考虑当时的数据量和用户需求,数据库结构中只有比较有限的几个数据字段,数据库容量较小,不能导出通用格式的数据。当数据量成倍增加,数据库运行的速度就相应减慢,使工作效率被迫降低。
二、数据库在档案管理中的应用建议
要全面提升档案数据库系统的安全水平是个艰难的过程,涉及方面很多,需要管理部门投入人量的人力物力。有些方面,例如,设备的可靠性,火灾预防等方面,主要涉及投入力度的问题:防止人为的有意识破坏方面,如泄密监取密码口令、计算机病毒、黑客等,主要依靠管理制度和计算机安全专项技术。但在数据库的一致性、完整性问题上,档案管理部门自身起着决定性作用。主要应关注以下几点:
1.采用科学的数据库开发方式
早期使用结构化方法开发的档案管理软件,其稳定性、可修改性和可重用性都比较差,用户需求的变化往往造成系统结构的较大变化,并且需要花费很大代价才能实现这种变化。新的档案管理软件可采用面向对象的程序设计方法,商定一种或多种数据转换方式,以便数据能够在不同软件之间实现信息共享。考虑到信息网络化的需要,档案管理软件可具备通过网页进行数据查询、交换的功能。同时还应考虑数据量增加的速度和数据库技术发展的趋势,以便今后对数据库进行升级或更新换代。对于管理条例的各种文件可采用数码照相或者文本方式进行保存整理,通过公文类程序或网页进行交换及查询。
2.确保档案的保密性和安全性
单位档案的保密性和安全性是十分令人关注的问题。档案一旦进入计算机网络系统,网络的安全将直接关系到档案的保密性。对于计算机网络与电子文件所存在的技术上的弱点只能靠技术上的发展去解决。作为计算机网络的使用者,电子文件的形成者和保管者都有责任关注信息技术的最新发展,也有责任采用诸如防火墙、密码技术、网关、虚拟保险箱、电子印章、电子水印等最先进信息技术解决上述问题。同时通过建立符合科研档案技术发展规律的各种工作规范来保障电子文件的安全。只要工作规范,技术到位,这一科研档案工作的主要障碍是完全可以解决与克服的。
加强网络监控,及时备份数据。网络中存在的安全性问题是对档案管理系统安全性最大的威胁。目前有多种网络安全策略,各种安全策略必须相互配合才能真正起到保护作用,其中网络的访问控制可以说是保证网络安全最重要的核心策略,它的主要任务是保证网络资源不被非法使用和访问,它也是维护网络系统安全、保护网络资源的重要手段。另外,要注意建立计算机检索查询和提供档案信息的主要服务方式,为使用者提供网状信息组织结构,使用户可以根据自己的意志沿着信息之间的关系链进行浏览,而不是按照规定途径进行检索和查询档案信息。
3.关注计算机病毒的新变化
当档案信息系统扩展到局域网甚至互联网时,计算机病毒成为不可回避的危害,而且新型病毒具有许多网络时代的新特征,例如,病毒传播主要通过网络途径扩散,病毒与计算机入侵关系密切,Windows操作系统的网络功能是常见的攻击点,等等,档案工作者应当时刻注意新的技术变化,制定针对性策略,并从管理制度、技术监督、后备保护、应急措施等多方面综合防范。
4.加强法制建设
保障档案信息安全单纯依靠档案管理部门自身的努力是不够的,还需要有相关法律、规章制度的约束。因此,档案信息安全与其它社会问题一样,是一个复杂的综合性较强的问题,各个环节必须紧密衔接才能发挥作用。立法在保障档案信息安全性中的作用是不言而喻的,缺乏法律支持的信息安全保障是纸上谈兵。我国已将信息安全列入国家信息化发展战略,辽宁省早在1998年就通过了《辽宁省计算机信息系统安全管理条例)),这些都将在档案信息安全保障中发挥重要作用,但随着新问题的出现还需要更完善的、更专业的法律、法规出台。
参考文献:
[1]张姝,韩振英.计算机在学籍档案管理中的应用[J].洛阳工业高等专科学校学报,1998,(4).
[2]刘淑芬.计算机网络技术与学校档案管理[J].学校档案,1999,(1):23-25.
[3]徐志敏.计算机技术对档案工作的影响[J].办公室业务,2000,(3):32-33.
档案数据库建设中存在的问题及解决思路
钱毅
摘要:档案数据库是档案信息资源管理的核心工具,目前我国档案数据库的建设和利用状况还存在不少问题。作者首先解析了档案数据库的概念,指出应当从档案业务需求的角度去考察数据库的功能,并分析了档案实践的发展导致了档案数据库内容变化的几大因素。在档案建设过程中存在的问题包括缺乏有效统筹规划、数据库定位不准确、标准规范缺失、数据质量不高等。要解决这些问题,作者提出应当加强档案数据库规划管理、完善标准规范、建立健全质量控制体系、培养人才队伍等措施。
关键词:档案数据库 概念 问题 思路
数据库技术是20世纪60年代末发展起来的一门信息管理技术,是公认的信息资源开发、管理和服务的核心手段。目前数据库的建设规模、信息量大小和使用频率已经成为衡量一个国家信息化水平和综合国力的重要尺度。在我国国家和地方各级的档案信息化规划中,档案数据库作为档案信息资源管理的核心工具也都得到了广泛的重视。但档案界一直存在着如何盘活档案资源、提高利用效率等问题。应该说,拥有先进的数据组织技术和灵活可靠管理手段的数据库技术理论上可以从容面对这些挑战,为档案信息化搭建一个坚实的平台。事实上几乎所有的档案信息管理系统的中心都由档案数据库来担当,无论其形式是档案辅助管理系统还是所谓的数字档案馆。但档案数据库的建设和利用状况仍然不容乐观,还存在着数据结构封闭、数据质量不高,档案信息资源尚未完全走出信息孤岛的状态。笔者拟从对档案数据库的概念、档案数据库的应用现状及建设思路几个方面来分析这些问题。
一、档案数据库概念解析
档案数据库的建设在我国已经有20余年的历史,但其理论发展却并不充分。笔者通过期刊网(www.cnki.net)进行查阅,在1994~2005年间查询到篇名中包含“档案数据库”的文章仅有28篇①,内容多局限在实际工作总结的层次上,对档案数据库的概念描述和理论挖掘相对较少。
通过文献调研,笔者发现早在1987年孙淑扬就指出“档案数据库属于文献数据库,是档案自动化的重要内容,它是经过整理组织以机读形式出现的档案信息集合。②”洪漪编著的《档案信息组织与检索》中认为“机读档案数据库,简称档案数据库,是以一定的组织方式存储在一起的机读档案数据的集合。这些数据包括档案题名、责任者、来源、页码、分类号、主题词、摘要等,少数包含档案全文。③”杨公之主编的《档案信息化建设实务》一书认为“档案数据库,从广义的角度讲,就是以特定方式组织起来的档案数据集合。具体地讲,就是为了满足多个用户多种应用需要,按照一定的数据模型将本单位所保管的档案信息存贮在计算机中以备使用的数据形式。④”
笔者无意为档案数据库给出一个确切的定义,因为作为支撑点的“档案”与“数据库”在实际应用中本身就是发散性很强的概念,而且还在不断发展变化之中,上述定义都符合其各自特定的信息背景,以致档案数据库在不同阶段的发展中出现了许多称谓,如机读目录数据库、索引数据库,照片档案数据库、全文数据库、多媒体档案数据库等等。因此研究档案数据库,需要综合把握数据库和档案实践的发展,获得对档案数据库的相对完整的认识。
在研究数据库时,除了掌握其先进的管理手段和操作方法外,更重要的是要立足档案信息资源的特点,按照需求引导的原则关注数据库中可以“为我所用”的部分,而不能片面追求数据库功能而忽视基本的档案需求。比如为了描述日益丰富的档案数据类型,我们要求数据库具有完备的数据类型能够表达音频、视频、全文等信息类型;为了加强档案数据质量控制,需要重点关注数据库的完整性管理机制;为了保证档案数据的安全,需要灵活应用数据库的视图功能、权限管理以及加密机制等。此外,数据库提供的共享交换、格式转换、数据仓库等核心功能可以为档案数据库提升管理水平和管理层次都提供技术保障。
同时,我们还要关注档案实践活动的变化,关注这些变化可能对档案数据库带来的影响。笔者认为影响档案数据库内容的主要因素有如下三个方面。
1.档案实体管理。在近年的档案管理活动中出现了许多新情况,比如2000年出台的《归档文件整理规则》允许在文书档案实体管理活动中取消“卷”的概念,这直接影响到档案数据库是否还需要“卷”这一级逻辑层次,从而影响相关表的数据结构。信息记录技术的发展引进了许多新型载体,目前纸张、照片、胶片、缩微胶片、硬盘、软盘、磁带、各类光盘、图纸等共存一室并不鲜见,不同类型的载体需要有不同的数据表来进行管理,档案信息化规划中还要求将这些载体的信息通过各种方式数字化后进入计算机系统,这也极大地丰富了档案数据库的内容。此外,在档案信息利用环节,用户全文和多媒体信息检索需求也会促进档案数据库的数据类型的拓展。
2.档案数据库设计活动。在多数情况下,档案数据库系统并不只是纯粹档案数据的集合,还包括档案管理活动中的其他信息,这些信息可以在数据库设计过程中被纳入管理。比如,在使用数据流图等工具进行数据库需求分析的时候,可以将许多业务流程方面的管理信息纳入数据字典;数据库的概念设计阶段经常使用的ER模型(Entity-Relation Model)要求仔细分析档案管理域中各实体及其之间的联系,并据此建立档案数据库模式,通过这种设计方法得到的数据库通常还包括一些管理实体,比如包括各类人员库、标准库、组织机构表、保管期限表、人员权限表、库房信息等,甚至包括档案借阅者信息,而其中相当一部分不属于档案本体数据所包含的范围。
3.应用环境。不同的机构具有不同的应用环境,像档案馆与一般业务部门的应用环境就有很大差别,它们对于档案数据具有不同的管理要求。比如在信息集中管理应用环境中,为了管理方便,往往将档案与资料、期刊、报纸、图书等大量的非档案成分进行集中管理;文档一体化环境则将文件与档案数据共存一库,彼此依存,或者干脆就是合而为一;电子文件管理应用环境则根据前端控制原则,要求电子档案数据库的建设不能采用事后建库的方式,而必须深入到文件形成阶段,收集电子文件生命周期的完整信息。因此可以看出,不同应用环境下建立的档案数据库的内容范围存在较大的差异。
通过简要分析档案数据库概念的内涵及其变化,笔者认为对于档案数据库的理解不能一刀切,而应该立足档案数据库建设单位的实际环境和系统需求,将包括档案实体信息、管理信息、应用环境信息在内的各种类型数据按照特定数据模型进行组织的数据集合,并以此为据来考察目前我国档案数据库存在的一些问题。
二、档案数据库建设中存在的问题
在档案信息系统的建设过程中,软硬件设施可以通过购买、引进而获得,但一个行业或者部门的信息资源是买不来的,只能依靠自己建设。档案数据库作为档案信息资源采集、处理、存储和传输中心,在档案信息资源中占有举足轻重的作用。因而从宏观上讲,如何规划设计档案数据库的建设,是关系档案信息化进程是否能够顺利进行的关键因素。应该说,我们在这方面取得了很大的进步,数据库建设数量、分布的范围、发展的势头都是可喜的,初步消除了档案部门会沦为“信息孤岛”的疑虑。但同时,许多档案数据库建设中的问题也浮上台面,能否解决好这些问题是关系档案数据库未来发展的关键。
1.档案数据库建设缺乏有效的统筹规划
档案数据库建设是档案信息资源开发的核心工作,但目前我国档案数据库建设缺乏有效的统筹规划。在国家档案数据库建设层面上,除了明清、民国、革命历史档案资料三个目录中心的建设已经启动外,尚未有国家级档案数据库的规划安排,各地档案部门在实际建立档案数据库时基本上是各自为政,在档案数据标准体系尚不完善的情况下,这种局面将会导致数据共享困难。虽然我国就档案数据库的建设也提出过总体指导意见,比如《全国档案信息化纲要》一文中多次提到档案数据库的建设问题,提出“加强档案目录数据库建设”、“进一步加强档案目录中心建设”、“积极推进档案全文数据库和多媒体数据库建设”等,但这些意见缺乏可操作性。此外,如何将电子文件以及数字化档案的信息纳入档案数据库中进行管理,也需要在宏观层面上进行有效的统筹规划。
2.把握好数据库定位
也就是要回答好“建设什么样的档案数据库”的问题,回答这个问题需要充分了解档案数据库的内涵,明确建库的需求和目的,确定数据库定位,有的放矢。数据库定位将直接影响到数据库的建设成本、规模、效能等,是进行档案数据库以及信息系统建设的一个基本出发点。比如,是建立存储档案著录信息为主的目录数据库,还是建立存储档案全文的全文数据库;是根据馆藏的特点建立具有特色的数据库,还是基于馆藏图片、音像等资料建立综合
性多媒体数据库;是建立档案信息管理系统、文档一体化系统还是电子文档管理系统;是独立建库还是若干机构建立联合目录中心,或者是为未来的数字档案馆做数据准备。这些问题都需要提前论证,做好决策。而我们目前的档案数据库建设,在定位方面做的工作还不充分,许多数据库千篇一律,缺乏特色;或者数据库结构相似却不能联合,各自为战,造成资源分散,工作量重复。
3.数据库设计盲目性大,存在不科学的成分
数据库设计是一项非常严谨、科学性很强的一项工程,从可行性分析开始,逐次进行数据分析,绘制数据库的数据字典,然后运用各种工具进行概念模型设计、外模式设计和物理设计,最后才能装载数据库。其中的各个步骤都必须认真对待,偏废不得,前一阶段的设计是下一阶段工作的基础,不适合跨越设计阶段开展工作。
但在实际的档案数据库设计过程中,还存在着许多不科学的问题。特别在数据库可行性分析和数据分析阶段存在的随意现象比较突出。许多设计者对繁琐的数据分析不太重视,往往一上来就开始设计库表结构,这种脱离详细分析的设计方法虽然表面上速度较快,但其质量经不起推敲。对任何一个数据库系统而言,库表结构是其基石所在,基石不牢,大厦则有将倾之虞。
4.数据库逻辑结构缺乏规范
在进行数据库逻辑结构设计时,相关标准规范缺失是造成档案数据库的设计工作流于随意的主要原因,而档案数据库逻辑结构不规范的情况会引起数据库之间转换困难、难以共享等问题。目前正在许多单位开展的数字化工作所形成的图像文件、视音频文件如何建库管理,目前尚未有相关规范出台。电子文件管理元数据规范的滞后使得电子文件归档数据难以收集齐全,还有不少电子文件仍在进行人工著录登记,长此以往,前端控制原则难以在应用系统中得到应用。而在字段结构层面上,不规范的情况则更为突出。像在档案数据库中通常作为主键的“档号”字段的表示方法就五花八门,根据浙江省综合档案馆信息数据库建设调查报告的调查结果,在这浙江省通用的6种档案软件中,有的用4个字段来表示档号;有的定义成数字形式;有的定义为字符型,甚至同一个档案馆在不同时期录入的数据,表示形式也不统一。这将对日后数据库迁移、目录中心数据合并等工作带来极大的困难。
5.数据质量
档案数据库的建设必须保证良好的数据质量,“问水哪得清如许,为有源头活水来”这句古诗启示我们,准确的数据库信息、良好的数据管理是营造档案数据库“一池清水”的先决条件。作为重要的社会信息资源单位,档案部门必须高度重视档案数据质量,在追求数据库数量增长的同时,还要加强“污染防治”工作,防止脏数据的产生。而根据浙江数据库现状调查报告,随机检查结果表明档案数据库质量较好的数据误差也在12%左右,总平均差错率达29%,造成这种状况的原因主要在录入阶段,同时数据库的质量检查制度不完善也是重要原因。
三、档案数据库发展中存在问题的解决思路
1.加强数据库建设规划管理
数据库建设是一项投入非常巨大、周期很长、事关信息化成败的基础工程,应当由档案事业管理部门提供宏观的指导方针,统筹规划,合理布局,提供本地区或本行业数据库建设的蓝图,并会同有关部门对数据库规划的可行性进行论证,提出档案数据建设的具体意见。地方档案部门则根据宏观规划的要求进行详细设计,以实现全局共享为基础,突出特色数据。基于这样的总体思路,可以建立大范围内协调一致的数据结构,数据库框架设计、数据内容都能得到很高的共享度,将会改善目前档案数据库建设自行一套、质量参差不齐的总体状况。
2.加强标准规范的建设
档案信息资源描述标准体系是建设档案数据库的重要保障,相关标准规范的确立和逐步完善有助于各级各类档案数据库需要保持必要的协调,共同为社会提供高效、优质的档案信息服务。档案标准规范的制定要本着“确保数字档案资源格式统一、数据规范、长期可读、便于共享”的原则进行。在实施过程中,应当积极采用国际标准和国外先进标准;一般性的信息处理标准优先采用国家标准,如《文献保密等级代码》、《全国行政区划代码》等标准应当直接采用国家标准,不必另行一套;对档案领域内特有的资源制定行业标准,如《寿险业务档案管理标准》。此外为了保证国家文献系统标准之间的一致性,档案工作标准应尽量与图书、情报的国际、国内标准相一致。
3.建立标准的元数据库
目前数据库的逻辑结构设计比较混乱,虽然从各数据库个体角度观察,并没有太大的差错,但结构的不一致、不兼容会对数据库的共享和相互转换带来很大的困难,甚至难以进行。笔者认为,这个问题的最终解决,依赖于以著录标准化为依托的元数据库的建设。
目前档案数据库的主要记录对象是档案文件的二次文献信息,即文件的著录信息。许多档案数据库结构的确定其实就是将著录卡上的项目转换为数据表上的字段信息。从原理上讲,这个过程应该很容易,但由于我国的《档案著录规则》,虽然规范了著录项目,但并没有规定相应的量化指标,离数据库系统所要求的结构化数据的要求还有相当距离。由于著录标准并不是确定数据结构的强制标准,各档案数据库在建设时都可以根据自己的理解灵活应用,著录项目可以自行增删,字段类型、字段长度可以自由选择,这样的数据库进行互联互通的难度就可想而知了。因此笔者建议以著录标准为基础,建立一定范围内的元数据标准,此处的元数据就是关于数据库中各数据字段的信息,并以此为基础构成元数据字典。该字典提供数据项目的结构化信息,包括数据字段的名称、数据类型、长度、默认格式等规范,并说明字段之间的联系。需要指出的是,这样一个具有内在联系的有机的元数据字典,实质上是为档案数据库提供通信格式,并不要求完全遵循,如果有特殊要求,只需要在此基础上提供转换功能即可。随着档案信息化的深入,元数据字典的建设还应当包括全文和电子文件的元数据项目,为电子文件管理系统的设计提供相应的元数据,实现电子文档的前端控制,从而在根本上解决电子文档接口规范问题。
4.建立健全数据库质量控制体系
针对档案数据库数据质量的问题,笔者认为应当将档案数据库视作档案部门的信息产品,并依照生产产品的管理方式,通过质量控制体系进行监管。该体系以可操作的方式提供对档案数据库的全面质量管理,包括数据库设计、建设、管理活动中主要环节的控制,并制定数据库质量考核指标体系。该体系要求将数据库设计过程作为单独的项目进行管理,通过项目文档能够审查数据库设计过程是否科学、合理;能够对数据库建设过程中的人、财、物进行审计;对数据收集、录入、备份等各环节提供质检措施,保证数据准确、完整;通过质量指标体系对数据库容量、响应时间、查全率、查准率、错误率等进行核查。依照质量控制体系进行管理,能够优化数据库管理活动,加强数据库建设人员的责任感。
5.加强档案数据库队伍建设
随着档案事业的不断推进,对档案信息管理人员的要求越来越高。档案数据库作为档案信息化建设的中枢工程,其规划、设计、实施、管理、维护、标准建设等都需要相关人员具有较高的综合素质,不仅要熟悉馆藏,了解基本档案理论、业务流程、未来发展,还要掌握数据库管理的基本技能,对于档案数据库管理员,还需要具备一定的规划能力和标准化知识,而目前这方面的人才是比较缺乏的,需要档案部门和教育机构通力合作,培养通晓档案数据库建设的全面人才,全面推进档案信息资源的开发进程。
注释:
①查询时间:2005年9月16日,检索形式为“篇名”,检索模式为“精确检索”,数据库来源为“电子技术及信息科学辑目录”,特此说明。
②孙淑扬编著:《档案管理与计算机》,第176页,档案出版社1987年3月。
③洪漪编著《档案信息组织与检索》,第146页,武汉大学出版社,1998年1月。
④杨公之主编:《档案信息化建设实务》,中国档案出版社,2003年,第103页。
(原文载于《档案学通讯》2006年第4期)
⑥ 世界上三大文献检索数据库是哪几个
SCI--Science Citation Index《科学引文索引》 - EI—Engineering Index《工程索引》 - ISTP—Index to Scientific & Technical Proceedings 《科技会议录索引》 - SCI SCI(《科学引文索引》,英文全称为Science Citation Index)是美国科学情报研究所(In stitute for Scientific Information,简称ISI)出版的一部世界著名的期刊文献检索工具,其出版形式包括印刷版期刊和光盘版及联机数据库,现在还发行了互联网上Web版数据库。 SCI收录全世界出版的数、理、化、农、林、医、生命科学、天文、地理、环境、材料、工程技术等自然科学各学科的核心期刊约3500种。ISI通过它严格的选刊标准和评估程序挑选刊源,而且每年略有增减,从而做到SCI收录的文献能全面覆盖全世界最重要和最有影响力的研究成果。ScI所谓最有影响力的研究成果,指的是报道这些成果的文献大量地被其它文献引用。为此,作为一部检索工具,SCI一反其它检索工具通过主题或分类途径检索文献的常规做法,而设置了独特的“引文索引”(Citation Index)。即通过先期的文献被当前文献的引用,来说明文献之间的相关性及先前文献对当前文献的影响力。 SCI以上做法上的特点,使得SCI不仅作为一部文献检索工具使用,而且成为科研评价和的一种依据。科研机构被SCI收录的论文总量,反映整个机构的科研、尤其是基础研究的水平;个人的论文被SCI收录的数量及被引用次数,反映他的研究能力与学术水平。 此外,ISI每年还出版JCR(《期刊引用报告》,全称Journal Citation Reports)。JCR对包括SCI收录的3500种期刊在内的4700种期刊之间的引用和被引用数据进行统计、运算,并针对每种期刊定义了影响因子(Impact Factor)等指数加以报道。一种期刊的影响因子,指的是该刊前二年发表的文献在当前年的平均被引用次数。一种刊物的影响因子越高,也即其刊载的文献被引用率越高,一方面说明这些文献报道的研究成果影响力大,另一方面也反映该刊物的学术水平高。因此,JCR以其大量的期刊统计数据及计算的影响因子等指数,而成为一种期刊评价工具。图书馆可根据JCR提供的数据制定期刊引进政策;论文作者可根据期刊的影响因子排名决定投稿方向。 EI Ei Compendex是全世界最早的工程文摘来源。Ei Compendex数据库每年新增的50万条文摘索引信息分别来自5100种工程期刊、会议文集和技术报告。Ei Compendex收录的文献涵盖了所有的工程领域,其中大约22%为会议文献,90%的文献语种是英文。Ei公司在1992年开始收录中国期刊。1998年Ei在清华大学图书馆建立了Ei中国镜像站。 SCI、SSCI 简介 目前,在国际科学界,如何正确评价基础科学研究成果已引起越来越广泛的关注。而被SCI、SSCI收录的科技论文的多寡则被看作衡量一个国家的基础科学研究水平、科技实力和科技论文水平高低的重要评价指标。那么,究竟什么是SCI和SSCI呢?我们根据所掌握的资料,简介如下: 一、SCI简介-- SCI即《科学引文索引》(Science Citation Index),是由美国科学信息研究所(Institute for Scientific Information 简称ISI)创建的,收录文献的作者、题目、源期刊、摘要、关键词,不仅可以从文献引证的角度评估文章的学术价值,还可以迅速方便地组建研究课题的参考文献网络。SCI创刊于1961年。经过40年的发展完善,已从开始时单一的印刷型发展成为功能强大的电子化、集成化、网络化的大型多学科、综合性检索系统。-- SCI从来源期刊数量划分为SCI和SCI-E。SCI指来源刊为3500多种的SCI印刷版和SCI光盘版(SCI Compact Disc Edition, 简称SCI CDE),SCI-E(SCI Expanded)是SCI的扩展库,收录了5600多种来源期刊,可通过国际联机或因特网进行检索。SCI涵盖学科超过100个,主要涉及农业、生物及环境科学;工程技术及应用科学;医学与生命科学;物理及化学;行为科学。-- 二、SSCI简介-- SSCI即社会科学引文索引(Social Sciences Citation Index),为SCI的姊妹篇,亦由美国科学信息研究所创建,是目前世界上可以用来对不同国家和地区的社会科学论文的数量进行统计分析的大型检索工具。1999年SSCI全文收录1809种世界最重要的社会科学期刊,内容覆盖包括人类学、法律、经济、历史、地理、心理学等55个领域。收录文献类型包括:研究论文,书评,专题讨论,社论,人物自传,书信等。选择收录(Selectively Covered)期刊为1300多种。 三、SCI、SSCI交叉关系-- SSCI对其收录期刊范围的说明中明确告知该数据库中有一部分内容与SCI重复,这是因为学科之间本身有交叉,是社会科学与自然科学相结合的跨学科的研究在文献中的自然反映。 另外,SSCI从3400余种自然科学期刊中,通过计算机检索文章主题和引文后,生成一个与社会科学有关的文献目录,此目录再经ISI编委会审核,选择与社会科学密切相关的文献加入SSCI。因此SSCI也收录了相当数量的自然科学文献,二者的交叉关系更为密切。 EI简介 EI是美国《工程索引》(The Engineering Index)的简称。EI创刊于1884年,由美国工程情报公司(Engineering Information Co.)出版发行。EI是工程技术领域内的一部综合性检索工具,报道内容包括:电类、自动控制类、动力、机械、仪表、材料科学、农业、生物工程、数理、医学、化工、食品、计算机、能源、地质、环境等学科。- ISTP简介 ISTP是Index to Scientific & Technical Proceedings的缩写,是美国科学情报研究所的网络数据库Web of Science Proceedings中两个数据库(ISTP和ISSHP)之一。专门收录世界各种重要的自然科学及技术方面的会议,包括一般性会议、座谈会、研究会、讨论会、发表会等的会议文献,涉及学科基本与SCI相同。 ISTP收录论文的多少与科技人员参加的重要国际学术会议多少或提交、发表论文的多少有关。我国科技人员在国外举办的国际会议上发表的论文占被收录论文总数的64.44%。 在ISTP、 EI、 SCI这三大检索系统中,SCI最能反映基础学科研究水平和论文质量,该检索系统收录的科技期刊比较全面,可以说它是集中各个学科高质优秀论文的精萃,该检索系统历来成为世界科技界密切注视的中心和焦点。