① 資料庫和大數據的區別
在大數據處理當中,資料庫提供底層支持,實現了穩固的大數據存儲,才能更好地支持下一步的大數據計算。今天的大數據基礎知識分享,我們來聊聊大數據當中,資料庫和數據倉庫的區別,怎麼去理解這兩者,又該怎麼去應用? 首先,資料庫是什麼?
從定義上來說,資料庫是用來存放數據的倉庫,資料庫由很多表組成,表是二維的,一張表裡面有很多欄位。欄位一字排開,對數據就一行一行的寫入表中。
資料庫的表,在於能夠用二維表現多維的關系,如:oracle、DB2、MySQL、Sybase、MSSQL Server等,都是典型的資料庫。
那麼,數據倉庫又是什麼?
數據倉庫,可以理解為是資料庫概念的升級。從邏輯上理解,資料庫和數據倉庫沒有區別,都是通過資料庫軟體實現存放數據的地方,只不過從數據量來說,數據倉庫要比資料庫更龐大。
資料庫和數據倉庫的區別:
1.資料庫只存放在當前值,數據倉庫存放歷史值;
2.資料庫內數據是動態變化的,只要有業務發生,數據就會被更新,而數據倉庫則是靜態的歷史數據,只能定期添加、刷新;
3.資料庫中的數據結構比較復雜,有各種結構以適合業務處理系統的需要,而數據倉庫中的數據結構則相對簡單;
4.資料庫中數據訪問頻率較高,但訪問量較少,而數據倉庫的訪問頻率低但訪問量卻很高;
5.資料庫中數據的目標是面向業務處理人員的,為業務處理人員提供信息處理的支持,而數據倉庫則是面向高層管理人員的,為其提供決策支持;
6.資料庫在訪問數據時要求響應速度快,其響應時間一般在幾秒內,而數據倉庫的響應時間則可長達數幾小時。
關於,資料庫基礎,大數據資料庫和數據倉庫的區別,以上就是詳細的介紹了。在大數據當中,資料庫和數據倉庫的知識的,都是值得關注的,也是在學習當中需要去重視的。
② 剛開始學習資料庫知識應該看哪些書
ACCESS或者是Foxpro;
<<離散數學>>中的關系代數部分;
資料庫原理與優化;
TranSQL-92標准;
SQL、ERVER、MYSQL、ORACLE中的一種。
③ 什麼叫歷史信息
為「十五」211工程公共服務體系-CERNET高速地區網和重點學科信息服務體系建設項目的子專題項目「重點學科信息資源建設-歷史學信息資源系統」,東北師范大學受教育部科技司委託並經過努力,該系統(此處為網址域名)正式投入使用以來,存儲總量已達100G。
本歷史學信息資源系統主要包括以下內容:
歷史學信息資源中心建設,採用本地服務、鏡像站點、遠程鏈接等多種方式,整合集成國內外歷史學有關的信息資源,建立本領域的核心網路信息資源中心,為不同研究者提供信息支持。具體包括:
國外資料庫鏈接:與國際現有資料庫機構聯系,建立其鏈接。
國內出版物資料庫:收集國內的相關資料(學術期刊、主要出版物),建立資料庫並定期增補、完善。
學位論文資料庫:將本領域的博士與碩士學位論文集中成庫,並提供檢索、瀏覽等服務。
期刊論文資料庫:加工整理中文歷史學方面的期刊論文題錄資料庫,提供檢索、瀏覽等服務。
鏡像站點:與國內外主要學術結構、組織,重要學術期刊聯系,建立其頁面鏈接、鏡像鏈接。
網路免費歷史學資源鏡像:不涉及知識產權的中外歷史學相關電子文獻,具體包括電子圖書、影音資料、地圖等,提供檢索、瀏覽等服務。
同時,根據不同研究項目的特點,本項目將根據數據特徵(如數據類型、國別、歷史階段、關鍵詞以及與之對應的項目等)對現有歷史學信息資料進行分類與描述,實現信息資料的分類。
...........................................................................
網址導航:
□
World Wide Web Virtual Library History Central Catalogue 「歐洲大學學院」建設的互聯網虛擬圖書館。
Abraham Lincoln's Second Inauguration
□
Selected History Resources 普林斯頓大學歷史系主辦的綜合性歷史網站。
□
The History Net 由《美國內戰》、 《美國史》、《軍事史》等雜志組成的內容豐富的歷史雜志網站。
□
American Association for the Advancement of Science 致力於推進科學研究的國際非贏利組織,提供許多科學史研究方面的資料。
□
The Development of Western Civilization I 西方文明發展史I(史前文明),涉及到歷史、藝術建築、文學戲劇、音樂、日常生活文化等方面。
□
The Paleolithic Diet Page 一個全方位介紹舊石器時代研究機構、著作、信息、文獻的導航網站。
更多....
...................................................................................
歷史資源庫:(包括歷史類圖片、地圖、視頻、圖書等) <例舉如下>
甲骨文
圖片例
□
<序號> = 1 <分類> = B04;F05 <題名> = 包公像 <著者> =
<主題> = 中國古代史;包公;北宋
<文摘> = 簡介:該畫像是根據合肥包公第36世後裔包信芝等回憶重畫的,原作為包拯60壽辰時其學生為他所畫,在合肥保存到1966年,後被焚毀。1999年,包信芝等合肥嫡系後裔請畫家根據記憶重繪。
<來源> = \項目\中國古代史\包公像.jpg
<點擊查看圖片>
視頻
④ 資料庫發展歷史是什麼
資料庫對於普通人來講
就可以簡單理解為有固定格式的數據集合,回
專門為解決某一類數據保存和計答算問題而存在的,
就像單位用的各種各樣的報表和單據,
只不過軟體會幫你保存管理這些單據和報表在計算機上,
幫你計算求和等等操作 生成你想要的各種數據報告。
利用資料庫軟體和計算機的高速運算特性,
可以大大提高工作效率和正確性。
減少工作時間成本和人力成本。
沒有他們也可以,但是你不得不用手工的辦法處理數據,
不管數據量多少都一樣。
⑤ 檔案學有哪些資料庫
【編者按】:檔案學就是探索檔案、檔案工作和檔案事業的發展規律,研究檔案信息資源的管理、開發的理論、原則與方法的學科。精品學習網檔案學欄目為您提供檔案學範文參考,以及檔案學寫作指導和格式排版要求,解決您在寫作中的難題。
淺談資料庫在檔案管理中的應用
[摘要]本文分析了資料庫在檔案管理中應用的現狀與不足,討論了利用資料庫技術對檔案進行管理的實現和應用,提出了有建設性的對策和建議,提出了自己的思考。
[關鍵詞]資料庫 檔案管理 應用
信息化是當今世界發展的大趨勢,是推動經濟社會發展和變革的重要力量。隨著我國各單位業務的急速發展,單純的手工記錄方式已無法及時有效地對檔案材料進行收集、整理、立卷、歸檔和管理。而計算機技術在近十年來的迅猛發展,使得各單位利用計算機對檔案進行輔助管理成為可能。檔案信息化是在檔案管理中全面應用現代信息技術,對檔案信息資源進行開發、管理和提供利用等服務,主要包括檔案資源數字化和網路化、檔案信息管理和利用提供的一體化、檔案信息的高度共享等。
《全國檔案信息化建設實施綱要》規定了我國近期檔案工作發展目標,《國家信息化發展戰略(2006年—2020年)》的審議通過,為檔案信息化提供了有力保障。計算機的介入打破了傳統的管理模式,使得原本鬆散、龐雜的檔案管理邁入了集中統一、信息自動化的新領域。雖然,利用計算機輔助管理檔案能大量減輕管理工作的強度、提高管理工作的效率,並能減少管理工作的失誤,但是由於計算機技術,尤其是資料庫的發展是一個逐步開發、完善的過程,同時使用該技術的工作人員也有逐步學習、應用的階段,因此計算機輔助管理各單位檔案中也存在著不少需要解決的問題。
一、資料庫在檔案管理中應用的現狀與不足
隨著各單位業務的不斷擴大,傳統的手工管理檔案的方法,已經不能適應成倍膨脹的檔案數量,也無法滿足社會對檔案的巨大利用需求,利用檔案管理軟體進行計算機管理是提高各單位檔案服務水平的必由之路。將手工管理的紙質檔案轉換為數字信息進入網路,即從檔案的實態轉換到虛擬態,檔案信息與載體分離,在這個意義上說網路傳遞的僅是檔案信息,用戶得到的僅是復製品,而非檔案原件。使用資料庫計算機輔助管理檔案不同於以往對紙質文檔進行收集、整理、立卷、歸檔、管理等工作,管理人員除了需要具備檔案管理業務素質外,還需要對計算機及資料庫應用具備一定的認識。有相當多的檔案管理工作人員知識結構老化,缺乏計算機技術知識,不能准確、規范地錄入基本信息,導致基本信息錯誤、缺失甚至張冠李戴。與此同時,由於一些檔案管理軟體在建立時僅考慮當時的數據量和用戶需求,資料庫結構中只有比較有限的幾個數據欄位,資料庫容量較小,不能導出通用格式的數據。當數據量成倍增加,資料庫運行的速度就相應減慢,使工作效率被迫降低。
二、資料庫在檔案管理中的應用建議
要全面提升檔案資料庫系統的安全水平是個艱難的過程,涉及方面很多,需要管理部門投入人量的人力物力。有些方面,例如,設備的可靠性,火災預防等方面,主要涉及投入力度的問題:防止人為的有意識破壞方面,如泄密監取密碼口令、計算機病毒、黑客等,主要依靠管理制度和計算機安全專項技術。但在資料庫的一致性、完整性問題上,檔案管理部門自身起著決定性作用。主要應關注以下幾點:
1.採用科學的資料庫開發方式
早期使用結構化方法開發的檔案管理軟體,其穩定性、可修改性和可重用性都比較差,用戶需求的變化往往造成系統結構的較大變化,並且需要花費很大代價才能實現這種變化。新的檔案管理軟體可採用面向對象的程序設計方法,商定一種或多種數據轉換方式,以便數據能夠在不同軟體之間實現信息共享。考慮到信息網路化的需要,檔案管理軟體可具備通過網頁進行數據查詢、交換的功能。同時還應考慮數據量增加的速度和資料庫技術發展的趨勢,以便今後對資料庫進行升級或更新換代。對於管理條例的各種文件可採用數碼照相或者文本方式進行保存整理,通過公文類程序或網頁進行交換及查詢。
2.確保檔案的保密性和安全性
單位檔案的保密性和安全性是十分令人關注的問題。檔案一旦進入計算機網路系統,網路的安全將直接關繫到檔案的保密性。對於計算機網路與電子文件所存在的技術上的弱點只能靠技術上的發展去解決。作為計算機網路的使用者,電子文件的形成者和保管者都有責任關注信息技術的最新發展,也有責任採用諸如防火牆、密碼技術、網關、虛擬保險箱、電子印章、電子水印等最先進信息技術解決上述問題。同時通過建立符合科研檔案技術發展規律的各種工作規范來保障電子文件的安全。只要工作規范,技術到位,這一科研檔案工作的主要障礙是完全可以解決與克服的。
加強網路監控,及時備份數據。網路中存在的安全性問題是對檔案管理系統安全性最大的威脅。目前有多種網路安全策略,各種安全策略必須相互配合才能真正起到保護作用,其中網路的訪問控制可以說是保證網路安全最重要的核心策略,它的主要任務是保證網路資源不被非法使用和訪問,它也是維護網路系統安全、保護網路資源的重要手段。另外,要注意建立計算機檢索查詢和提供檔案信息的主要服務方式,為使用者提供網狀信息組織結構,使用戶可以根據自己的意志沿著信息之間的關系鏈進行瀏覽,而不是按照規定途徑進行檢索和查詢檔案信息。
3.關注計算機病毒的新變化
當檔案信息系統擴展到區域網甚至互聯網時,計算機病毒成為不可迴避的危害,而且新型病毒具有許多網路時代的新特徵,例如,病毒傳播主要通過網路途徑擴散,病毒與計算機入侵關系密切,Windows操作系統的網路功能是常見的攻擊點,等等,檔案工作者應當時刻注意新的技術變化,制定針對性策略,並從管理制度、技術監督、後備保護、應急措施等多方面綜合防範。
4.加強法制建設
保障檔案信息安全單純依靠檔案管理部門自身的努力是不夠的,還需要有相關法律、規章制度的約束。因此,檔案信息安全與其它社會問題一樣,是一個復雜的綜合性較強的問題,各個環節必須緊密銜接才能發揮作用。立法在保障檔案信息安全性中的作用是不言而喻的,缺乏法律支持的信息安全保障是紙上談兵。我國已將信息安全列入國家信息化發展戰略,遼寧省早在1998年就通過了《遼寧省計算機信息系統安全管理條例)),這些都將在檔案信息安全保障中發揮重要作用,但隨著新問題的出現還需要更完善的、更專業的法律、法規出台。
參考文獻:
[1]張姝,韓振英.計算機在學籍檔案管理中的應用[J].洛陽工業高等專科學校學報,1998,(4).
[2]劉淑芬.計算機網路技術與學校檔案管理[J].學校檔案,1999,(1):23-25.
[3]徐志敏.計算機技術對檔案工作的影響[J].辦公室業務,2000,(3):32-33.
檔案資料庫建設中存在的問題及解決思路
錢毅
摘要:檔案資料庫是檔案信息資源管理的核心工具,目前我國檔案資料庫的建設和利用狀況還存在不少問題。作者首先解析了檔案資料庫的概念,指出應當從檔案業務需求的角度去考察資料庫的功能,並分析了檔案實踐的發展導致了檔案資料庫內容變化的幾大因素。在檔案建設過程中存在的問題包括缺乏有效統籌規劃、資料庫定位不準確、標准規范缺失、數據質量不高等。要解決這些問題,作者提出應當加強檔案資料庫規劃管理、完善標准規范、建立健全質量控制體系、培養人才隊伍等措施。
關鍵詞:檔案資料庫 概念 問題 思路
資料庫技術是20世紀60年代末發展起來的一門信息管理技術,是公認的信息資源開發、管理和服務的核心手段。目前資料庫的建設規模、信息量大小和使用頻率已經成為衡量一個國家信息化水平和綜合國力的重要尺度。在我國國家和地方各級的檔案信息化規劃中,檔案資料庫作為檔案信息資源管理的核心工具也都得到了廣泛的重視。但檔案界一直存在著如何盤活檔案資源、提高利用效率等問題。應該說,擁有先進的數據組織技術和靈活可靠管理手段的資料庫技術理論上可以從容面對這些挑戰,為檔案信息化搭建一個堅實的平台。事實上幾乎所有的檔案信息管理系統的中心都由檔案資料庫來擔當,無論其形式是檔案輔助管理系統還是所謂的數字檔案館。但檔案資料庫的建設和利用狀況仍然不容樂觀,還存在著數據結構封閉、數據質量不高,檔案信息資源尚未完全走出信息孤島的狀態。筆者擬從對檔案資料庫的概念、檔案資料庫的應用現狀及建設思路幾個方面來分析這些問題。
一、檔案資料庫概念解析
檔案資料庫的建設在我國已經有20餘年的歷史,但其理論發展卻並不充分。筆者通過期刊網(www.cnki.net)進行查閱,在1994~2005年間查詢到篇名中包含「檔案資料庫」的文章僅有28篇①,內容多局限在實際工作總結的層次上,對檔案資料庫的概念描述和理論挖掘相對較少。
通過文獻調研,筆者發現早在1987年孫淑揚就指出「檔案資料庫屬於文獻資料庫,是檔案自動化的重要內容,它是經過整理組織以機讀形式出現的檔案信息集合。②」洪漪編著的《檔案信息組織與檢索》中認為「機讀檔案資料庫,簡稱檔案資料庫,是以一定的組織方式存儲在一起的機讀檔案數據的集合。這些數據包括檔案題名、責任者、來源、頁碼、分類號、主題詞、摘要等,少數包含檔案全文。③」楊公之主編的《檔案信息化建設實務》一書認為「檔案資料庫,從廣義的角度講,就是以特定方式組織起來的檔案數據集合。具體地講,就是為了滿足多個用戶多種應用需要,按照一定的數據模型將本單位所保管的檔案信息存貯在計算機中以備使用的數據形式。④」
筆者無意為檔案資料庫給出一個確切的定義,因為作為支撐點的「檔案」與「資料庫」在實際應用中本身就是發散性很強的概念,而且還在不斷發展變化之中,上述定義都符合其各自特定的信息背景,以致檔案資料庫在不同階段的發展中出現了許多稱謂,如機讀目錄資料庫、索引資料庫,照片檔案資料庫、全文資料庫、多媒體檔案資料庫等等。因此研究檔案資料庫,需要綜合把握資料庫和檔案實踐的發展,獲得對檔案資料庫的相對完整的認識。
在研究資料庫時,除了掌握其先進的管理手段和操作方法外,更重要的是要立足檔案信息資源的特點,按照需求引導的原則關注資料庫中可以「為我所用」的部分,而不能片面追求資料庫功能而忽視基本的檔案需求。比如為了描述日益豐富的檔案數據類型,我們要求資料庫具有完備的數據類型能夠表達音頻、視頻、全文等信息類型;為了加強檔案數據質量控制,需要重點關注資料庫的完整性管理機制;為了保證檔案數據的安全,需要靈活應用資料庫的視圖功能、許可權管理以及加密機制等。此外,資料庫提供的共享交換、格式轉換、數據倉庫等核心功能可以為檔案資料庫提升管理水平和管理層次都提供技術保障。
同時,我們還要關注檔案實踐活動的變化,關注這些變化可能對檔案資料庫帶來的影響。筆者認為影響檔案資料庫內容的主要因素有如下三個方面。
1.檔案實體管理。在近年的檔案管理活動中出現了許多新情況,比如2000年出台的《歸檔文件整理規則》允許在文書檔案實體管理活動中取消「卷」的概念,這直接影響到檔案資料庫是否還需要「卷」這一級邏輯層次,從而影響相關表的數據結構。信息記錄技術的發展引進了許多新型載體,目前紙張、照片、膠片、縮微膠片、硬碟、軟盤、磁帶、各類光碟、圖紙等共存一室並不鮮見,不同類型的載體需要有不同的數據表來進行管理,檔案信息化規劃中還要求將這些載體的信息通過各種方式數字化後進入計算機系統,這也極大地豐富了檔案資料庫的內容。此外,在檔案信息利用環節,用戶全文和多媒體信息檢索需求也會促進檔案資料庫的數據類型的拓展。
2.檔案資料庫設計活動。在多數情況下,檔案資料庫系統並不只是純粹檔案數據的集合,還包括檔案管理活動中的其他信息,這些信息可以在資料庫設計過程中被納入管理。比如,在使用數據流圖等工具進行資料庫需求分析的時候,可以將許多業務流程方面的管理信息納入數據字典;資料庫的概念設計階段經常使用的ER模型(Entity-Relation Model)要求仔細分析檔案管理域中各實體及其之間的聯系,並據此建立檔案資料庫模式,通過這種設計方法得到的資料庫通常還包括一些管理實體,比如包括各類人員庫、標准庫、組織機構表、保管期限表、人員許可權表、庫房信息等,甚至包括檔案借閱者信息,而其中相當一部分不屬於檔案本體數據所包含的范圍。
3.應用環境。不同的機構具有不同的應用環境,像檔案館與一般業務部門的應用環境就有很大差別,它們對於檔案數據具有不同的管理要求。比如在信息集中管理應用環境中,為了管理方便,往往將檔案與資料、期刊、報紙、圖書等大量的非檔案成分進行集中管理;文檔一體化環境則將文件與檔案數據共存一庫,彼此依存,或者乾脆就是合而為一;電子文件管理應用環境則根據前端控制原則,要求電子檔案資料庫的建設不能採用事後建庫的方式,而必須深入到文件形成階段,收集電子文件生命周期的完整信息。因此可以看出,不同應用環境下建立的檔案資料庫的內容範圍存在較大的差異。
通過簡要分析檔案資料庫概念的內涵及其變化,筆者認為對於檔案資料庫的理解不能一刀切,而應該立足檔案資料庫建設單位的實際環境和系統需求,將包括檔案實體信息、管理信息、應用環境信息在內的各種類型數據按照特定數據模型進行組織的數據集合,並以此為據來考察目前我國檔案資料庫存在的一些問題。
二、檔案資料庫建設中存在的問題
在檔案信息系統的建設過程中,軟硬體設施可以通過購買、引進而獲得,但一個行業或者部門的信息資源是買不來的,只能依靠自己建設。檔案資料庫作為檔案信息資源採集、處理、存儲和傳輸中心,在檔案信息資源中佔有舉足輕重的作用。因而從宏觀上講,如何規劃設計檔案資料庫的建設,是關系檔案信息化進程是否能夠順利進行的關鍵因素。應該說,我們在這方面取得了很大的進步,資料庫建設數量、分布的范圍、發展的勢頭都是可喜的,初步消除了檔案部門會淪為「信息孤島」的疑慮。但同時,許多檔案資料庫建設中的問題也浮上檯面,能否解決好這些問題是關系檔案資料庫未來發展的關鍵。
1.檔案資料庫建設缺乏有效的統籌規劃
檔案資料庫建設是檔案信息資源開發的核心工作,但目前我國檔案資料庫建設缺乏有效的統籌規劃。在國家檔案資料庫建設層面上,除了明清、民國、革命歷史檔案資料三個目錄中心的建設已經啟動外,尚未有國家級檔案資料庫的規劃安排,各地檔案部門在實際建立檔案資料庫時基本上是各自為政,在檔案數據標准體系尚不完善的情況下,這種局面將會導致數據共享困難。雖然我國就檔案資料庫的建設也提出過總體指導意見,比如《全國檔案信息化綱要》一文中多次提到檔案資料庫的建設問題,提出「加強檔案目錄資料庫建設」、「進一步加強檔案目錄中心建設」、「積極推進檔案全文資料庫和多媒體資料庫建設」等,但這些意見缺乏可操作性。此外,如何將電子文件以及數字化檔案的信息納入檔案資料庫中進行管理,也需要在宏觀層面上進行有效的統籌規劃。
2.把握好資料庫定位
也就是要回答好「建設什麼樣的檔案資料庫」的問題,回答這個問題需要充分了解檔案資料庫的內涵,明確建庫的需求和目的,確定資料庫定位,有的放矢。資料庫定位將直接影響到資料庫的建設成本、規模、效能等,是進行檔案資料庫以及信息系統建設的一個基本出發點。比如,是建立存儲檔案著錄信息為主的目錄資料庫,還是建立存儲檔案全文的全文資料庫;是根據館藏的特點建立具有特色的資料庫,還是基於館藏圖片、音像等資料建立綜合
性多媒體資料庫;是建立檔案信息管理系統、文檔一體化系統還是電子文檔管理系統;是獨立建庫還是若干機構建立聯合目錄中心,或者是為未來的數字檔案館做數據准備。這些問題都需要提前論證,做好決策。而我們目前的檔案資料庫建設,在定位方面做的工作還不充分,許多資料庫千篇一律,缺乏特色;或者資料庫結構相似卻不能聯合,各自為戰,造成資源分散,工作量重復。
3.資料庫設計盲目性大,存在不科學的成分
資料庫設計是一項非常嚴謹、科學性很強的一項工程,從可行性分析開始,逐次進行數據分析,繪制資料庫的數據字典,然後運用各種工具進行概念模型設計、外模式設計和物理設計,最後才能裝載資料庫。其中的各個步驟都必須認真對待,偏廢不得,前一階段的設計是下一階段工作的基礎,不適合跨越設計階段開展工作。
但在實際的檔案資料庫設計過程中,還存在著許多不科學的問題。特別在資料庫可行性分析和數據分析階段存在的隨意現象比較突出。許多設計者對繁瑣的數據分析不太重視,往往一上來就開始設計庫表結構,這種脫離詳細分析的設計方法雖然表面上速度較快,但其質量經不起推敲。對任何一個資料庫系統而言,庫表結構是其基石所在,基石不牢,大廈則有將傾之虞。
4.資料庫邏輯結構缺乏規范
在進行資料庫邏輯結構設計時,相關標准規范缺失是造成檔案資料庫的設計工作流於隨意的主要原因,而檔案資料庫邏輯結構不規范的情況會引起資料庫之間轉換困難、難以共享等問題。目前正在許多單位開展的數字化工作所形成的圖像文件、視音頻文件如何建庫管理,目前尚未有相關規范出台。電子文件管理元數據規范的滯後使得電子文件歸檔數據難以收集齊全,還有不少電子文件仍在進行人工著錄登記,長此以往,前端控制原則難以在應用系統中得到應用。而在欄位結構層面上,不規范的情況則更為突出。像在檔案資料庫中通常作為主鍵的「檔號」欄位的表示方法就五花八門,根據浙江省綜合檔案館信息資料庫建設調查報告的調查結果,在這浙江省通用的6種檔案軟體中,有的用4個欄位來表示檔號;有的定義成數字形式;有的定義為字元型,甚至同一個檔案館在不同時期錄入的數據,表示形式也不統一。這將對日後資料庫遷移、目錄中心數據合並等工作帶來極大的困難。
5.數據質量
檔案資料庫的建設必須保證良好的數據質量,「問水哪得清如許,為有源頭活水來」這句古詩啟示我們,准確的資料庫信息、良好的數據管理是營造檔案資料庫「一池清水」的先決條件。作為重要的社會信息資源單位,檔案部門必須高度重視檔案數據質量,在追求資料庫數量增長的同時,還要加強「污染防治」工作,防止臟數據的產生。而根據浙江資料庫現狀調查報告,隨機檢查結果表明檔案資料庫質量較好的數據誤差也在12%左右,總平均差錯率達29%,造成這種狀況的原因主要在錄入階段,同時資料庫的質量檢查制度不完善也是重要原因。
三、檔案資料庫發展中存在問題的解決思路
1.加強資料庫建設規劃管理
資料庫建設是一項投入非常巨大、周期很長、事關信息化成敗的基礎工程,應當由檔案事業管理部門提供宏觀的指導方針,統籌規劃,合理布局,提供本地區或本行業資料庫建設的藍圖,並會同有關部門對資料庫規劃的可行性進行論證,提出檔案數據建設的具體意見。地方檔案部門則根據宏觀規劃的要求進行詳細設計,以實現全局共享為基礎,突出特色數據。基於這樣的總體思路,可以建立大范圍內協調一致的數據結構,資料庫框架設計、數據內容都能得到很高的共享度,將會改善目前檔案資料庫建設自行一套、質量參差不齊的總體狀況。
2.加強標准規范的建設
檔案信息資源描述標准體系是建設檔案資料庫的重要保障,相關標准規范的確立和逐步完善有助於各級各類檔案資料庫需要保持必要的協調,共同為社會提供高效、優質的檔案信息服務。檔案標准規范的制定要本著「確保數字檔案資源格式統一、數據規范、長期可讀、便於共享」的原則進行。在實施過程中,應當積極採用國際標准和國外先進標准;一般性的信息處理標准優先採用國家標准,如《文獻保密等級代碼》、《全國行政區劃代碼》等標准應當直接採用國家標准,不必另行一套;對檔案領域內特有的資源制定行業標准,如《壽險業務檔案管理標准》。此外為了保證國家文獻系統標准之間的一致性,檔案工作標准應盡量與圖書、情報的國際、國內標准相一致。
3.建立標準的元資料庫
目前資料庫的邏輯結構設計比較混亂,雖然從各資料庫個體角度觀察,並沒有太大的差錯,但結構的不一致、不兼容會對資料庫的共享和相互轉換帶來很大的困難,甚至難以進行。筆者認為,這個問題的最終解決,依賴於以著錄標准化為依託的元資料庫的建設。
目前檔案資料庫的主要記錄對象是檔案文件的二次文獻信息,即文件的著錄信息。許多檔案資料庫結構的確定其實就是將著錄卡上的項目轉換為數據表上的欄位信息。從原理上講,這個過程應該很容易,但由於我國的《檔案著錄規則》,雖然規范了著錄項目,但並沒有規定相應的量化指標,離資料庫系統所要求的結構化數據的要求還有相當距離。由於著錄標准並不是確定數據結構的強制標准,各檔案資料庫在建設時都可以根據自己的理解靈活應用,著錄項目可以自行增刪,欄位類型、欄位長度可以自由選擇,這樣的資料庫進行互聯互通的難度就可想而知了。因此筆者建議以著錄標准為基礎,建立一定范圍內的元數據標准,此處的元數據就是關於資料庫中各數據欄位的信息,並以此為基礎構成元數據字典。該字典提供數據項目的結構化信息,包括數據欄位的名稱、數據類型、長度、默認格式等規范,並說明欄位之間的聯系。需要指出的是,這樣一個具有內在聯系的有機的元數據字典,實質上是為檔案資料庫提供通信格式,並不要求完全遵循,如果有特殊要求,只需要在此基礎上提供轉換功能即可。隨著檔案信息化的深入,元數據字典的建設還應當包括全文和電子文件的元數據項目,為電子文件管理系統的設計提供相應的元數據,實現電子文檔的前端控制,從而在根本上解決電子文檔介面規范問題。
4.建立健全資料庫質量控制體系
針對檔案資料庫數據質量的問題,筆者認為應當將檔案資料庫視作檔案部門的信息產品,並依照生產產品的管理方式,通過質量控制體系進行監管。該體系以可操作的方式提供對檔案資料庫的全面質量管理,包括資料庫設計、建設、管理活動中主要環節的控制,並制定資料庫質量考核指標體系。該體系要求將資料庫設計過程作為單獨的項目進行管理,通過項目文檔能夠審查資料庫設計過程是否科學、合理;能夠對資料庫建設過程中的人、財、物進行審計;對數據收集、錄入、備份等各環節提供質檢措施,保證數據准確、完整;通過質量指標體系對資料庫容量、響應時間、查全率、查准率、錯誤率等進行核查。依照質量控制體系進行管理,能夠優化資料庫管理活動,加強資料庫建設人員的責任感。
5.加強檔案資料庫隊伍建設
隨著檔案事業的不斷推進,對檔案信息管理人員的要求越來越高。檔案資料庫作為檔案信息化建設的中樞工程,其規劃、設計、實施、管理、維護、標准建設等都需要相關人員具有較高的綜合素質,不僅要熟悉館藏,了解基本檔案理論、業務流程、未來發展,還要掌握資料庫管理的基本技能,對於檔案資料庫管理員,還需要具備一定的規劃能力和標准化知識,而目前這方面的人才是比較缺乏的,需要檔案部門和教育機構通力合作,培養通曉檔案資料庫建設的全面人才,全面推進檔案信息資源的開發進程。
注釋:
①查詢時間:2005年9月16日,檢索形式為「篇名」,檢索模式為「精確檢索」,資料庫來源為「電子技術及信息科學輯目錄」,特此說明。
②孫淑揚編著:《檔案管理與計算機》,第176頁,檔案出版社1987年3月。
③洪漪編著《檔案信息組織與檢索》,第146頁,武漢大學出版社,1998年1月。
④楊公之主編:《檔案信息化建設實務》,中國檔案出版社,2003年,第103頁。
(原文載於《檔案學通訊》2006年第4期)
⑥ 世界上三大文獻檢索資料庫是哪幾個
SCI--Science Citation Index《科學引文索引》 - EI—Engineering Index《工程索引》 - ISTP—Index to Scientific & Technical Proceedings 《科技會議錄索引》 - SCI SCI(《科學引文索引》,英文全稱為Science Citation Index)是美國科學情報研究所(In stitute for Scientific Information,簡稱ISI)出版的一部世界著名的期刊文獻檢索工具,其出版形式包括印刷版期刊和光碟版及聯機資料庫,現在還發行了互聯網上Web版資料庫。 SCI收錄全世界出版的數、理、化、農、林、醫、生命科學、天文、地理、環境、材料、工程技術等自然科學各學科的核心期刊約3500種。ISI通過它嚴格的選刊標准和評估程序挑選刊源,而且每年略有增減,從而做到SCI收錄的文獻能全面覆蓋全世界最重要和最有影響力的研究成果。ScI所謂最有影響力的研究成果,指的是報道這些成果的文獻大量地被其它文獻引用。為此,作為一部檢索工具,SCI一反其它檢索工具通過主題或分類途徑檢索文獻的常規做法,而設置了獨特的「引文索引」(Citation Index)。即通過先期的文獻被當前文獻的引用,來說明文獻之間的相關性及先前文獻對當前文獻的影響力。 SCI以上做法上的特點,使得SCI不僅作為一部文獻檢索工具使用,而且成為科研評價和的一種依據。科研機構被SCI收錄的論文總量,反映整個機構的科研、尤其是基礎研究的水平;個人的論文被SCI收錄的數量及被引用次數,反映他的研究能力與學術水平。 此外,ISI每年還出版JCR(《期刊引用報告》,全稱Journal Citation Reports)。JCR對包括SCI收錄的3500種期刊在內的4700種期刊之間的引用和被引用數據進行統計、運算,並針對每種期刊定義了影響因子(Impact Factor)等指數加以報道。一種期刊的影響因子,指的是該刊前二年發表的文獻在當前年的平均被引用次數。一種刊物的影響因子越高,也即其刊載的文獻被引用率越高,一方面說明這些文獻報道的研究成果影響力大,另一方面也反映該刊物的學術水平高。因此,JCR以其大量的期刊統計數據及計算的影響因子等指數,而成為一種期刊評價工具。圖書館可根據JCR提供的數據制定期刊引進政策;論文作者可根據期刊的影響因子排名決定投稿方向。 EI Ei Compendex是全世界最早的工程文摘來源。Ei Compendex資料庫每年新增的50萬條文摘索引信息分別來自5100種工程期刊、會議文集和技術報告。Ei Compendex收錄的文獻涵蓋了所有的工程領域,其中大約22%為會議文獻,90%的文獻語種是英文。Ei公司在1992年開始收錄中國期刊。1998年Ei在清華大學圖書館建立了Ei中國鏡像站。 SCI、SSCI 簡介 目前,在國際科學界,如何正確評價基礎科學研究成果已引起越來越廣泛的關注。而被SCI、SSCI收錄的科技論文的多寡則被看作衡量一個國家的基礎科學研究水平、科技實力和科技論文水平高低的重要評價指標。那麼,究竟什麼是SCI和SSCI呢?我們根據所掌握的資料,簡介如下: 一、SCI簡介-- SCI即《科學引文索引》(Science Citation Index),是由美國科學信息研究所(Institute for Scientific Information 簡稱ISI)創建的,收錄文獻的作者、題目、源期刊、摘要、關鍵詞,不僅可以從文獻引證的角度評估文章的學術價值,還可以迅速方便地組建研究課題的參考文獻網路。SCI創刊於1961年。經過40年的發展完善,已從開始時單一的印刷型發展成為功能強大的電子化、集成化、網路化的大型多學科、綜合性檢索系統。-- SCI從來源期刊數量劃分為SCI和SCI-E。SCI指來源刊為3500多種的SCI印刷版和SCI光碟版(SCI Compact Disc Edition, 簡稱SCI CDE),SCI-E(SCI Expanded)是SCI的擴展庫,收錄了5600多種來源期刊,可通過國際聯機或網際網路進行檢索。SCI涵蓋學科超過100個,主要涉及農業、生物及環境科學;工程技術及應用科學;醫學與生命科學;物理及化學;行為科學。-- 二、SSCI簡介-- SSCI即社會科學引文索引(Social Sciences Citation Index),為SCI的姊妹篇,亦由美國科學信息研究所創建,是目前世界上可以用來對不同國家和地區的社會科學論文的數量進行統計分析的大型檢索工具。1999年SSCI全文收錄1809種世界最重要的社會科學期刊,內容覆蓋包括人類學、法律、經濟、歷史、地理、心理學等55個領域。收錄文獻類型包括:研究論文,書評,專題討論,社論,人物自傳,書信等。選擇收錄(Selectively Covered)期刊為1300多種。 三、SCI、SSCI交叉關系-- SSCI對其收錄期刊范圍的說明中明確告知該資料庫中有一部分內容與SCI重復,這是因為學科之間本身有交叉,是社會科學與自然科學相結合的跨學科的研究在文獻中的自然反映。 另外,SSCI從3400餘種自然科學期刊中,通過計算機檢索文章主題和引文後,生成一個與社會科學有關的文獻目錄,此目錄再經ISI編委會審核,選擇與社會科學密切相關的文獻加入SSCI。因此SSCI也收錄了相當數量的自然科學文獻,二者的交叉關系更為密切。 EI簡介 EI是美國《工程索引》(The Engineering Index)的簡稱。EI創刊於1884年,由美國工程情報公司(Engineering Information Co.)出版發行。EI是工程技術領域內的一部綜合性檢索工具,報道內容包括:電類、自動控制類、動力、機械、儀表、材料科學、農業、生物工程、數理、醫學、化工、食品、計算機、能源、地質、環境等學科。- ISTP簡介 ISTP是Index to Scientific & Technical Proceedings的縮寫,是美國科學情報研究所的網路資料庫Web of Science Proceedings中兩個資料庫(ISTP和ISSHP)之一。專門收錄世界各種重要的自然科學及技術方面的會議,包括一般性會議、座談會、研究會、討論會、發表會等的會議文獻,涉及學科基本與SCI相同。 ISTP收錄論文的多少與科技人員參加的重要國際學術會議多少或提交、發表論文的多少有關。我國科技人員在國外舉辦的國際會議上發表的論文占被收錄論文總數的64.44%。 在ISTP、 EI、 SCI這三大檢索系統中,SCI最能反映基礎學科研究水平和論文質量,該檢索系統收錄的科技期刊比較全面,可以說它是集中各個學科高質優秀論文的精萃,該檢索系統歷來成為世界科技界密切注視的中心和焦點。