A. 資料庫發展歷史是什麼
資料庫對於普通人來講
就可以簡單理解為有固定格式的數據集合,回
專門為解決某一類數據保存和計答算問題而存在的,
就像單位用的各種各樣的報表和單據,
只不過軟體會幫你保存管理這些單據和報表在計算機上,
幫你計算求和等等操作 生成你想要的各種數據報告。
利用資料庫軟體和計算機的高速運算特性,
可以大大提高工作效率和正確性。
減少工作時間成本和人力成本。
沒有他們也可以,但是你不得不用手工的辦法處理數據,
不管數據量多少都一樣。
B. 大數據系統能取代實時歷史資料庫嗎
大數據等煤炭、石油等能源資源一樣,是國家基礎性和戰略性資源,也是信息社會極為重內要先進生產力。國家容大數據戰略的發布和實施,開啟了我國大數據產業發展新篇章,近兩年來,我國大數據產業生態體系不斷完善,管理服務應用創新層出不窮,新服務、新模式、新業態不斷涌現,為推進產業轉型升級、創新社會治理模式、優化民生保障服務提供了重要保障,加速了數字中國建設,成為中國經濟社會創新發展的重要驅動力。加快推進大數據在經濟社會各領域創新應用,促進產業創新、管理創新、服務創新和治理創新,已經成為落實創新、協調、綠色、開放、共享五大發展理念重要抓手,成為推動中國經濟社會創新發展重要途徑,成為推動數字中國建設的重要抓手。
C. 學校有哪些資料庫是關於本專業的
本科階段沒有資料庫專業。按教育部的文件,本科階段計算機專業只有一個就是計算機科學與技術專業,不過許多的學校會叫不同的名字。另外現在而言又多了軟體專業,這個專業的偏向性比較強一些。再說一些計算機的研究生階段又分了四個方向。具體就不說那四個了。
你說的那些大學,基本上所有的大學都這樣啊,還是上面說的由於歷史的問題有一些大學會不叫那個名字。
本科所用的大學都會將資料庫作為必修課來學的,學好資料庫就業肯定不是問題,許多的方面都需要資料庫的人才,許多的軟體沒有資料庫是不可以的。因此就業不用太愁。建議學好編程和資料庫那更基本上沒什麼問題。
另外還有一些建議就是你不管在那個大學,那個專業,在大學期間盡量干一些實事,就是比較實際的事情,不要老搞虛的東西,做點項目啦或者自己開發點東西。
D. 歷史學有哪些常用的網站/資料庫
1. IBM 的DB2作為關系資料庫領域的開拓者和領航人,IBM在1977年完成了System R系統的原型,1980年開始提供內集成的資料庫伺服器—容— System/38,隨後是SQL/DSforVSE和VM,其初始版本與SystemR研究原型密切相關。
E. 資料庫的發展簡史
使用計算機後,隨著數據處理量的增長,產生了數據管理技術。數據管理技術的發展與計算機硬體(主要是外部存儲器)系統軟體及計算機應用的范圍有著密切的聯系。數據管理技術的發展經歷了以下四個階段:人工管理階段、文件系統階段、資料庫階段和高級資料庫技術階段。
數據管理的誕生
資料庫的歷史可以追溯到五十年前,那時的數據管理非常簡單。通過大量的分類、比較和表格繪制的機器運行數百萬穿孔卡片來進行數據的處理,其運行結果在紙上列印出來或者製成新的穿孔卡片。而數據管理就是對所有這些穿孔卡片進行物理的儲存和處理。然而,1950 年雷明頓蘭德公司(Remington Rand Inc)的一種叫做Univac I 的計算機推出了一種一秒鍾可以輸入數百條記錄的磁帶驅動器,從而引發了數據管理的革命。1956 年IBM生產出第一個磁碟驅動器—— the Model 305 RAMAC。此驅動器有50 個碟片,每個碟片直徑是2 英尺,可以儲存5MB的數據。使用磁碟最大的好處是可以隨機存取數據,而穿孔卡片和磁帶只能順序存取數據。
1951: Univac系統使用磁帶和穿孔卡片作為數據存儲。
資料庫系統的萌芽出現於二十世紀60 年代。當時計算機開始廣泛地應用於數據管理,對數據的共享提出了越來越高的要求。傳統的文件系統已經不能滿足人們的需要,能夠統一管理和共享數據的資料庫管理系統(DBMS)應運而生。數據模型是資料庫系統的核心和基礎,各種DBMS軟體都是基於某種數據模型的。所以通常也按照數據模型的特點將傳統資料庫系統分成網狀資料庫、層次資料庫和關系資料庫三類。
最早出現的網狀DBMS,是美國通用電氣公司Bachman等人在1961年開發的IDS(Integrated Data Store)。1964年通用電氣公司(General ElectricCo.)的Charles Bachman 成功地開發出世界上第一個網狀DBMS也即第一個資料庫管理系統——集成數據存儲(Integrated Data Store IDS),奠定了網狀資料庫的基礎,並在當時得到了廣泛的發行和應用。IDS 具有數據模式和日誌的特徵,但它只能在GE主機上運行,並且資料庫只有一個文件,資料庫所有的表必須通過手工編碼生成。之後,通用電氣公司一個客戶——BF Goodrich Chemical 公司最終不得不重寫了整個系統,並將重寫後的系統命名為集成數據管理系統(IDMS)。
網狀資料庫模型對於層次和非層次結構的事物都能比較自然的模擬,在關系資料庫出現之前網狀DBMS要比層次DBMS用得普遍。在資料庫發展史上,網狀資料庫佔有重要地位。
層次型DBMS是緊隨網路型資料庫而出現的,最著名最典型的層次資料庫系統是IBM 公司在1968 年開發的IMS(Information Management System),一種適合其主機的層次資料庫。這是IBM公司研製的最早的大型資料庫系統程序產品。從60年代末產生起,如今已經發展到IMSV6,提供群集、N路數據共享、消息隊列共享等先進特性的支持。這個具有30年歷史的資料庫產品在如今的WWW應用連接、商務智能應用中扮演著新的角色。
1973年Cullinane公司(也就是後來的Cullinet軟體公司),開始出售Goodrich公司的IDMS改進版本,並且逐漸成為當時世界上最大的軟體公司。 網狀資料庫和層次資料庫已經很好地解決了數據的集中和共享問題,但是在數據獨立性和抽象級別上仍有很大欠缺。用戶在對這兩種資料庫進行存取時,仍然需要明確數據的存儲結構,指出存取路徑。而後來出現的關系資料庫較好地解決了這些問題。
1970年,IBM的研究員E.F.Codd博士在刊物《Communication of the ACM》上發表了一篇名為「A Relational Model of Data for Large Shared Data Banks」的論文,提出了關系模型的概念,奠定了關系模型的理論基礎。盡管之前在1968年Childs已經提出了面向集合的模型,然而這篇論文被普遍認為是資料庫系統歷史上具有劃時代意義的里程碑。Codd的心願是為資料庫建立一個優美的數據模型。後來Codd又陸續發表多篇文章,論述了範式理論和衡量關系系統的12條標准,用數學理論奠定了關系資料庫的基礎。關系模型有嚴格的數學基礎,抽象級別比較高,而且簡單清晰,便於理解和使用。但是當時也有人認為關系模型是理想化的數據模型,用來實現DBMS是不現實的,尤其擔心關系資料庫的性能難以接受,更有人視其為當時正在進行中的網狀資料庫規范化工作的嚴重威脅。為了促進對問題的理解,1974年ACM牽頭組織了一次研討會,會上開展了一場分別以Codd和Bachman為首的支持和反對關系資料庫兩派之間的辯論。這次著名的辯論推動了關系資料庫的發展,使其最終成為現代資料庫產品的主流。
1969年Edgar F.「Ted」 Codd發明了關系資料庫。
1970年關系模型建立之後,IBM公司在San Jose實驗室增加了更多的研究人員研究這個項目,這個項目就是著名的System R。其目標是論證一個全功能關系DBMS的可行性。該項目結束於1979年,完成了第一個實現SQL的 DBMS。然而IBM對IMS的承諾阻止了System R的投產,一直到1980年System R才作為一個產品正式推向市場。IBM產品化步伐緩慢的三個原因:IBM重視信譽,重視質量,盡量減少故障;IBM是個大公司,官僚體系龐大,IBM內部已經有層次資料庫產品,相關人員不積極,甚至反對。
然而同時,1973年加州大學伯克利分校的Michael Stonebraker和Eugene Wong利用System R已發布的信息開始開發自己的關系資料庫系統Ingres。他們開發的Ingres項目最後由Oracle公司、Ingres公司以及矽谷的其他廠商所商品化。後來,System R和Ingres系統雙雙獲得ACM的1988年「軟體系統獎」。
1976年霍尼韋爾公司(Honeywell)開發了第一個商用關系資料庫系統——Multics Relational Data Store。關系型資料庫系統以關系代數為堅實的理論基礎,經過幾十年的發展和實際應用,技術越來越成熟和完善。其代表產品有Oracle、IBM公司的 DB2、微軟公司的MS SQL Server以及Informix、ADABAS D等等。 1974年IBM的Ray Boyce和Don Chamberlin將Codd關系資料庫的12條准則的數學定義以簡單的關鍵字語法表現出來,里程碑式地提出了SQL(Structured Query Language)語言。SQL語言的功能包括查詢、操縱、定義和控制,是一個綜合的、通用的關系資料庫語言,同時又是一種高度非過程化的語言,只要求用戶指出做什麼而不需要指出怎麼做。SQL集成實現了資料庫生命周期中的全部操作。SQL提供了與關系資料庫進行交互的方法,它可以與標準的編程語言一起工作。自產生之日起,SQL語言便成了檢驗關系資料庫的試金石,而SQL語言標準的每一次變更都指導著關系資料庫產品的發展方向。然而,直到二十世紀七十年代中期,關系理論才通過SQL在商業資料庫Oracle和DB2中使用。
1986年,ANSI把SQL作為關系資料庫語言的美國標准,同年公布了標准SQL文本。SQL標准有3個版本。基本SQL定義是ANSⅨ3135-89,「Database Language - SQL with Integrity Enhancement」[ANS89],一般叫做SQL-89。SQL-89定義了模式定義、數據操作和事務處理。SQL- 89和隨後的ANSⅨ3168-1989,「Database Language-Embedded SQL」構成了第一代SQL標准。ANSⅨ3135-1992[ANS92]描述了一種增強功能的SQL,叫做SQL-92標准。SQL-92包括模式操作,動態創建和SQL語句動態執行、網路環境支持等增強特性。在完成SQL-92標准後,ANSI和ISO即開始合作開發SQL3標准。SQL3的主要特點在於抽象數據類型的支持,為新一代對象關系資料庫提供了標准。
1976年IBM E.F.Codd發表了一篇里程碑的論文「R系統:資料庫關系理論」,介紹了關系資料庫理論和查詢語言SQL。Oracle的創始人Ellison非常仔細地閱讀了這篇文章,被其內容震驚,這是第一次有人用全面一致的方案管理數據信息。作者E.F.Codd 1966年就發表了關系資料庫理論,並在IBM研究機構開發原型,這個項目就是R系統,存取數據表的語言就是SQL。Ellison看完後,敏銳意識到在這個研究基礎上可以開發商用軟體系統。而當時大多數人認為關系資料庫不會有商業價值。Ellison認為這是他們的機會:他們決定開發通用商用資料庫系統Oracle,這個名字來源於他們曾給中央情報局做過的項目名。幾個月後,他們就開發了Oracle 1.0。但這只不過是個玩具,除了完成簡單關系查詢不能做任何事情,他們花相當長的時間才使Oracle變得可用,維持公司運轉主要靠承接一些資料庫管理項目和做顧問咨詢工作。而IBM卻沒有計劃開發,為什麼藍色巨人放棄了這個價值上百億的產品,原因有很多:IBM的研究人員大多是學術出身,他們最感興趣的是理論,而非推向市場的產品,從學術上看,研究成果應公開發表論文和演講能使他們成名,為什麼不呢?還有一個很主要的原因就是IBM當時有一個銷售得還不錯的層次資料庫產品IMS。直到1985年IBM才發布了關系資料庫DB2 ,Ellision那時已經成了千萬富翁。Ellison曾將IBM 選擇Microsoft 的MS-DOS作為IBM-PC機的操作系統比為:「世界企業經營歷史上最嚴重的錯誤,價值超過了上千億美元。」IBM發表R系統論文,而且沒有很快推出關系資料庫產品的錯誤可能僅僅次之。Oracle的市值在1996年就達到了280億美元。 隨著信息技術和市場的發展,人們發現關系型資料庫系統雖然技術很成熟,但其局限性也是顯而易見的:它能很好地處理所謂的「表格型數據」,卻對技術界出現的越來越多的復雜類型的數據無能為力。九十年代以後,技術界一直在研究和尋求新型資料庫系統。但在什麼是新型資料庫系統的發展方向的問題上,產業界一度是相當困惑的。受當時技術風潮的影響,在相當一段時間內,人們把大量的精力花在研究「面向對象的資料庫系統(object oriented database)」或簡稱「OO資料庫系統」。值得一提的是,美國Stonebraker教授提出的面向對象的關系型資料庫理論曾一度受到產業界的青睞。而Stonebraker本人也在當時被Informix花大價錢聘為技術總負責人。
然而,數年的發展表明,面向對象的關系型資料庫系統產品的市場發展的情況並不理想。理論上的完美性並沒有帶來市場的熱烈反應。其不成功的主要原因在於,這種資料庫產品的主要設計思想是企圖用新型資料庫系統來取代現有的資料庫系統。這對許多已經運用資料庫系統多年並積累了大量工作數據的客戶,尤其是大客戶來說,是無法承受新舊數據間的轉換而帶來的巨大工作量及巨額開支的。另外,面向對象的關系型資料庫系統使查詢語言變得極其復雜,從而使得無論是資料庫的開發商家還是應用客戶都視其復雜的應用技術為畏途。 二十世紀六十年代後期出現了一種新型資料庫軟體:決策支持系統(DSS),其目的是讓管理者在決策過程中更有效地利用數據信息。於是在1970年,第一個聯機分析處理工具——Express誕生了。其他決策支持系統緊隨其後,許多是由公司的IT部門開發出來的。
1985年,第一個商務智能系統(business intelligence)由Metaphor計算機系統有限公司為Procter & Gamble公司開發出來,主要是用來連接銷售信息和零售的掃描儀數據。同年, Pilot軟體公司開始出售第一個商用客戶/伺服器執行信息系統——Command Center。同樣在這年,加州大學伯克利分校Ingres項目演變成Postgres,其目標是開發出一個面向對象的資料庫。此後一年, Graphael公司開發了第一個商用的對象資料庫系統—Gbase。
1988年,IBM公司的研究者Barry Devlin和Paul Murphy發明了一個新的術語—信息倉庫,之後,IT的廠商開始構建實驗性的數據倉庫。1991年,W.H. Bill Inmon出版了一本「如何構建數據倉庫」的書,使得數據倉庫真正開始應用。
1991: W.H.「Bill」 Inmon發表了」構建數據倉庫」
二十世紀九十年代,隨著基於PC的客戶/伺服器計算模式和企業軟體包的廣泛採用,數據管理的變革基本完成。數據管理不再僅僅是存儲和管理數據,而轉變成用戶所需要的各種數據管理的方式。Internet的異軍突起以及XML語言的出現,給資料庫系統的發展開辟了一片新的天地。
F. 中國黨史有哪些資料庫
中國共產黨新聞網黨史專欄。
中國共產黨歷史網(黨史權威資料庫)
馬克思主義研究網的(中共黨史與黨建欄目)(中國近現代史欄目)
求是理論網(黨史黨建專題)
中國社會科學院
黨建網
中共中央黨校
G. 檔案學有哪些資料庫
【編者按】:檔案學就是探索檔案、檔案工作和檔案事業的發展規律,研究檔案信息資源的管理、開發的理論、原則與方法的學科。精品學習網檔案學欄目為您提供檔案學範文參考,以及檔案學寫作指導和格式排版要求,解決您在寫作中的難題。
淺談資料庫在檔案管理中的應用
[摘要]本文分析了資料庫在檔案管理中應用的現狀與不足,討論了利用資料庫技術對檔案進行管理的實現和應用,提出了有建設性的對策和建議,提出了自己的思考。
[關鍵詞]資料庫 檔案管理 應用
信息化是當今世界發展的大趨勢,是推動經濟社會發展和變革的重要力量。隨著我國各單位業務的急速發展,單純的手工記錄方式已無法及時有效地對檔案材料進行收集、整理、立卷、歸檔和管理。而計算機技術在近十年來的迅猛發展,使得各單位利用計算機對檔案進行輔助管理成為可能。檔案信息化是在檔案管理中全面應用現代信息技術,對檔案信息資源進行開發、管理和提供利用等服務,主要包括檔案資源數字化和網路化、檔案信息管理和利用提供的一體化、檔案信息的高度共享等。
《全國檔案信息化建設實施綱要》規定了我國近期檔案工作發展目標,《國家信息化發展戰略(2006年—2020年)》的審議通過,為檔案信息化提供了有力保障。計算機的介入打破了傳統的管理模式,使得原本鬆散、龐雜的檔案管理邁入了集中統一、信息自動化的新領域。雖然,利用計算機輔助管理檔案能大量減輕管理工作的強度、提高管理工作的效率,並能減少管理工作的失誤,但是由於計算機技術,尤其是資料庫的發展是一個逐步開發、完善的過程,同時使用該技術的工作人員也有逐步學習、應用的階段,因此計算機輔助管理各單位檔案中也存在著不少需要解決的問題。
一、資料庫在檔案管理中應用的現狀與不足
隨著各單位業務的不斷擴大,傳統的手工管理檔案的方法,已經不能適應成倍膨脹的檔案數量,也無法滿足社會對檔案的巨大利用需求,利用檔案管理軟體進行計算機管理是提高各單位檔案服務水平的必由之路。將手工管理的紙質檔案轉換為數字信息進入網路,即從檔案的實態轉換到虛擬態,檔案信息與載體分離,在這個意義上說網路傳遞的僅是檔案信息,用戶得到的僅是復製品,而非檔案原件。使用資料庫計算機輔助管理檔案不同於以往對紙質文檔進行收集、整理、立卷、歸檔、管理等工作,管理人員除了需要具備檔案管理業務素質外,還需要對計算機及資料庫應用具備一定的認識。有相當多的檔案管理工作人員知識結構老化,缺乏計算機技術知識,不能准確、規范地錄入基本信息,導致基本信息錯誤、缺失甚至張冠李戴。與此同時,由於一些檔案管理軟體在建立時僅考慮當時的數據量和用戶需求,資料庫結構中只有比較有限的幾個數據欄位,資料庫容量較小,不能導出通用格式的數據。當數據量成倍增加,資料庫運行的速度就相應減慢,使工作效率被迫降低。
二、資料庫在檔案管理中的應用建議
要全面提升檔案資料庫系統的安全水平是個艱難的過程,涉及方面很多,需要管理部門投入人量的人力物力。有些方面,例如,設備的可靠性,火災預防等方面,主要涉及投入力度的問題:防止人為的有意識破壞方面,如泄密監取密碼口令、計算機病毒、黑客等,主要依靠管理制度和計算機安全專項技術。但在資料庫的一致性、完整性問題上,檔案管理部門自身起著決定性作用。主要應關注以下幾點:
1.採用科學的資料庫開發方式
早期使用結構化方法開發的檔案管理軟體,其穩定性、可修改性和可重用性都比較差,用戶需求的變化往往造成系統結構的較大變化,並且需要花費很大代價才能實現這種變化。新的檔案管理軟體可採用面向對象的程序設計方法,商定一種或多種數據轉換方式,以便數據能夠在不同軟體之間實現信息共享。考慮到信息網路化的需要,檔案管理軟體可具備通過網頁進行數據查詢、交換的功能。同時還應考慮數據量增加的速度和資料庫技術發展的趨勢,以便今後對資料庫進行升級或更新換代。對於管理條例的各種文件可採用數碼照相或者文本方式進行保存整理,通過公文類程序或網頁進行交換及查詢。
2.確保檔案的保密性和安全性
單位檔案的保密性和安全性是十分令人關注的問題。檔案一旦進入計算機網路系統,網路的安全將直接關繫到檔案的保密性。對於計算機網路與電子文件所存在的技術上的弱點只能靠技術上的發展去解決。作為計算機網路的使用者,電子文件的形成者和保管者都有責任關注信息技術的最新發展,也有責任採用諸如防火牆、密碼技術、網關、虛擬保險箱、電子印章、電子水印等最先進信息技術解決上述問題。同時通過建立符合科研檔案技術發展規律的各種工作規范來保障電子文件的安全。只要工作規范,技術到位,這一科研檔案工作的主要障礙是完全可以解決與克服的。
加強網路監控,及時備份數據。網路中存在的安全性問題是對檔案管理系統安全性最大的威脅。目前有多種網路安全策略,各種安全策略必須相互配合才能真正起到保護作用,其中網路的訪問控制可以說是保證網路安全最重要的核心策略,它的主要任務是保證網路資源不被非法使用和訪問,它也是維護網路系統安全、保護網路資源的重要手段。另外,要注意建立計算機檢索查詢和提供檔案信息的主要服務方式,為使用者提供網狀信息組織結構,使用戶可以根據自己的意志沿著信息之間的關系鏈進行瀏覽,而不是按照規定途徑進行檢索和查詢檔案信息。
3.關注計算機病毒的新變化
當檔案信息系統擴展到區域網甚至互聯網時,計算機病毒成為不可迴避的危害,而且新型病毒具有許多網路時代的新特徵,例如,病毒傳播主要通過網路途徑擴散,病毒與計算機入侵關系密切,Windows操作系統的網路功能是常見的攻擊點,等等,檔案工作者應當時刻注意新的技術變化,制定針對性策略,並從管理制度、技術監督、後備保護、應急措施等多方面綜合防範。
4.加強法制建設
保障檔案信息安全單純依靠檔案管理部門自身的努力是不夠的,還需要有相關法律、規章制度的約束。因此,檔案信息安全與其它社會問題一樣,是一個復雜的綜合性較強的問題,各個環節必須緊密銜接才能發揮作用。立法在保障檔案信息安全性中的作用是不言而喻的,缺乏法律支持的信息安全保障是紙上談兵。我國已將信息安全列入國家信息化發展戰略,遼寧省早在1998年就通過了《遼寧省計算機信息系統安全管理條例)),這些都將在檔案信息安全保障中發揮重要作用,但隨著新問題的出現還需要更完善的、更專業的法律、法規出台。
參考文獻:
[1]張姝,韓振英.計算機在學籍檔案管理中的應用[J].洛陽工業高等專科學校學報,1998,(4).
[2]劉淑芬.計算機網路技術與學校檔案管理[J].學校檔案,1999,(1):23-25.
[3]徐志敏.計算機技術對檔案工作的影響[J].辦公室業務,2000,(3):32-33.
檔案資料庫建設中存在的問題及解決思路
錢毅
摘要:檔案資料庫是檔案信息資源管理的核心工具,目前我國檔案資料庫的建設和利用狀況還存在不少問題。作者首先解析了檔案資料庫的概念,指出應當從檔案業務需求的角度去考察資料庫的功能,並分析了檔案實踐的發展導致了檔案資料庫內容變化的幾大因素。在檔案建設過程中存在的問題包括缺乏有效統籌規劃、資料庫定位不準確、標准規范缺失、數據質量不高等。要解決這些問題,作者提出應當加強檔案資料庫規劃管理、完善標准規范、建立健全質量控制體系、培養人才隊伍等措施。
關鍵詞:檔案資料庫 概念 問題 思路
資料庫技術是20世紀60年代末發展起來的一門信息管理技術,是公認的信息資源開發、管理和服務的核心手段。目前資料庫的建設規模、信息量大小和使用頻率已經成為衡量一個國家信息化水平和綜合國力的重要尺度。在我國國家和地方各級的檔案信息化規劃中,檔案資料庫作為檔案信息資源管理的核心工具也都得到了廣泛的重視。但檔案界一直存在著如何盤活檔案資源、提高利用效率等問題。應該說,擁有先進的數據組織技術和靈活可靠管理手段的資料庫技術理論上可以從容面對這些挑戰,為檔案信息化搭建一個堅實的平台。事實上幾乎所有的檔案信息管理系統的中心都由檔案資料庫來擔當,無論其形式是檔案輔助管理系統還是所謂的數字檔案館。但檔案資料庫的建設和利用狀況仍然不容樂觀,還存在著數據結構封閉、數據質量不高,檔案信息資源尚未完全走出信息孤島的狀態。筆者擬從對檔案資料庫的概念、檔案資料庫的應用現狀及建設思路幾個方面來分析這些問題。
一、檔案資料庫概念解析
檔案資料庫的建設在我國已經有20餘年的歷史,但其理論發展卻並不充分。筆者通過期刊網(www.cnki.net)進行查閱,在1994~2005年間查詢到篇名中包含「檔案資料庫」的文章僅有28篇①,內容多局限在實際工作總結的層次上,對檔案資料庫的概念描述和理論挖掘相對較少。
通過文獻調研,筆者發現早在1987年孫淑揚就指出「檔案資料庫屬於文獻資料庫,是檔案自動化的重要內容,它是經過整理組織以機讀形式出現的檔案信息集合。②」洪漪編著的《檔案信息組織與檢索》中認為「機讀檔案資料庫,簡稱檔案資料庫,是以一定的組織方式存儲在一起的機讀檔案數據的集合。這些數據包括檔案題名、責任者、來源、頁碼、分類號、主題詞、摘要等,少數包含檔案全文。③」楊公之主編的《檔案信息化建設實務》一書認為「檔案資料庫,從廣義的角度講,就是以特定方式組織起來的檔案數據集合。具體地講,就是為了滿足多個用戶多種應用需要,按照一定的數據模型將本單位所保管的檔案信息存貯在計算機中以備使用的數據形式。④」
筆者無意為檔案資料庫給出一個確切的定義,因為作為支撐點的「檔案」與「資料庫」在實際應用中本身就是發散性很強的概念,而且還在不斷發展變化之中,上述定義都符合其各自特定的信息背景,以致檔案資料庫在不同階段的發展中出現了許多稱謂,如機讀目錄資料庫、索引資料庫,照片檔案資料庫、全文資料庫、多媒體檔案資料庫等等。因此研究檔案資料庫,需要綜合把握資料庫和檔案實踐的發展,獲得對檔案資料庫的相對完整的認識。
在研究資料庫時,除了掌握其先進的管理手段和操作方法外,更重要的是要立足檔案信息資源的特點,按照需求引導的原則關注資料庫中可以「為我所用」的部分,而不能片面追求資料庫功能而忽視基本的檔案需求。比如為了描述日益豐富的檔案數據類型,我們要求資料庫具有完備的數據類型能夠表達音頻、視頻、全文等信息類型;為了加強檔案數據質量控制,需要重點關注資料庫的完整性管理機制;為了保證檔案數據的安全,需要靈活應用資料庫的視圖功能、許可權管理以及加密機制等。此外,資料庫提供的共享交換、格式轉換、數據倉庫等核心功能可以為檔案資料庫提升管理水平和管理層次都提供技術保障。
同時,我們還要關注檔案實踐活動的變化,關注這些變化可能對檔案資料庫帶來的影響。筆者認為影響檔案資料庫內容的主要因素有如下三個方面。
1.檔案實體管理。在近年的檔案管理活動中出現了許多新情況,比如2000年出台的《歸檔文件整理規則》允許在文書檔案實體管理活動中取消「卷」的概念,這直接影響到檔案資料庫是否還需要「卷」這一級邏輯層次,從而影響相關表的數據結構。信息記錄技術的發展引進了許多新型載體,目前紙張、照片、膠片、縮微膠片、硬碟、軟盤、磁帶、各類光碟、圖紙等共存一室並不鮮見,不同類型的載體需要有不同的數據表來進行管理,檔案信息化規劃中還要求將這些載體的信息通過各種方式數字化後進入計算機系統,這也極大地豐富了檔案資料庫的內容。此外,在檔案信息利用環節,用戶全文和多媒體信息檢索需求也會促進檔案資料庫的數據類型的拓展。
2.檔案資料庫設計活動。在多數情況下,檔案資料庫系統並不只是純粹檔案數據的集合,還包括檔案管理活動中的其他信息,這些信息可以在資料庫設計過程中被納入管理。比如,在使用數據流圖等工具進行資料庫需求分析的時候,可以將許多業務流程方面的管理信息納入數據字典;資料庫的概念設計階段經常使用的ER模型(Entity-Relation Model)要求仔細分析檔案管理域中各實體及其之間的聯系,並據此建立檔案資料庫模式,通過這種設計方法得到的資料庫通常還包括一些管理實體,比如包括各類人員庫、標准庫、組織機構表、保管期限表、人員許可權表、庫房信息等,甚至包括檔案借閱者信息,而其中相當一部分不屬於檔案本體數據所包含的范圍。
3.應用環境。不同的機構具有不同的應用環境,像檔案館與一般業務部門的應用環境就有很大差別,它們對於檔案數據具有不同的管理要求。比如在信息集中管理應用環境中,為了管理方便,往往將檔案與資料、期刊、報紙、圖書等大量的非檔案成分進行集中管理;文檔一體化環境則將文件與檔案數據共存一庫,彼此依存,或者乾脆就是合而為一;電子文件管理應用環境則根據前端控制原則,要求電子檔案資料庫的建設不能採用事後建庫的方式,而必須深入到文件形成階段,收集電子文件生命周期的完整信息。因此可以看出,不同應用環境下建立的檔案資料庫的內容範圍存在較大的差異。
通過簡要分析檔案資料庫概念的內涵及其變化,筆者認為對於檔案資料庫的理解不能一刀切,而應該立足檔案資料庫建設單位的實際環境和系統需求,將包括檔案實體信息、管理信息、應用環境信息在內的各種類型數據按照特定數據模型進行組織的數據集合,並以此為據來考察目前我國檔案資料庫存在的一些問題。
二、檔案資料庫建設中存在的問題
在檔案信息系統的建設過程中,軟硬體設施可以通過購買、引進而獲得,但一個行業或者部門的信息資源是買不來的,只能依靠自己建設。檔案資料庫作為檔案信息資源採集、處理、存儲和傳輸中心,在檔案信息資源中佔有舉足輕重的作用。因而從宏觀上講,如何規劃設計檔案資料庫的建設,是關系檔案信息化進程是否能夠順利進行的關鍵因素。應該說,我們在這方面取得了很大的進步,資料庫建設數量、分布的范圍、發展的勢頭都是可喜的,初步消除了檔案部門會淪為「信息孤島」的疑慮。但同時,許多檔案資料庫建設中的問題也浮上檯面,能否解決好這些問題是關系檔案資料庫未來發展的關鍵。
1.檔案資料庫建設缺乏有效的統籌規劃
檔案資料庫建設是檔案信息資源開發的核心工作,但目前我國檔案資料庫建設缺乏有效的統籌規劃。在國家檔案資料庫建設層面上,除了明清、民國、革命歷史檔案資料三個目錄中心的建設已經啟動外,尚未有國家級檔案資料庫的規劃安排,各地檔案部門在實際建立檔案資料庫時基本上是各自為政,在檔案數據標准體系尚不完善的情況下,這種局面將會導致數據共享困難。雖然我國就檔案資料庫的建設也提出過總體指導意見,比如《全國檔案信息化綱要》一文中多次提到檔案資料庫的建設問題,提出「加強檔案目錄資料庫建設」、「進一步加強檔案目錄中心建設」、「積極推進檔案全文資料庫和多媒體資料庫建設」等,但這些意見缺乏可操作性。此外,如何將電子文件以及數字化檔案的信息納入檔案資料庫中進行管理,也需要在宏觀層面上進行有效的統籌規劃。
2.把握好資料庫定位
也就是要回答好「建設什麼樣的檔案資料庫」的問題,回答這個問題需要充分了解檔案資料庫的內涵,明確建庫的需求和目的,確定資料庫定位,有的放矢。資料庫定位將直接影響到資料庫的建設成本、規模、效能等,是進行檔案資料庫以及信息系統建設的一個基本出發點。比如,是建立存儲檔案著錄信息為主的目錄資料庫,還是建立存儲檔案全文的全文資料庫;是根據館藏的特點建立具有特色的資料庫,還是基於館藏圖片、音像等資料建立綜合
性多媒體資料庫;是建立檔案信息管理系統、文檔一體化系統還是電子文檔管理系統;是獨立建庫還是若干機構建立聯合目錄中心,或者是為未來的數字檔案館做數據准備。這些問題都需要提前論證,做好決策。而我們目前的檔案資料庫建設,在定位方面做的工作還不充分,許多資料庫千篇一律,缺乏特色;或者資料庫結構相似卻不能聯合,各自為戰,造成資源分散,工作量重復。
3.資料庫設計盲目性大,存在不科學的成分
資料庫設計是一項非常嚴謹、科學性很強的一項工程,從可行性分析開始,逐次進行數據分析,繪制資料庫的數據字典,然後運用各種工具進行概念模型設計、外模式設計和物理設計,最後才能裝載資料庫。其中的各個步驟都必須認真對待,偏廢不得,前一階段的設計是下一階段工作的基礎,不適合跨越設計階段開展工作。
但在實際的檔案資料庫設計過程中,還存在著許多不科學的問題。特別在資料庫可行性分析和數據分析階段存在的隨意現象比較突出。許多設計者對繁瑣的數據分析不太重視,往往一上來就開始設計庫表結構,這種脫離詳細分析的設計方法雖然表面上速度較快,但其質量經不起推敲。對任何一個資料庫系統而言,庫表結構是其基石所在,基石不牢,大廈則有將傾之虞。
4.資料庫邏輯結構缺乏規范
在進行資料庫邏輯結構設計時,相關標准規范缺失是造成檔案資料庫的設計工作流於隨意的主要原因,而檔案資料庫邏輯結構不規范的情況會引起資料庫之間轉換困難、難以共享等問題。目前正在許多單位開展的數字化工作所形成的圖像文件、視音頻文件如何建庫管理,目前尚未有相關規范出台。電子文件管理元數據規范的滯後使得電子文件歸檔數據難以收集齊全,還有不少電子文件仍在進行人工著錄登記,長此以往,前端控制原則難以在應用系統中得到應用。而在欄位結構層面上,不規范的情況則更為突出。像在檔案資料庫中通常作為主鍵的「檔號」欄位的表示方法就五花八門,根據浙江省綜合檔案館信息資料庫建設調查報告的調查結果,在這浙江省通用的6種檔案軟體中,有的用4個欄位來表示檔號;有的定義成數字形式;有的定義為字元型,甚至同一個檔案館在不同時期錄入的數據,表示形式也不統一。這將對日後資料庫遷移、目錄中心數據合並等工作帶來極大的困難。
5.數據質量
檔案資料庫的建設必須保證良好的數據質量,「問水哪得清如許,為有源頭活水來」這句古詩啟示我們,准確的資料庫信息、良好的數據管理是營造檔案資料庫「一池清水」的先決條件。作為重要的社會信息資源單位,檔案部門必須高度重視檔案數據質量,在追求資料庫數量增長的同時,還要加強「污染防治」工作,防止臟數據的產生。而根據浙江資料庫現狀調查報告,隨機檢查結果表明檔案資料庫質量較好的數據誤差也在12%左右,總平均差錯率達29%,造成這種狀況的原因主要在錄入階段,同時資料庫的質量檢查制度不完善也是重要原因。
三、檔案資料庫發展中存在問題的解決思路
1.加強資料庫建設規劃管理
資料庫建設是一項投入非常巨大、周期很長、事關信息化成敗的基礎工程,應當由檔案事業管理部門提供宏觀的指導方針,統籌規劃,合理布局,提供本地區或本行業資料庫建設的藍圖,並會同有關部門對資料庫規劃的可行性進行論證,提出檔案數據建設的具體意見。地方檔案部門則根據宏觀規劃的要求進行詳細設計,以實現全局共享為基礎,突出特色數據。基於這樣的總體思路,可以建立大范圍內協調一致的數據結構,資料庫框架設計、數據內容都能得到很高的共享度,將會改善目前檔案資料庫建設自行一套、質量參差不齊的總體狀況。
2.加強標准規范的建設
檔案信息資源描述標准體系是建設檔案資料庫的重要保障,相關標准規范的確立和逐步完善有助於各級各類檔案資料庫需要保持必要的協調,共同為社會提供高效、優質的檔案信息服務。檔案標准規范的制定要本著「確保數字檔案資源格式統一、數據規范、長期可讀、便於共享」的原則進行。在實施過程中,應當積極採用國際標准和國外先進標准;一般性的信息處理標准優先採用國家標准,如《文獻保密等級代碼》、《全國行政區劃代碼》等標准應當直接採用國家標准,不必另行一套;對檔案領域內特有的資源制定行業標准,如《壽險業務檔案管理標准》。此外為了保證國家文獻系統標准之間的一致性,檔案工作標准應盡量與圖書、情報的國際、國內標准相一致。
3.建立標準的元資料庫
目前資料庫的邏輯結構設計比較混亂,雖然從各資料庫個體角度觀察,並沒有太大的差錯,但結構的不一致、不兼容會對資料庫的共享和相互轉換帶來很大的困難,甚至難以進行。筆者認為,這個問題的最終解決,依賴於以著錄標准化為依託的元資料庫的建設。
目前檔案資料庫的主要記錄對象是檔案文件的二次文獻信息,即文件的著錄信息。許多檔案資料庫結構的確定其實就是將著錄卡上的項目轉換為數據表上的欄位信息。從原理上講,這個過程應該很容易,但由於我國的《檔案著錄規則》,雖然規范了著錄項目,但並沒有規定相應的量化指標,離資料庫系統所要求的結構化數據的要求還有相當距離。由於著錄標准並不是確定數據結構的強制標准,各檔案資料庫在建設時都可以根據自己的理解靈活應用,著錄項目可以自行增刪,欄位類型、欄位長度可以自由選擇,這樣的資料庫進行互聯互通的難度就可想而知了。因此筆者建議以著錄標准為基礎,建立一定范圍內的元數據標准,此處的元數據就是關於資料庫中各數據欄位的信息,並以此為基礎構成元數據字典。該字典提供數據項目的結構化信息,包括數據欄位的名稱、數據類型、長度、默認格式等規范,並說明欄位之間的聯系。需要指出的是,這樣一個具有內在聯系的有機的元數據字典,實質上是為檔案資料庫提供通信格式,並不要求完全遵循,如果有特殊要求,只需要在此基礎上提供轉換功能即可。隨著檔案信息化的深入,元數據字典的建設還應當包括全文和電子文件的元數據項目,為電子文件管理系統的設計提供相應的元數據,實現電子文檔的前端控制,從而在根本上解決電子文檔介面規范問題。
4.建立健全資料庫質量控制體系
針對檔案資料庫數據質量的問題,筆者認為應當將檔案資料庫視作檔案部門的信息產品,並依照生產產品的管理方式,通過質量控制體系進行監管。該體系以可操作的方式提供對檔案資料庫的全面質量管理,包括資料庫設計、建設、管理活動中主要環節的控制,並制定資料庫質量考核指標體系。該體系要求將資料庫設計過程作為單獨的項目進行管理,通過項目文檔能夠審查資料庫設計過程是否科學、合理;能夠對資料庫建設過程中的人、財、物進行審計;對數據收集、錄入、備份等各環節提供質檢措施,保證數據准確、完整;通過質量指標體系對資料庫容量、響應時間、查全率、查准率、錯誤率等進行核查。依照質量控制體系進行管理,能夠優化資料庫管理活動,加強資料庫建設人員的責任感。
5.加強檔案資料庫隊伍建設
隨著檔案事業的不斷推進,對檔案信息管理人員的要求越來越高。檔案資料庫作為檔案信息化建設的中樞工程,其規劃、設計、實施、管理、維護、標准建設等都需要相關人員具有較高的綜合素質,不僅要熟悉館藏,了解基本檔案理論、業務流程、未來發展,還要掌握資料庫管理的基本技能,對於檔案資料庫管理員,還需要具備一定的規劃能力和標准化知識,而目前這方面的人才是比較缺乏的,需要檔案部門和教育機構通力合作,培養通曉檔案資料庫建設的全面人才,全面推進檔案信息資源的開發進程。
注釋:
①查詢時間:2005年9月16日,檢索形式為「篇名」,檢索模式為「精確檢索」,資料庫來源為「電子技術及信息科學輯目錄」,特此說明。
②孫淑揚編著:《檔案管理與計算機》,第176頁,檔案出版社1987年3月。
③洪漪編著《檔案信息組織與檢索》,第146頁,武漢大學出版社,1998年1月。
④楊公之主編:《檔案信息化建設實務》,中國檔案出版社,2003年,第103頁。
(原文載於《檔案學通訊》2006年第4期)
H. 工業歷史資料庫
資料庫技術是現代信息科學與技術的重要組成部分,是計算機數據處理與信息管理專系統的核心。工業屬歷史資料庫技術研究和解決了計算機信息處理過程中大量數據有效地組織和存儲的問題,在資料庫系統中減少數據存儲冗餘、實現數據共享、保障數據安全以及高效地檢索數據和處理數據。施耐德電氣在工業歷史資料庫這一塊的研究,隨著計算機技術與網路通信技術的發展,資料庫技術已成為信息社會中對大量數據進行組織與管理的重要技術手段及軟體技術,是網路信息化管理系統的基礎。
I. 歷史學科關於中、英文研究著作的資料庫主要有哪些
《國富論》。作者亞當·斯密(Adam Smith, 1723-1790)是經濟學的主要創立者。他於 1723 年出生在蘇格蘭的克科底,青年時就讀於牛津大學。
《我們賴以生存的隱喻》作者為喬治·萊考夫(George Lakoff),美國加州大學伯克利分校語言學系教授,著名語言學家,認知語言學的創始人。本書作為當代語言學經典著作,是公認的認知語言學隱喻系統研究的開始,在國外隱喻研究中具有很大影響。
《科學革命的結構》托馬斯•庫恩的《科學革命的結構》(The Structure of Scientific Revolutions)算得上是二十世紀學術史上最有影響的著作之一。
《想像的共同體》一書的橫空出世,為民族主義研究提供了新的理論範式。這個範式努力避免了「歐洲中心」或「西方中心」的觀點,把常被人忽略的美洲,東南亞甚至非洲囊括入其宏大的理論體系。
《規訓與懲罰》作者:米歇爾・福柯,20 世紀極富挑戰性和反判性的法國思想家。青年時期就學於巴黎高等師范學校,以後曾擔任多所大學的教職。1970 年起任法蘭西學院思想系統史教授,直至逝世。
《正義論》一書,洋洋灑灑 40 余萬字,實際上是一本論文集。美國哈佛大學教授約翰·羅爾斯的《正義論》一書,自 1971 年問世後(羅爾斯針對該書出版後的批評意見,1999 年重新做了修訂),在西方國家引起了廣泛重視,被視為第二次世界大戰後西方政治哲學、法學和道德哲學中最重要的著作之一,將被列為歷史經典名著之林。
J. 國內五大論文資料庫
國內主要有5大期刊資料庫
一、中國知網提供的《中國學術期刊(光碟版)》
也稱中國期刊全文資料庫由清華同方股份有限公司出版。收錄1994年以來國內6 600種期刊,包括了學術期刊於非學術期刊,涵蓋理工、農業、醫葯衛生、文史哲、政治軍事與法律、教育與社會科學綜合、電子技術與信息科學、經濟與管理。收錄的學術期刊同時作為「中國學術期刊綜合評價資料庫統計源期刊」。但是收錄的期刊不很全面,一些重要期刊未能收錄。
二、中國生物醫學文獻資料庫(CBMDISC)
由資料庫是中國醫學科學院信息研究所開發研製,收錄了自1978年以來1 600餘種中國生物醫學期刊。范圍涉及基礎醫學、臨床醫學、預防醫學、葯學、中醫學及中葯學等生物醫學的各個領域。
三、中文生物醫學期刊資料庫(CMCC)
由中國人民解放軍醫學圖書館資料庫研究部研製開發。收錄了1994年以來國內正式出版發行的生物醫學期刊和一些自辦發行的生物醫學刊物1 000餘種的文獻題錄和文摘。涉及的主要學科領域有:基礎醫學、臨床醫學、預防醫學、葯學、醫學生物學、中醫學、中葯學、醫院管理及醫學信息等生物醫學的各個領域。並具有成果查新功能醫學全在線
四、萬方數據資源系統(China Info)
由中國科技信息研究所,萬方數據股份有限公司研製。該資料庫收錄的期刊學科範圍廣,包括了學術期刊於非學術期刊,提供約2 000種的電子期刊的全文檢索。被收錄的學術期刊都獲得了「中國核心期刊(遴選)資料庫來源期刊」的收錄證書。個別期刊甚至將「遴選」改成「精選」,或者乾脆去掉。很多作者因此誤以為這就是核心期刊。
五、維普資料庫
也稱中文科技期刊資料庫,維普科技期刊資料庫,由中國科學技術信息研究所重慶分所出版。收錄了1989年以來我國自然科學、工程技術、農業科學、醫葯衛生、經濟管理、教育科學和圖書情報等學科9 000餘種期刊,包括了學術與非學術期刊。收錄期刊數量很大,但不足之處是部分國家新聞出版總署公布的非法期刊也被收錄了。
一般的,學術期刊都能進入至少1個國內期刊資料庫。期刊據資料庫[3]不是期刊的評價體系,對科研處的期刊性質評價也就缺乏足夠的意義,故不宜作為期刊性質評價的依據。
1、萬方數據
萬方數據提供中國大陸科技期刊檢索,是萬方數據股份有限公司建立的專業學術知識服務網站。隸屬於萬方數據資源系統,對外服務數據由萬方數據資源系統統一部署提供。
2、全國報刊索引
收錄全國包括港台地區的期刊8000種左右,月報道量在1.8萬條以上,年報道量在44萬條左右,書本式用戶有3500多家,現又出版光碟資料庫。反映了中國政治、經濟、軍事、科學、文化、文學藝術、歷史地理、科技等方面的發展情況,提供了國內外最新學術進展信息。
該索引是我國收錄報刊種類最多,內容涉及范圍最廣,持續出版時間最長,與新文獻保持同步發展的權威性檢索刊物,也是查找建國以來報刊論文資料最重要的檢索工具。
正文採用分類編排,先後採用過《中國人民大學圖書分類法》和自編的《報刊資料分類表》,1980年起,仿《中國圖書館圖書分類法》分21類編排,1992年全面改用《中國圖書資料分類法》(第三版)編排,2000年開始用《中國圖書館分類法》(第四版)標引,計算機編排。
在著錄上,《全國報刊索引》從1991年起採用國家標准——《檢索期刊條目著錄規則》進行著錄,包括題名、著譯者姓名、報刊名、版本、卷期標識、起止頁碼、附註等項。同時,「哲社版」採用電腦編排,增加了「著者索引」、「題中人名分析索引」、「引用報刊一覽表」,方便了讀者的使用。
3、超星數字圖書館
為目前世界最大的中文在線數字圖書館,提供大量的電子圖書資源提供閱讀,其中包括文學、經濟、計算機等五十餘大類,數十萬冊電子圖書,300 萬篇論文,全文總量 4億余頁,數據總量30000GB,大量免費電子圖書,並且每天仍在不斷的增加與更新。
覆蓋范圍:涉及哲學、宗教、社科總論、經典理論、民族學、經濟學、自然科學總論、計算機等各個學科門類。本館已訂購67萬余冊。
收錄年限:1977年至今。
4、維普資訊
維普資訊是科學技術部西南信息中心下屬的一家大型的專業化數據公司,是中文期刊資料庫建設事業的奠基人,公司全稱重慶維普資訊有限公司。目前已經成為中國最大的綜合文獻資料庫。從1989年開始,一直致力於對海量的報刊數據進行科學嚴謹的研究、分析,採集、加工等深層次開發和推廣應用。
5、中宏資料庫
中宏資料庫由國家發改委所屬的中國宏觀經濟學會、中宏基金、中國宏觀經濟信息網、中宏經濟研究中心聯合研創。是由18類大庫、74類中庫組成,涵蓋了九十年代以來宏觀經濟、區域經濟、產業經濟、金融保險、投資消費、世界經濟、政策法規、統計數字、研究報告等方面的詳盡內容,是目前國內門類最全,分類最細,容量最大的經濟類資料庫。