導航:首頁 > 文化發展 > 大數據的歷史發展

大數據的歷史發展

發布時間:2021-02-23 07:28:09

① 當下大數據發展的 8 個要點

作者 | 章劍鋒

筆者從 2008 年開始工作到現在也有 11 個年頭了,一路走來都在和數據打交道,做過大數據底層框架內核的開發(Hadoop,Pig,Tez,Spark,Livy),也做過上層大數據應用開發(寫 MapRece Job 做 ETL ,用 Hive 做 Ad hocquery,用 Tableau 做數據可視化,用 R 做數據分析)。今天我想藉此機會和大家聊聊我所理解的大數據現狀和未來。

首先讓我們來聊聊什麼是大數據。大數據這個概念已經出來很多年了(超過10年),但一直沒有一個准確的定義(也許也並不需要)。數據工程師(DataEngineer)對大數據的理解會更多從技術和系統的角度去理解,而數據分析人員(Data Analyst)對大數據理解會從產品的角度去理解,所以數據工程師(Data Engineer) 和數據分析人員(Data Analyst)所理解的大數據肯定是有差異的。我所理解的大數據是這樣的,大數據不是單一的一種技術或者產品,它是所有與數據相關的綜合學科。看大數據我會從 2 個維度來看,一個是數據流的維度(下圖的水平軸),另外一個是技術棧的維度(下圖的縱軸)。

其實我一直不太喜歡張口閉口講「大數據」,我更喜歡說「數據」。因為大數據的本質在於「數據」,而不是「大」。由於媒體一直重點宣揚大數據的「大」,所以有時候我們往往會忽然大數據的本質在「數據」,而不是「大」,「大」只是你看到的表相,本質還是數據自身。

在我們講清楚大數據的含義之後,我們來聊聊大數據目前到底處在一個什麼樣的位置。從歷史發展的角度來看,每一項新技術都會經歷下面這樣一個技術成熟度曲線。

當一項新技術剛出來的時候人們會非常樂觀,常常以為這項技術會給人類帶來巨大的變革,對此持有過高的期望,所以這項技術一開始會以非常快的速度受到大家追捧,然後到達一個頂峰,之後人們開始認識到這項新技術並沒有當初預想的那麼具有革命性,然後會過於悲觀,之後就會經歷泡沫階段。等沉寂一定階段之後,人們開始回歸理性,正視這項技術的價值,然後開始正確的應用這項技術,從此這項技術開始走向穩步向前發展的道路。(題外話,筆者在看這幅圖的時候也聯想到了一個男人對婚姻看法的曲線圖,大家自己腦補)。

1、從大數據的歷史來看,大數據已經經歷了 2 個重要階段

兩個重要階段是指過高期望的峰值和泡沫化的底谷期 。現在正處於穩步向前發展的階段。我們可以從 googletrend 上 big data 的曲線就能印證。大數據大約從 2009 年開始走向人們的視野,在 2015 年左右走向了頂峰,然後慢慢走向下降通道(當然這張曲線並不會和上面這張技術成熟度曲線完全擬合,比如技術曲線處在下降通道有可能會使討論這項技術的搜索量增加)。

接下來我想講一下我對大數據領域未來趨勢的幾個判斷。

2、數據規模會繼續擴大,大數據將繼續發揚光

前面已經提到過,大數據已經度過了過高期望的峰值和泡沫化的底谷期,現在正在穩步向前發展。做這樣判斷主要有以下 2 個原因:

上游數據規模會繼續增長,特別是由於 IOT 技術的發展和成熟,以及未來 5G 技術的鋪開。在可預測的未來,數據規模仍將繼續快速增長,這是能夠帶動大數據持續穩定向前發展的基本動力。 下游數據產業還有很多發展的空間,還有很多數據的價值我們沒有挖掘出來。

雖然現在人工智慧,區塊鏈搶去了大數據的風口位置,也許大數據成不了未來的主角,但大數據也絕對不是跑龍套的,大數據仍將扮演一個重要而基礎的角色。可以這么說,只要有數據在,大數據就永遠不會過時。我想在大部分人的有生之年,我們都會見證大數據的持續向上發展。

3、數據的實時性需求將更加突出

之前大數據遇到的最大挑戰在於數據規模大(所以大家會稱之為「大數據」),經過工業界多年的努力和實踐,規模大這個問題基本已經解決了。接下來幾年,更大的挑戰在於速度,也就是實時性。而大數據的實時性並不是指簡單的傳輸數據或者處理數據的實時性,而是從端到端的實時,任何一個步驟速度慢了,就影響整個大數據系統的實時性。所以大數據的實時性,包括以下幾個方面:

快速獲取和傳輸數據 快速計算處理數據 實時可視化數據 在線機器學習,實時更新機器學習模型

目前以 Kafka,Flink 為代表的流處理計算引擎已經為實時計算提供了堅實的底層技術支持,相信未來在實時可視化數據以及在線機器學習方面會有更多優秀的產品涌現出來。當大數據的實時性增強之後,在數據消費端會產生更多有價值的數據,從而形成一個更高效的數據閉環,促進整個數據流的良性發展。

4、大數據基礎設施往雲上遷移勢不可擋

目前IT基礎設施往雲上遷移不再是一個大家還需要爭論的問題,這是大勢所趨。當然我這邊說的雲並不單單指公有雲,也包括私有雲,混合雲。因為由於每個企業的業務屬性不同,對數據安全性的要求不同,不可能把所有的大數據設施都部署在公有雲上,但向雲上遷移這是一個未來註定的選擇。目前各大雲廠商都提供了各種各樣的大數據產品以滿足各種用戶需求,包括平台型(PAAS) 的 EMR ,服務型 (SAAS) 的數據可視化產品等等。大數據基礎設施的雲化對大數據技術和產品產生也有相應的影響。大數據領域的框架和產品將更加 Cloud Native 。

計算和存儲的分離。我們知道每個公有雲都有自己對應的分布式存儲,比如 AWS 的 S3 。 S3 在一些場合可以替換我們所熟知的 HDFS ,而且成本更低。而 S3 的物理存儲並不是在 EC2 上面,對 EC2 來說, S3 是 remote storage 。所以如果你要是 AWS 上面做大數據開發和應用,而且你的數據是在 S3 上,那麼你就自然而然用到了計算和存儲的分離。 擁抱容器,與 Kubernate 的整合大勢所趨,我們知道在雲環境中 Kuberneate 基本上已經是容器資源調度的標准。 更具有彈性(Elastic)。 與雲上其他產品和服務整合更加緊密。

5、大數據產品全鏈路化

全鏈路化是指提供端到端的全鏈路解決方案,而不是簡單的堆積一些大數據產品組件。以 Hadoop 為代表的大數據產品一直被人詬病的主要問題就是用戶使用門檻過高,二次開發成本太高。全鏈路化就是為了解決這一問題,用戶需要的並不是 Hadoop,Spark,Flink 等這些技術,而是要以這些技術為基礎的能解決業務問題的產品。 Cloudera 的從 Edge 到 AI 是我比較認同的方案。大數據的價值並不是數據本身,而是數據背後所隱藏的對業務有影響的信息和知識。下面是一張摘自 wikipedia 的經典數據金字塔的圖。

大數據技術就是對最原始的數據進行不斷處理加工提煉,金字塔每上去一層,對應的數據量會越小,同時對業務的影響價值會更大更快。而要從數據(Data) 最終提煉出智慧(Wisdom),數據要經過一條很長的數據流鏈路,沒有一套完整的系統保證整條鏈路的高效運轉是很難保證最終從數據中提煉出來有價值的東西的,所以大數據未來產品全鏈路化是另外一個大的趨勢。

6、大數據技術往下游數據消費和應用端轉移

上面講到了大數據的全鏈路發展趨勢,那麼這條長長的數據鏈路目前的狀況是如何,未來又會有什麼樣的趨勢呢?

我的判斷是未來大數據技術的創新和發力會更多的轉移到下游數據消費和應用端。之前十多年大數據的發展主要集中在底層的框架,比如最開始引領大數據風潮的 Hadoop ,後來的計算引擎佼佼者 Spark,Flink 以及消息中間件 Kafka ,資源調度器 Kubernetes 等等,每個細分領域都涌現出了一系列優秀的產品。總的來說,在底層技術框架這塊,大數據領域已經基本打好了基礎,接下來要做的是如何利用這些技術為企業提供最佳用戶體驗的產品,以解決用戶的實際業務問題,或者說未來大數據的側重點將從底層走向上層。之前的大數據創新更偏向於 IAAS 和 PAAS ,未來你將看到更多 SAAS 類型的大數據產品和創新。從近期一些國外廠商的收購案例,我們可以略微看出一些端倪。1、2019 年 6 月 7 日,谷歌宣布以 26 億美元收購了數據分析公司 Looker,並將該公司並入 Google Cloud。2、2019 年 6 月 10 日,Salesforce 宣布以 157 億美元的全股票交易收購 Tableau ,旨在夯實在數據可視化以及幫助企業解讀所使用和所積累的海量數據的其他工具方面的工作。3、2019 年 9 月初,Cloudera 宣布收購 Arcadia Data 。 Arcadia Data 是一家雲原生 AI 驅動的商業智能實時分析廠商。面對最終用戶的大數據產品將是未來大數據競爭的重點,我相信會未來大數據領域的創新也將來源於此,未來 5 年內大概率至少還會再出一個類似 Looker 這樣的公司,但是很難再出一個類似 Spark 的計算引擎。

7、底層技術的集中化和上層應用的全面開花

學習過大數據的人都會感嘆大數據領域的東西真是多,特別是底層技術,感覺學都學不來。經過多年的廝殺和競爭,很多優秀的產品已經脫穎而出,也有很多產品慢慢走向消亡。比如批處理領域的 Spark 引擎基本上已經成為批處理領域的佼佼者,傳統的 MapRece 除了一些舊有的系統,基本不太可能會開發新的 MapRece 應用。 Flink 也基本上成為低延遲流處理領域的不二選擇,原有的 Storm 系統也開始慢慢退出歷史舞台。同樣 Kafka 也在消息中間件領域基本上占據了壟斷地位。未來的底層大數據生態圈中將不再有那麼多的新的技術和框架,每個細分領域都將優勝劣汰,走向成熟,更加集中化。未來更大的創新將更多來來自上層應用或者全鏈路的整合方面。在大數據的上層應用方面未來將會迎來有更多的創新和發展,比如基於大數據上的BI產品, AI 產品等等,某個垂直領域的大數據應用等等,我相信未來我們會看到更多這方面的創新和發展。

8、開源閉源並駕齊驅

大數據領域並不是只有 Hadoop,Spark,Flink 等這類大家耳熟能詳的開源產品,還有很多優秀的閉源產品,比如 AWS 上的 Redshift ,阿里的 MaxCompute 等等。這些產品雖然沒有開源產品那麼受開發者歡迎,但是他們對於很多非互聯網企業來說是非常受歡迎的。因為對於一個企業來說,採用哪種大數據產品有很多因素需要考慮,否開源並不是唯一標准。產品是否穩定,是否有商業公司支持,是否足夠安全,是否能和現有系統整合等等往往是某些企業更需要考慮的東西,而閉源產品往往在這類企業級產品特性上具有優勢。

最近幾年開源產品受公有雲的影響非常大,公有雲可以無償享受開源的成果,搶走了開源產品背後的商業公司很多市場份額,所以最近很多開源產品背後的商業公司開始改變策略,有些甚至修改了 Licence 。不過我覺得公有雲廠商不會殺死那些開源產品背後的商業公司,否則就是殺雞取卵,殺死開源產品背後的商業公司,其實就是殺死開源產品的最大技術創新者,也就是殺死開源產品本身。我相信開源界和公有雲廠商最終會取得一個平衡,開源仍然會是一個主流,仍然會是創新的主力,一些優秀的閉源產品同樣也會占據一定的市場空間。

最後我想再次總結下本文的幾個要點:

1、目前大數據已經度過了最火的峰值期和泡沫化的底谷期,現在正處於穩步向前發展的階段。2、數據規模會繼續擴大,大數據將繼續發揚光大3、 數據的實時性需求將更加突出4、大數據基礎設施往雲上遷移勢不可擋5、大數據產品全鏈路化6、大數據技術往下游數據消費和應用端轉移7、底層技術的集中化和上層應用的全面開花8、開源閉源並駕齊驅

② 我國大數據的發展情況和現狀分別是什麼 簡述

(一)市場規模快速增長,供給結構初步形成 市場規模快速增長。十二五以來,我國大數據內產業從容無到有,全國各地發展大數據積極性較高,行業應用得到快速推廣,市場規模增速明顯。易觀國際數據顯示,2011-2014年,我國大數據市場規模分別為37.4億元、47.3億元、59億元和75.7億元,年平均復合增長約為27%。易觀國際同時預測,2015、2016年我國大數據市場規模將保持約30%的增長速度,在十二五末市場規模接近100億元。

③ 大數據時代發展歷程是什麼

可按照時間點劃分大數據的發展歷程。

④ 大數據的發展趨勢有哪些

——更多數據來源及分析請參考於前瞻產業研究院中國大數據產業發展前景與投資戰略規劃分析報告》。

大數據與AI、5G、IoT等應用為公有雲創造了巨大的需求,扮演著大數據基礎設施服務提供者的角色,在大數據核心訴求的存儲和計算能力上給予不可或缺的支撐。

大數據又賦能公有雲行業的發展,將更好地參與到行業應用與數據變現的發展,催生大量的行業應用,為雲服務未來擴充發展提供想像空間。積極的國家政策將持續推動各行業企業積極上雲,擁抱數字化轉型,公有雲服務應用場景特別是數據應用不斷拓寬。

近幾年我國雲計算行業的市場規模和滲透率均在持續增長,使得我國公有雲市場進入了一個新的發展階段。除此之外,在5G商用以及AI等技術發展的推動下,我國公有雲市場規模始終保持高速增長趨勢,根據中國信息通信研究院的數據統計,2018年,中國公有雲市場規模達到437.4億元,較2017年增長65.2%。

2012-2018年中國公有雲市場規模統計及增長情況



數據來源:前瞻產業研究院整理

⑤ 現在大數據的發展趨勢

主要有幾點發展趨勢:

一是流式架構的更替,最早大數據生態沒有辦法統一批處理和流計算,只能採用Lambda架構,批的任務用批計算引擎,流式任務採用流計算引擎,比如批處理採用MapRece,流計算採用Storm。後來Spark試圖從批的角度統一流處理和批處理,近年來純流架構的Flink異軍突起,由於其架構設計合理,生態健康,近年來發展特別快。

二是大數據技術的雲化,一方面是公有雲業務的成熟,眾多大數據技術都被搬到了雲上,其運維方式和運行環境都發生了較大變化,帶來計算和存儲資源更加的彈性變化,另一方面,私有部署的大數據技術也逐漸採用容器、虛擬化等技術,期望更加精細化地利用計算資源。

三是異構計算的需求,近年來在通用CPU之外,GPU、FPGA、ASIC等晶元發展迅猛,不同晶元擅長不同的計算任務,大數據技術開始嘗試根據不同任務來調用不同的晶元,提升數據處理的效率。

四是兼容智能類的應用,隨著深度學習的崛起,AI類的應用越來越廣泛,大數據的技術棧在努力兼容AI的能力,通過一站式的能力來做數據分析和AI應用,這樣開發者就能在一個工具站中編寫SQL任務,調用機器學習和深度學習的演算法來訓練模型,完成各類數據分析的任務。

⑥ 大數據發展背景及研究現狀

2015年左右,大數據相關政策規劃密集出台,同期為大數據企業新增數量頂峰時期。近年來,我國大數據產業迎來新的發展機遇期,產業規模日趨成熟。大數據產業主體從「硬」設施向「軟」服務轉變的態勢將更加明顯,面向金融、政務、電信、醫療等領域的大數據服務將實現倍增創新。

大數據企業數量持續增長,增速與政策出台密切相關

根據IT桔子統計,大數據企業的快速增長階段出現在2013-2015年,增長速度在2015年達到最高峰。2015年後,市場日趨成熟,企業新增開始趨於放緩,大數據產業逐漸走向成熟。

—— 以上數據及分析均來自於前瞻產業研究院《中國大數據產業發展前景與投資戰略規劃分析報告》。

⑦ 大數據未來的發展前景怎麼樣

2020年,我國大數據產業迎來新的發展機遇期,產業規模穩步增長。目前行業競爭格局從規模上看,以小型企業為主導;從地域分布上看,以北上廣等一線城市為主;從行業應用方面看,以金融、醫療健康、政務等為主要類型;從投融資角度看,企業服務、醫療健康、金融等垂直細分領域是融資熱點。

大數據行業市場規模保持高速增長

隨著互聯網技術的快速發展,我國大數據產業也發展迅速。根據中國信息通信研究院對大數據相關企業的調研數據,近年來我國大數據產業規模穩步增長。2016-2019年,短短四年時間,我國大數據產業市場規模由2841億元增長到5386億元,增速連續四年保持在20%以上。根據近年來大數據行業市場規模增長態勢,2020年大數據行業規模約為6670億元。

—— 以上數據及分析均來自於前瞻產業研究院《中國大數據產業發展前景與投資戰略規劃分析報告》。

⑧ 大數據時代是什麼意思大數據是在什麼背景下提出的

大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。

大數據產生背景:

進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。

它已經上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。

數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然很多企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。

正如《紐約時報》2012年2月的一篇專欄中所稱,「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。

哈佛大學社會學教授加里·金說:「這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。

(8)大數據的歷史發展擴展閱讀

大數據時代的特徵

1、數據量大(Volume)

第一個特徵是數據量大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。

2、類型繁多(Variety)

第二個特徵是數據類型繁多。包括網路日誌、音頻、視頻、圖片、地理位置信息等等,多類型的數據對數據的處理能力提出了更高的要求。

3、價值密度低(Value)

第三個特徵是數據價值密度相對較低。如隨著物聯網的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何通過強大的機器演算法更迅速地完成數據的價值「提純」,是大數據時代亟待解決的難題。

參考資料來源:網路-大數據時代

⑨ 大數據歷史是研究什麼

答:大數據歷史應該是研究古代過去真正的事實。

閱讀全文

與大數據的歷史發展相關的資料

熱點內容
歷史知識薄弱 瀏覽:23
軍事理論心得照片 瀏覽:553
歷史故事的啟發 瀏覽:22
美自然歷史博物館 瀏覽:287
如何評價韓國歷史人物 瀏覽:694
中國煉丹歷史有多久 瀏覽:800
郵政歷史故事 瀏覽:579
哪裡有革命歷史博物館 瀏覽:534
大麥網如何刪除歷史訂單 瀏覽:134
我心目中的中國歷史 瀏覽:680
如何回答跨考歷史 瀏覽:708
法國葡萄酒歷史文化特色 瀏覽:577
歷史人物評價唐太宗ppt 瀏覽:789
泰安的抗日戰爭歷史 瀏覽:115
七上歷史第四課知識梳理 瀏覽:848
歷史老師職稱需要什麼專業 瀏覽:957
什麼標志軍事信息革命進入第二階段 瀏覽:141
正確評價歷史人物ppt 瀏覽:159
ie瀏覽器如何設置歷史記錄時間 瀏覽:676
高一歷史必修一第十課鴉片戰爭知識點 瀏覽:296