您當前的位置:首頁 > 遊戲

新科技時代,一切皆資料,什麼是大資料?詳解大資料學習路線

作者:由 科技無憂 發表于 遊戲時間:2022-11-09

隨著國家定義了“新型基礎設施建設”(新基建),新科技時代已經來臨。如果說新基建的目標是構建起新時代科技中國的軀體的話,那麼資料就是這個軀體中無處不在的血液,沒有這個血液,所有的一切都將沒有正常執行的能量來源。

“資料”早已有之,但長久以來,除了科技公司和大型企業外,人們對“資料”應用得並不充分。而隨著資料滲透到當今幾乎每一個行業和業務職能領域,滲透到幾乎任何體量的社會組織中,併成為重要的生產因素,人們對於海量資料的挖掘和運用,推動了21世紀以來新一波的生產率增長和消費浪潮的到來。所以,在現今及未來可預見的時代,說“一切皆資料”也不為過!

不過,如今的“資料”相對以前的“資料”,其內涵有了極大的擴充套件,而涉及到的相關技術和工具也發生了翻天覆地的變化,於是“大資料”的概念產生了。

大資料(big data)是指海量的、多樣化的交易資料、互動資料、終端與網路資料以及感測資料等,其主要特徵包括:

海量的資料規模:大資料一般指在10TB規模以上的資料量,甚至常常是PB(1PB=1024TB)級別的。

快速的資料流轉:大資料通常需要能夠獲得實時的處理、分析和利用,能夠實現資料的快速流轉。

多樣的資料型別:大資料通常用來形容大量的非結構化和半結構化資料,對資料的型別幾乎沒有任何限制,如文件、圖片、音訊、影片、電子郵件、網頁等。

較低的價值密度:半結構化和非結構化的資料,其價值密度通常來說較低,所以相比那些價值密度較高的結構化資料,更需要使用大資料技術進行處理。

資訊科技的核心就在於資料,資料與幾乎每一項資訊科技都息息相關,或為因,或為果;幾乎任何一項資訊科技,或者需要依賴資料,或者能夠產生資料,或者直接或間接地服務於資料。

物聯網:透過物聯網採集的資料通常具有非結構化、碎片化、時空域等特性,所以需要透過新型的資料儲存和處理的大資料技術來加以利用。

人工智慧:想提升人工智慧本身的效能和精準度,必須依賴大量的樣本資料,一個粗略的經驗法則是,對於監督學習演算法,在每給定約5000個標註樣本的情況下,人工智慧程式將達到可以接受的效能;而當至少有1000萬個標註樣本的資料集可用於訓練時,人工智慧程式將達到甚至超過人類表現。

企業上雲:大量企業在長期運營中積累了豐富的資料資源,但一直都是分散在獨立的系統中進行碎片化儲存的,而隨著企業上雲的全面推進,未來這些碎片化儲存的資料資源將能夠在被遷移到雲中後,基於大資料技術進行價值挖掘。

邊緣計算:隨著邊緣計算的發展,企業收集資料方式將逐漸轉向裝置端,由於邊緣計算相對雲計算更加靠近資料來源頭,可以有效降低資料傳輸處理到反饋的遲延,同時具有顯著的效率成本優勢和安全隱私保護優勢,因此將進一步擴大資料採集的適用場景和規模。

開源軟體:越來越多的大資料相關開源軟體的出現,能夠幫助使用者實時訪問和處理資料,中小型組織和初創企業將從中受益,免費的開源軟體可以幫助企業降低運營成本,並促進他們去學習、掌握、生產和使用大資料,從而夯實大資料產業的底層基礎,並將與頭部科技巨頭企業一起,共同啟用整體大資料產業生態。

5G技術:5G網路的高頻寬和低時延,將使得單位時間內產生的資料量急劇增長,單位區域內的聯網裝置成倍增加,人與物、物與物之間的連線急劇增多。在5G時代,資料採集渠道將更加豐富,更加海量的原始資料將被收集。

下面再說說大資料的學習路線。由於大資料涉及的範疇非常廣,為了避免盲人摸象,因此對於初學者來說,建議沿著大資料處理的整個流程,對各個環節的基本概念和主要框架有個整體的認識,之後可以再根據自己的興趣或具體崗位的需要,聚焦於某個細分領域,如資料視覺化、資料倉庫、資料分析、資料安全等等。

大資料處理的主要環節包括資料採集、資料儲存、資料處理和資料應用。

資料採集:大資料處理的第一步是資料採集。現在的中大型專案會採用微服務架構進行分散式部署,所以資料的採集需要在多臺伺服器上進行,且採集過程不能影響正常業務的開展。基於這種需求,就衍生了多種日誌收集工具,如Flume、Logstash、Kibana等,它們都能透過簡單的配置完成複雜的資料採集和資料聚合工作。

資料儲存:採集資料後的下一個問題就是:資料該如何進行儲存?通常大家最為熟知是MySQL、Oracle等傳統的關係型資料庫,它們的優點是能夠快速儲存結構化的資料。但大資料的資料結構通常是半結構化(如日誌資料)甚至是非結構化的(如影片、音訊、網頁),為了解決海量半結構化和非結構化資料的儲存,衍生了Hadoop HDFS、KFS、GFS等分散式可擴充套件的檔案系統。分散式檔案系統完美地解決了海量資料儲存的問題,但是一個優秀的資料儲存系統需要同時考慮資料儲存和訪問兩方面的問題,比如你希望能夠對資料進行隨機訪問,這是傳統的關係型資料庫所擅長的,基於這種需求,就產生了HBase、MongoDB。

資料分析:大資料處理最重要的環節就是資料分析,資料分析通常分為兩種:批處理和流處理。批處理是指對一段時間內海量的離線資料進行統一的處理,對應的處理框架有Hadoop MapReduce、Spark、Flink等;流處理是指對流轉中的資料進行處理,即在接收到資料的同時就對其進行處理,對應的處理框架有Storm、Spark Streaming、Flink Streaming等。批處理和流處理各有其適用的場景,時間不敏感或者硬體資源有限,可以採用批處理;時間敏感和及時性要求高就可以採用流處理。此外,為了能夠讓熟悉SQL的人員也能夠進行資料的分析,查詢分析框架應運而生,常用的有Hive、Spark SQL、Flink SQL、Pig、Phoenix等。這些框架都能夠使用標準的SQL或者類SQL語法靈活地進行資料的查詢分析,這樣,即便是沒有較強程式設計能力的非後臺工程師,也能很容易地進行大資料分析了。

資料應用:資料分析完成後,接下來就是具體資料應用的範疇了,這取決於實際的業務需求。比如你可以將資料直接進行視覺化展現以輔助決策或預警,或者將資料用於最佳化產品中的個性化頁面和推薦演算法,或者將資料用於訓練你的人工智慧機器學習模型,這些都屬於具體大資料應用領域的範疇,也都有著對應的框架和技術棧可供使用。

新科技時代,一切皆資料,什麼是大資料?詳解大資料學習路線

上面提及了一些標準的大資料處理流程所用到的技術框架,但是實際的大資料處理流程比上面會複雜很多,希望系統和全面學習大資料的朋友,這裡有一本[大資料入門指南]完整介紹了針對大資料由淺入深的學習路線及重要知識點,此外還有一本[為資料而生 大資料創新實踐]有很多針對大資料應用領域不錯的案例、觀點和方法論,有興趣的朋友可以根據下面線索獲取。

創作不易,歡迎朋友們關注、評論、轉發。如企業轉載或其它,請聯絡:keji5u(科技無憂訂閱號)

標簽: 資料  結構化  採集  處理  海量