您當前的位置:首頁 > 曲藝

大資料的概念及分析

作者:由 Louis愛學習 發表于 曲藝時間:2021-12-26

一、資料的定義和型別

1。資料的定義

2。資料的型別

二、大資料的含義及特徵

1。大資料的含義

2。大資料的特徵

三、大資料分析和小資料分析的區別與聯絡

1。區別

2。聯絡

四、大資料分析的動機

五、大資料分析的目標

六、資料分析的型別和它們之間的關係

七、四種資料分析型別及其適用範圍和常用方法

1。描述性分析及其適用範圍和常用方法

2。診斷性分析及其適用範圍和常用方法

3。預測性分析及其適用範圍和常用方法

4。預案性分析及其適用範圍和常用方法

一、資料的定義和型別

1.資料的定義

資料指的是對事件的記錄並且可以識別的符號,它不僅指的是我們常識中認為的數字,還可以是有意義的文字、字母、符號的組合,還可以是影象、圖形、影片和音訊。總的來說,資料是任何資訊的表現形式和載體。

2.資料的型別

資料主要分為結構化資料、非結構化資料、半結構化資料和元資料。在對資料進行分析時,我們應當首先思考我們的資料分類標準是什麼?資料是來自於哪個領域的資料?我們的目標是什麼?比如說我們按照領域分類,資料來自於資料科學領域,而該領域主要針對的是結構化和非結構化資料,而非結構化資料的處理目標是轉化為結構化資料以及小資料。如果是對計算機領域來說,那麼資料可以分為int(整型),float(浮點型),bool(布林型)等。

a.結構化資料

結構化資料是具備一定模式或者結構的資料,這些資料在一個記錄檔案中以固定的格式存在,比如說我們常常遇見的儲存在資料庫中的表格資料,這些資料有統一的固定格式,可以透過固有的鍵值對獲取到相應資訊。結構化資料可以透過關係型資料庫來表示和儲存,但是我認為首先要依賴一個數據模型,即這個資料模型指的是資料是怎樣被儲存的。這樣儲存在資料庫中的資料以二維形式表示:資料以行或列為單位,一行或者一列表示一條資訊,每一行或每一列資料的屬性是相同的。

b.非結構化資料

與結構化資料相反的是非結構化資料,結構化資料具備模式,非結構化資料是指資訊沒有一個預先定義好的資料模型來表現,所以稱為非結構化資料。我們通常遇見的文字型資料,比如這個文字型資料中儲存的是本篇文章的內容;比如說文字型資料,但是資料中又有很多像時間、數字的資訊;再比如說影象、音訊、影片資料。就我知道的影象資料而言,比如說對一個手寫數字(0-9)灰色圖片來說,如果圖片畫素是

32\times32

的,那麼這個圖片會以二進位制資料0/1透過一個32行32列的矩陣儲存。

c.半結構化資料

半結構化資料是介於結構化資料(如關係型資料庫)和非結構的資料(如聲音、影象檔案等)之間的資料。它的資料是有結構的,但卻不方便模式化。XML和JSON檔案是半結構化資料的常見形式。由於這種資料的文字性質及其與某種層次結構的一致性,它比非結構化資料更容易處理:因為沒有模式限定,資料可以自由流入、更新,在使用的時候模式起作用,構建資料模式來搜尋資料。

d.元資料

元資料是描述資料的資料,主要指的是描述資料屬性的資訊。這種型別的資料大多是機器生成的,可以附加到資料中。

二、大資料的含義及特徵

1.大資料的含義

大資料是一個專門用於分析、處理和儲存大量經常來自不同來源的資料集合的領域。當傳統的資料分析、處理和儲存技術不足時,通常需要大資料解決方案和實踐。

2.大資料的特徵

大資料的特徵由5個V定義:

特徵

說明

Volume(數量)

即指的是大量資料,資料量是巨大的並且會不斷地增長,隨著資訊科技的發展,在以往1GB的資料或許能夠稱作大量資料,現在這或許是PB級別的資料。在很多領域中都會有大資料的這個特徵,比如說在銷售領域,不斷增長的銷售資料、交易資料;科研領域,如粒子對撞機產生的大量資料。

Variety(多樣性)

資料多樣性是指大資料解決方案需要支援的多種格式和型別的資料。資料有不同的形式,比如我們熟知的影象、文字、影片、音訊、複雜的記錄等。

Velocity(速度)

在大資料環境中,資料可以快速到達,巨大的資料集可以在非常短的時間內積累。透過吸收補充資料集合、引入以前歸檔的資料或遺留集合,以及從多個來源到達的資料,資料的內容不斷變化。

Veracity(準確性)

準確性是指資料的質量的好壞,比如說資料的資訊和噪聲,噪聲是不能轉換為資訊的資料,因此沒有價值,而訊號有價值,並且是有意義的資訊。信噪比高的資料比信噪比低的資料更準確。透過對資料收集的控制,能夠確保資料的準確性,比如說透過使用者註冊而收集到的資訊,要比透過不受控制的來源獲得的資料(比說透過知乎上某篇帖子的資料)更準確。

Value(價值)

資料的價值特性我認為是能夠對企業或者事業單位產生有用的資訊,價值特徵與準確性特徵相關聯,如果資料質量好,那麼它對業務的價值就越大;此外,資料的質量還與時間有關,價值和時間是負相關的。比如說在股票交易的時候,延遲半小時的報股票報價相比前1秒的報價幾乎沒有價值。

三、大資料分析和小資料分析的區別與聯絡

1.區別

大資料和小資料可以由以下10個方面來區分:

方面

小資料

大資料

Goals(目標)

有特定的目標。比如說:二手房價的資料,有特定的目標:分析影響房價的因素。

有目標,但是目標是變化的。比如說:銷售資料,透過收集到的銷售資料,可以分析什麼因素會影響使用者的數量,也可以分析什麼因素影響了這個季度的銷售額。

Location(位置)

在一個資料夾中或一臺裝置上

分佈在全球各地的伺服器上

Data structure and content(資料結構和內容)

資料是結構化資料,資料侷限於某個領域。

各種資料型別,資料不僅僅侷限於單個領域。

Data preparation(資料準備)

使用資料的人出於自己的目的準備資料

資料來自許多不同的來源,由許多人準備。同時,使用資料的人一般不是準備資料的人。

Longevity(資料週期)

資料使用結束後,資料保留一段時間後被丟棄。

資料通常是永久儲存,儲存在大資料資源中的資料將被吸收到其他資料資源中。

Measurements(測量方式)

使用一組測量標準來表示資料

不同型別的資料以不同的格式交付

Reproducibility(再現性)

整個專案可以重複進行,產生一個新的資料集。

大資料專案的複製很少可行

Stakes(風險)

小資料故障風險小,機構能夠從故障中恢復。

大資料專案由於成本極其昂貴,失敗的大資料工作可能導致破產、機構崩潰等。

Introspection(內省)

透過標識可以找到並指定其中包含的所有資料

大資料資源的內容和組織可能是不可理解的

Analysis(分析)

可以一起分析或一次性分析所有資料

大資料通常以增量步驟進行分析。比如透過一些方法依次對資料進行提取、審查、簡化、標準化、轉換、視覺化、解釋和重新分析。

2.聯絡

大資料最常見的目的是產生小資料,大資料很少被全面分析,而是分析小資料。

​例如:使用手機上的地圖軟體搜尋附近的餐廳,它會列舉出附近某個範圍內的餐廳,軟體在執行時查詢的資料庫是大而複雜的,但是產生的資料是小的。

​所以在上面例子中,使用的資料來自於大資料集,但是最終的分析僅僅是透過一個小資料集,也就是滿足搜尋範圍的資料,大資料資源的目的是提供小資料集。

四、大資料分析的動機

採用大資料分析能夠更好的為企業獲取利潤,在面向業務的環境中,大資料分析結果可以降低運營成本並促進戰略決策。但是大資料不僅僅是為了商業服務的,它也可以為科學事業服務。在科學領域,大資料分析可以幫助確定現象的原因,以提高預測的準確性。大資料也可以為公共事業服務,在公共部門組織等基於服務的環境中,大資料分析可以降低成本,並且提升服務質量和提高效率。 下面是大資料分析在商業領域的五個商業動機:

動機

說明

市場動態(Marketplace Dynamics)

公司需要向外部資料來源開放自己,以此來感知市場和他們在市場中的地位。認識到外部資料給內部資料帶來了額外的環境,使得公司能夠更容易地從事後分析提升到洞察分析價值鏈。

業務架構(Business Architecture)

大資料與公司每個組織層(決策層、管理層、運營層)的業務架構都有聯絡。大資料增強了價值,因為它透過整合外部視角提供了額外的環境,有助於將資料轉換為資訊,併為從資訊中生成知識提供了意義。比如說在運營層面,由資料生成的指標只是報告業務中發生的事情。透過管理層,這些資訊可以透過企業績效的視角來檢驗,以回答有關企業績效的問題。進一步,透過這些資訊,決策層可以提供進一步的見解,回答需要改變或採用哪種戰略來糾正或提高績效的問題。

業務流程管理(Business Process Management)

業務流程描述了在一個組織裡,工作是如何完成的。業務流程管理採用流程最佳化技術來提升公司的執行力,作用是幫助企業進行業務流程分析、監督和執行。當大資料分析結果和目標行為結合在一起使用時,流程執行可以變得適應市場和響應環境條件。比如說公司要聯絡客戶,最簡單的方式是隨機選擇打電話、發電子郵件、發訊息或者傳統的郵件與客戶取得聯絡,如果採用大資料分析,如聚類分析,將客戶分配到以打電話、發電子郵件等為聚類維度的組之中,可以更精準聯絡客戶。

資訊和通訊技術(Information and Communications Technology)

資訊和通訊技術(如資料分析和資料科學、數字化、開源技術與商用硬體、社交媒體、超聯通社群與裝置、雲計算)的發展加快企業採用大資料的步伐。

萬物網際網路(Internet of Everything (IoE))

萬物網際網路將人、資料、流程和事物結合在一起,使得網路連線變得更加相關,更具有價值。萬物互聯將資訊轉化為行動,給企業,個人和國家創造新的功能。

五、大資料分析的目標

大資料分析的最終目標是對資料進行分析,以便及時交付高質量的結果,從而為企業或使用者提供最佳的價值。

​還是以上面大資料與小資料的聯絡中提到的例子為例:

​透過使用手機上的地圖軟體搜尋附近的餐廳,軟體系統會在大而複雜的資料庫中進行查詢,這個資料庫中包含了很多資訊,比如說有餐廳的資訊,有加油站的資訊,有超市的資訊等,如果軟體給使用者反饋的是加油站的資訊,那麼大資料分析對於使用者來說將是毫無價值的,如果軟體及時給使用者反饋了附近的餐廳資訊,那麼大資料分析對使用者來說是有價值的。

六、資料分析的型別和它們之間的關係

資料分析支援有科學依據的資料驅動決策,因此決策可以基於事實資料,而不僅僅是基於過去的經驗或直覺。根據分析產生的結果,資料分析可以分為四大類:

型別

說明

描述性分析(descriptive analytics)

描述了已經發生的事件的一些問題

診斷性分析(diagnostic analytics)

尋找產生現象的原因和影響因素

預測性分析(predictive analytics)

根據過去的事件建立模型,用於對未來的預測

預案性分析(prescriptive analytics)

在對未來的基礎上選擇應該採取的行動以及為什麼採取它

​這四種分析型別利用不同的技術和分析演算法。所以會對不同的資料及處理和儲存有不同的要求。

這四種資料分析型別的關係:

1。從描述性分析到預案性分析,前面的是後面的基礎,後面對前面進行了一定的深化。

2。從描述性分析到預案性分析,分析結果的價值是越來越高的,但是複雜度也是越來越高的。

3。時間維度上看,描述性、診斷性是立足於過去;預測性、預案性更關注未來

4。在有些演算法中,預測性分析可以促進診斷性分析(包裹式),甚至合二為一(嵌入式)

七、四種資料分析型別及其適用範圍和常用方法

1.描述性分析及其適用範圍和常用方法

描述性分析

描述性分析透過運用製表和分類,圖形以及計算概括性資料來描述資料特徵的各項活動。主要包括資料的頻數分析、集中趨勢分析、離散程度分析、分佈以及一些基本的統計圖形。

適用範圍

描述性分析主要應用於對已經發生事件的描述,即發生了什麼。

常用方法

(1)圖表表示

a。條形圖,餅圖,環形圖

b。累積頻數分佈或頻率圖

c。直方圖,莖葉圖,箱線圖,線圖

d。散點圖,氣泡圖,雷達圖

(2)概括性度量

a。集中趨勢的度量:眾數,中位數,平均數/加權平均數/幾何平均數,四分位數

b。離散程度的度量:異眾比率,四分位間距,極差,平均差,方差/標準差,變異係數

c。偏態與峰態的度量:偏態,峰態

2.診斷性分析及其適用範圍和常用方法

診斷性分析

診斷性分析是為了獲得事情發生的原因,尋找到影響這些事情發生的影響因素。

適用範圍

診斷性分析用來尋找產生現象的原因和影響因素,即尋找原因。

常用方法

a。區間估計:可以用來解釋資料均值及其95%置信區間的資料的可信度。

b。假設檢驗:兩樣本均值檢驗、方差分析等。

c。圖示檢驗法:得到一組資料後,可以進行假設檢驗來驗證資料服從的分佈,比如利用PP圖或者QQ圖正態性檢驗。

d。特徵選擇:一個事件可能有多個影響因素,需要找到可能的影響因素,進行特徵選擇。特徵選擇又分為過濾式、包裹式和嵌入式。比如包裹式特徵選擇中可以採用樹模型隨機森林對各個可能的影響因素打分,得分高的特徵的重要程度高。

3.預測性分析及其適用範圍和常用方法

預測性分析

預測分析涵蓋了各種統計技術,包括資料探勘,預測建模和機器學習,這些技術可以分析當前和歷史事實以對未來或未知事件做出預測。

適用範圍

預測性分析用來對未來將要發生的事件的預測,即預測未知事件的走向。

常用方法

a。迴歸分析:建立數學模型來表示所考慮的不同變數之間的相互作用。方法有:線性迴歸、邏輯迴歸等

b。機器學習模型:樹迴歸模型如隨機森林、梯度提升決策樹,支援向量機等。

4.預案性分析及其適用範圍和常用方法

預案性分析

預案性分析也稱為規範性分析,在基於預測性分析的結果上,規定、規範應該採取的行動規範性分析的重點不僅僅是最好遵循哪個選項,而是為什麼選擇這個選項。規定性分析提供了可以推理的結果,所以,這種分析可以用來獲得優勢或降低風險。

適用範圍

預案性分析基於預測性分析的結果,規範之後應當採取的行動。

常用方法

透過建立評價指標(比如說模型的準確率)來評價各個備選模型的優劣,從而選出最優模型即最優方案,或者對模型的穩健性進行分析以此來規範應當採取的行動。