您當前的位置:首頁 > 農業

1.1 用Python做資料化運營

作者:由 宋天龍 發表于 農業時間:2018-01-17

說明:本文是《Python資料分析與資料化運營》中的“1。1 用Python做資料化運營”。

——————————————-下面是正文內容——————————————

Python是什麼?資料化運營又是什麼?為什麼要將Python用於資料化運營?本節先來回答這幾個問題。

1。1。1 Python是什麼

Python是一種面向物件的解釋型計算機程式設計語言,由荷蘭人Guido van Rossum於1989年發明,第一個公開發行版發行於1991年。Python開發的初衷其實是一個開發程式語言,而非相對資料工作和科學計算的資料處理或建模程式。

為什麼我們要選擇Python而非其他語言(例如R)進行資料處理、分析和挖掘?這是因為Python先天和後天具有的一些特殊條件和能力使其成為目前企業(尤其是大資料領域)做資料化運營最為合適的工具。

開源/免費:使用Python(及其第三方庫)無需任何產品購買、授權或license費用,對個人和企業都是如此。

可移植性:Python程式可以跨Windows、Linux、Mac等多平臺執行,這點決定了它的移植性非常強,一次開發、多平臺應用。

豐富的結構化和非結構化資料工作庫和工具:Python除了自帶數學計算庫外,還包括豐富的第三方庫和工具,例如用於連線Oracle、MySQL、SQLite等資料庫連線庫,資料科學計算庫Numpy、Sciy、Pandas,文字處理庫NLTK、機器學習庫Scikit-Learn、Theano,圖形影片分析處理和挖掘庫PIL和Opencv以及開源計算框架Tensorflow等。

強大的資料獲取和整合能力:Python除了可以支援多種型別的檔案(影象、文字、日誌、語音、影片等)和資料庫整合外,還能透過API、網路抓取等方式獲取外部資料,內、外部資料來源整合、多源資料整合、異構資料並存、多型別資料交錯正是當前企業運營資料的基本形態。

海量資料的計算能力和效率:當面對超過GB、TB規模的海量資料時,傳統資料工具通常無法支撐,更不必填計算效率。Python對於這個規模的資料計算的支援能力和工作效率要遠超過其他資料工作語言。

與其他語言的整合:Python具備“膠水”能力,能與Java、C、C++、MATLAB、R等整合使用,這意味著你既可以把其他語言寫到的指令碼嵌入Python,也可以把Python指令碼嵌入其他語言。

強大的學習交流和培訓資源:Python已經成為世界上最主流的程式語言和資料工作的核心工具之一,有非常多的社群、部落格、論壇、培訓、教育機構提供了交流和學習的機會。

開發效率高:Python語言簡潔、程式規範,這使得在使用Python開發程式時用時更少。這對於以效率優先的程式工作或驗證性專案非常關鍵,效率決定商機。

簡單易學:Python語法簡單,即使是沒有任何程式碼基礎的人也能在幾個小時能掌握基本的Python程式設計技巧。這對於初學者而言至關重要,程式設計式資料分析不再遙不可及,我們都能像使用Excel一樣使用Python。

總而言之,在具備一定的Python經驗和技巧下,幾乎沒有Python無法勝任的工作場景!如果有,那麼用Python呼叫其他能勝任的語言或用其他能勝任的語言呼叫Python吧。

1。1。2 資料化運營是什麼

1。 資料化運營的基本含義

資料化運營是指透過資料化的工具、技術和方法,對運營過程中的各個環節進行科學分析、引導和應用,從而達到最佳化運營效果和效率,降低成本、提高效益的目的。

運營是一個範圍“彈性”非常大的概念,最大可以延伸到所有公司的事務管理,最小可能只包括網站運營管理工作。本書中若無特殊說明,運營的範圍包括會員運營、商品運營、流量運營和內容運營四方面內容。

2。 資料化運營的重要意義

資料化運營的核心是運營,所有資料工作都是圍繞運營工作鏈條展開,逐步強化資料對於運營工作的驅動作用。資料化運營的價值體現在對運營的輔助、提升和最佳化上,甚至某些運營工作已經逐步數字化、自動化、智慧化。

提高運營決策效率

在資訊瞬息萬變的時代,抓取轉瞬即逝的機會對企業而言至關重要。決策效率越高意味著可以在更短的時間內做出決策,從而跟上甚至領先競爭對手。資料化運營帶來的輔助決策便捷性以及資料智慧引發的主動決策思考,將提前預判決策時機並提高決策效率。

提高運營決策正確性

智慧化的資料工作方式,可以基於資料科學方法進行資料演練並得出可量化的預期結果,再配合決策層的豐富經驗,會提高運營決策的正確性。

最佳化運營執行過程

資料化運營可以透過標準口徑的資料、資訊和結論,為運營部門提供標準統一、目標明確的KPI管理,結合資料化的工作方法和思路,最佳化運營過程中的執行環節,從而降低溝通成本、提高工作效率、提升執行效果。

提升投資回報效果

資料化運營過程中,透過持續的正確工作目標的樹立、最大化工作效率的提升、最最佳化工作方法的執行能有效降低企業冗餘支出,提升單位成本的投資回報效果。

3。 資料化運營的2種方式

從資料發揮作用的角色來看,資料化運營分為輔助決策式資料化運營和資料驅動式資料化運營。

輔助決策式資料化運營

輔助決策式資料化運營即運營的決策支援,它是以決策主題為中心,藉助計算機相關技術輔助決策者透過資料、模型、知識等進行業務決策,起到幫助、協助和輔助決策者的目的。例如:透過為決策者提供促銷商品銷量,來為企業促銷活動提供有關訂貨、銷售等方面的支援。

資料驅動式資料化運營

資料驅動式資料化運營是指整個運營運作流程以最大化結果為目標,以關鍵資料為觸發和最佳化方式,將運營業務的工作流程、邏輯、技巧封裝為特定應用,藉助計算機技術並結合企業內部流程和機制形成一體化的資料化工作流程。例如:個性化推薦是一種資料驅動資料化運營方式。

兩種資料化運營的差異點

輔助決策式資料化運營和資料驅動式資料化運營是兩個層次的資料應用,資料驅動相對於輔助決策的實現難度更高、資料價值體現更大。

輔助決策為業務決策方服務,整個過程都由運營人員掌控,資料是輔助角色。

資料驅動的過程由資料掌控,資料是主體,實現該過程需要IT、自動化系統、演算法等支援,資料驅動具有自主導向性、自我驅動性和效果導向性的特徵。

注意 由於資料和流程本身會存在缺陷以及運營業務通常都有強制性規則的需求,因此即使在資料驅動資料化運營過程中也會加入人工干預因素。但即使如此,資料作為資料驅動的核心不變,資料即決策主體本身。

4。 資料化運營的工作流程

在上一節我們介紹了資料化運營的兩種方式:輔助決策式資料化運營和資料驅動式資料化運營。其中資料驅動式資料化運營具體取決於應用場景,不同的場景其具體工作流程不同。有關該部分內容在本書後面章節具體講到。本節重點介紹資料驅動式資料化運營的工作流程。

資料驅動式資料化運營工作包含資料和運營兩個主體,在實際工作過程中需要二者協同;在某些大型工作專案上,還有可能涉及到跟IT部門、資訊中心等部門的聯動。工作流程分為三個階段,如圖1-1:

1.1 用Python做資料化運營

圖1-1 資料驅動式資料化運營工作流程

第一階段:資料需求溝通

該階段主要包括需求產生和需求溝通兩個步驟。

需求產生

由運營部門產生的某些資料化運營需求,例如預測商品銷量、找到異常訂單、確定營銷目標人群名單等。

需求溝通

針對運營部門提出的需求進行面對面溝通和交流,主要溝通兩方面內容:一是業務需求溝通,包括需求產生的背景、要解決的問題、預期達到的效果等;二是資料現狀溝通,包括資料儲存環境、主要欄位、資料字典、資料量、更新頻率、資料週期等,如果沒有資料則需要制定資料採集規則並開始採集資料,該過程中可能需要IT部門的協助;三是資料與分析的關聯性溝通,根據與運營人員的溝通,瞭解業務背景下哪些是常見的帶有業務背景的資料、不同場景會導致資料如何變化、分析中會涉及到哪些關鍵欄位或場景資料等,業務人員豐富的經驗會幫助資料工作者少走很多坑。

第二階段:資料分析建模

從這一階段開始進入正式的資料工作,包括獲取資料、資料預處理、資料分析建模和資料結論輸出四個步驟。

獲取資料

要獲取資料化運營分析所需的資料,需要經過特定授權從資料庫或檔案中得到資料。

資料預處理

在該過程中對資料進行質量檢驗、樣本均衡、分類彙總、合併資料集、刪除重複項、資料分割槽、排序、資料離散化、資料標準化、過濾變數、轉置、查詢轉換、資料脫敏、資料轉換、抽樣、異常值和缺失值處理等。

資料分析建模

運用多種資料分析和挖掘方法,對資料進行分析建模。方法包括統計分析、OLAP分析、迴歸、聚類、分類、關聯、異常檢測、時間序列、協同過濾、主題模型、路徑分析、漏斗分析等。

資料結論輸出

資料結論的輸出有多種方式,常見的方式是資料分析或挖掘建模報告,另外還包括Excel統計結果、資料API輸出、資料結果返回資料庫、資料結果直接整合到應用程式中進行自動化運營用用(例如簡訊營銷)。

第三階段:資料落地應用

該階段是資料化運營的落地的關鍵階段,前期所有的準備和處理工作都透過該階段產生價值。該階段包括資料結論溝通、資料部署應用和後續效果監測和反饋三個步驟。

資料結論溝通

對於輸出的形式為報告、Excel統計結果等方式的內容,通常都需要與運營物件進行深入溝通,主要溝通的內容是將透過資料得到的結論和結果與業務進行溝通,透過溝通來初步驗證結論的正確性、可靠性和可行性,並對結果進行修正。如果沒有可行性,那麼需要返回第二階段重新開始資料分析建模流程。

資料部署應用

經過溝通具有可行性的資料結論,可直接應用到運營執行環節。例如,將預測結果作為下一月份的KPI目標,將選擇出來的使用者作為重點客戶進行二次營銷。

後續效果監測和反饋

大多數的資料化運營分析都不是“一次性”的,尤其當已經進行部署應用之後,需要對之前的資料結論在實踐中的效果做二次驗證,若有必要則需要進行結論的再次修正和意見反饋。

注意 很多人認為資料化運營工作應該從資料產生之後開始,這是錯誤的觀念,原因在於資料化運營工作的起始是需求產生,而需求的產生跟資料的產生往往沒有必然關係。

1。1。3 Python用於資料化運營

Python用於資料化運營,將充分利用Python的強大功能和效率來滿足資料化運營的複雜需求。

Python可以將資料化運營過程中的來源於企業內外部的海量、多型別、異構、多資料來源的資料有效整合到一起,提供豐富的整合、開發、分析、建模和部署應用。

Python高效的開發效率能幫助資料化運營在最短的時間內進行概念驗證,並提供科學的預測結果,為資料化運營的快速和準確提供基礎。

Python可以將資料工作流程和IT工作流程無縫對接,有利於實現資料工作跟運營工作的融合,這也是資料驅動式資料化運營的工作方法,有利於真正實現數字化、智慧化的運營工作。

標簽: 資料  運營  Python  決策  工作