您當前的位置:首頁 > 書法

大資料時代 前景及問題解決 閱讀筆記

作者:由 石董Sammy 發表于 書法時間:2018-05-09

大資料時代 前景及問題解決 閱讀筆記

筆記均摘選自《

大資料時代

》方便快速回顧,僅供參考。學習請購買正版書籍。侵刪。

大資料變革案例

大資料,變革公共衛生

谷歌與美國疾控中心,檢索詞條與流感發生時間、地點的相關性,預測流感爆發。比疾控中心快一兩週。

大資料,變革商業

Farecast,未來機票價格預測

大資料,變革思維

最先經歷資訊爆炸的學科,如天文學和

基因學

,創造出了 “ 大資料 ” 這個概念。如今,這個概念幾乎應用到了所有人類致力於發展的領域中。

大資料並非一個確切的概念。最初,這個概念是指需要處理的資訊量過大,已經超出了一般電腦在處理資料時所能使用的記憶體量,因此工程師們必須改進處理資料的工具。這導致了新的處理技術的誕生,例如谷歌的 MapReduce 和開源 Hadoop 平臺(最初源於雅虎)。這些技術使得人們可以處理的資料量大大增加。更重要的是,這些資料不再需要用傳統的資料庫表格來整齊地排列 —— 一些可以消除僵化的

層次結構

和一致性的技術也出現了。同時,因為網際網路公司可以收集大量有價值的資料,而且有利用這些資料的強烈的利益驅動力,所以網際網路公司順理成章地成為了最新處理技術的領頭實踐者。它們甚至超過了很多有幾十年經驗的線下公司,成為新技術的領銜使用者。

預測,大資料的核心

大資料時代特點

01 樣本 = 總體

穿孔卡片與美國人口普查

大資料與喬布斯的癌症治療

Xoom 與跨境匯款異常交易報警

巴拉巴西與第一次全社會層面的網路分析

02 混雜性,不是竭力避免,而是標準途徑,非關係型的資料庫設計的誕生

微軟與語料庫資料新增

IBM Candidate 計算機翻譯專案

無所不包的谷歌翻譯系統

英國石油公司與無線感應器

麻省理工與通貨緊縮預測軟體

Hadoop 與 VISA 的 13 分鐘

03 不是因果關係,而是相關關係,“ 是什麼 ” ,而不是 “ 為什麼 ”

沃爾瑪,請把蛋撻與颶風用品擺在一起

FICO,“ 我們知道你明天會做什麼 ”

美國折扣零售商塔吉特與懷孕預測

UPS 與汽車修理預測

大資料預測早產兒病情

幸福感的非線性關係

二手車質量預測

紐約大型沙井蓋爆炸預測

04 資料化:一切皆可 “ 量化 ”,文字、方位、溝通變成資料、世間萬物的資料化

日本先進工業技術研究所的坐姿研究與汽車防盜系統

谷歌的數字圖書館

多效地理定位與 UPS 的最佳行車路徑

Foursquare ,讓使用者在最喜愛的地方 “check in”

用手機資料預測疾病傳播和城市繁榮

英國對沖基金公司,用微博資料預測股市投資時機

睡眠活動資料庫與睡眠模式預測

GPS 感應器,判斷環境因素對

哮喘病

的影響

05 價值: “ 取之不盡,用之不竭 ” 的資料創新

IBM ,電動汽車動力與電力供應系統最佳化預測

Hitwise ,透過流量判斷消費者喜好

亞馬遜,讓資料的價值再大一點

移動運營商與資料再利用

谷歌街景與 GPS 採集

微軟與谷歌的拼寫檢查

谷歌,從大的 “ 噪音 ” 資料中受益

巴諾與 NOOK 快照

線上教育課程,找到最合適閱讀的論壇帖子

Facebook, 從 66 億到 1040 億

DataMarket 與 InfoChimps ,提供免費與付費資料

資料創新利用

1 :資料的再利用

亞馬遜,掌握使用者的資料:他們在看什麼、買什麼。 “ 這些數

據可以幫助亞馬遜提高它的推薦引擎效能。 ” 亞馬遜前首席科學家

韋思岸

( Andreas Weigend )一語道破。 AOL 從來沒有意識到這一點,只看到了銷售這個基本用途所帶來的利益;而聰明的亞馬遜卻知道如何從二次利用中獲利。

谷歌GOOG—411 語音識別服務。谷歌與該領域的領導者 Nuance 公司達成購買許可但 Nuance 公司在合同中沒有規定由誰來儲存語音翻譯記錄。於是谷歌自己儲存了資料。這些資料在改進技術方面是不可或缺的,谷歌甚至據此從頭建立了一個新的語音識別服務系統。當時 Nuance 公司只考慮到了軟體許可的業務交易,而忽視了資料的處理。當認識到自己犯下的錯誤後。

2 :重組資料

丹麥癌症協會:手機是否增加致癌率

丹麥擁有 1985 年手機推出以來所有手機使用者的資料庫。結合所有癌症患者的資訊,結合這兩個資料集後,研究人員開始尋找兩者的關係。

3 :可擴充套件資料

谷歌街景與 GPS 採集

在收集資料時強調擴充套件性方面,谷歌毫無疑問是做得最好的公司之一。其備受爭議的

街景汽車

不僅拍攝了房屋和道路的照片,還同時採集 GPS 資料,檢查地圖的資訊,甚至還加入了無線網路名稱(以及透過開放無線網路的內容,儘管這可能是非法的)。一輛

谷歌街景汽車

每時每刻都能積累大量的離散資料流。這些資料之所以具有可擴充套件性,是因為谷歌不僅將其用於基本用途,而且進行了大量的二次使用。例如, GPS 資料不僅優化了其地圖服務,而且對谷歌自動駕駛汽車的運作功不可沒。

4 :資料的折舊值

隨著時間的推移,大多數資料都會失去一部分基本用途。

在這種情況下,繼續依賴於舊的資料不僅不能增加價值,實際上還會破壞新資料的價值。比如十年前你在亞馬遜買了一本書,而現在你可能已經對它完全不感興趣。如果亞馬遜繼續用這個資料來向你推薦其他書籍,你就不太可能購買帶有這類標題的書籍,甚至會擔心該網站之後的推薦是否合理。這些推薦的依據既有舊的過時的資訊又有近期仍然有價值的資料,而舊資料的存在破壞了新資料的價值。

於是,亞馬遜決定只使用仍有生產價值的資料,這就需要不斷地更新資料庫並淘汰無用資訊。這時面臨的挑戰就是如何得知哪些資料不再有價值。僅僅依據時間來判斷顯然不夠, 因此,亞馬遜等公司建立了複雜的模型來幫助自己分離有用和無用的資料。例如,如果客戶瀏覽或購買了一本基於以往購買記錄而推薦的書,

電子商務公司

就認為這項舊的購買記錄仍然代表著客戶的喜好。這樣,他們就能夠評價舊資料的有用性,並使模型的 “

折舊率

” 更具體。

並非所有的資料都會貶值。

有些公司提倡儘可能長時間地儲存資料,即使監管部門或公眾要求它們短時間內刪除或隱匿這些資訊。這就解釋了為什麼一直以來,谷歌都拒絕將網際網路協議地址從舊的搜尋查詢中完全刪除(它只是在 18 個月後刪除了最後四位數以隱匿搜尋查詢)。谷歌希望得到每年的同比數,如假日購物搜尋等。此外,通過了解搜尋者的位置,可以幫助改善搜尋結果的相關性。例如,很多紐約人都會搜尋 “ 火雞 ” ,但經常會搜尋到與 “ 火雞 ” 無關的關於 “ 土耳其 ” 的網頁(英文中 “ 火雞 ” 與 “ 土耳其 ” 同為 turkey )。透過演算法可以將他們想要檢視的頁面放在排名靠前的位置,來方便其他紐約人查詢。

即使資料用於基本用途的價值會減少,但潛在價值卻依然強大。

5 :資料廢氣

微軟與谷歌的拼寫檢查

在過去的 20 多年中,微軟為其 Word 軟體開發出了一個強大的拼寫檢查程式,透過與頻繁更

新的字典正確拼寫相比較來對使用者鍵入的字元流進行判斷。字典囊括了所有已知詞彙,系統將

拼寫相似但字典中沒有的詞彙判斷為拼寫錯誤,並對其進行糾正。由於需要不斷編譯和更新字

典,微軟 Word 的拼寫檢查僅適用於最常用的語言,且每年需要花費數百萬美元的建立和維護費用。

現在再來看看谷歌是怎麼做的吧。可以說,谷歌擁有世界上最完整的拼寫檢查器,基本上

涵蓋了世界上的每一種語言。這個系統一直在不斷地完善和增加新的詞彙,這是人們每天使用

搜尋引擎的附加結果。你輸錯了 iPad 嗎?不要緊,它在那兒呢; Obamacare 是什麼?哦,明白了。

而且,谷歌幾乎是 “ 免費 ” 地獲得了這種拼寫檢查,它依據的是其每天處理的 30 億查詢中輸入搜尋框中的錯誤拼寫。一個巧妙的反饋迴圈可以將使用者實際想輸入的內容告知系統。當搜尋結果頁面的頂部顯示 “ 你要找的是不是:流行病學 ” 時,使用者可以透過點選正確的術語明確地 “ 告訴 ” 谷歌自己需要重新查詢的內容。或者,直接在使用者訪問的頁面上顯示正確拼寫的結果,因為它很可能與正確的拼寫高度相關。(這實際上比看上去更有意義,因為隨著谷歌拼寫檢查系統的不斷完善,人們即使沒有完全精確地輸入查詢內容也能夠獲得正確的查詢結果。)

谷歌的拼寫檢查系統顯示,那些 “ 不合標準 ” 、 “ 不正確 ” 或 “ 有缺陷 ” 的資料也是非常有用的。

不僅利用錯別字開發了世界上最好、最新式的拼寫檢查器來提高搜尋質量,而且將其應用於許多其他服務中,如搜尋的 “ 自動完成 ” 功能、 Gmail 、谷歌文件甚至翻譯系統。

一個用來描述人們在網上留下的數字軌跡的藝術詞彙出現了,這就是 “

資料廢氣

” 。 它是使用者線上互動的副產品,包括瀏覽了哪些頁面、停留了多久、滑鼠游標停留的位置、輸入了

什麼資訊等。

Udacity 、 Coursera 和 EDX 等線上教育課程透過跟蹤學生的 Web 互動來尋找最佳的教學方法。

資料廢氣可以成為公司的巨大競爭優勢,也可能成為對手的強大進入壁壘。

試想,如果一家新上市的公司設計了一個比當今行業領先者(如亞馬遜、谷歌或 Facebook 等)更優秀的電子商務網站、社交網站或搜尋引擎,它也難以同對手競爭,這不僅是因為其經濟規模、網路效應或品牌價值不夠好,而是因為這些公司收集了來自客戶互動的資料廢氣並納入到他們的服務中。一個新的線上教育網站有能力與一個已經具備龐大資料庫並且由此知道什麼最好的對手相抗衡嗎?

6 :開放資料

國家收集資料時代表的是其公民,因此它也理應提供一個讓公民檢視的入口,但少數可能會危害到國家安全或他人隱私權的情況除外。

奧巴馬的指令促成了

http://

data。gov

網站的建立,這是美國聯邦政府的公開資訊資料庫。網站從 2009 年的47 個數據集迅速發展起來,到 2012 年 7 月三週年時,資料集已達 45 萬個左右,涵蓋了 172 個機構。

即使是在嚴謹的英國 [3] ,現在也出現了實質性的轉變。英國政府已經頒佈相關規定鼓勵資訊

公開,並支援建立由

全球資訊網

的發明者蒂姆 · 伯納斯( Tim Berners-Lee )參與指導的開放式資料中心,這一舉措促進了開放資料的新用途並將資料從國家手中解放出來。

歐盟宣佈開放資料的舉措很快也會遍及整個歐洲。其他國家,如澳大利亞、巴西、智利等

也相繼出臺並實施了開放資料策略。同時,世界各地越來越多的城市和地區也已經加入開放數

據的熱潮,一些國際組織也是如此,世界銀行就公開了數百個之前被限制的關於經濟和社會指

標方面的資料集。

同時,各種 Web 開發人員和富有遠見的思想家組成了資料團隊來最大化開放資料價值,如

美國的陽光基金會和英國的開放知識基金會。

FlyOnTime 的航班時間預測

開放資料早期的一個例子,來自美國一個叫

http://

FlyOnTime。us

的網站。人們可以互動地(從許多

其他相互關係中)判斷惡劣天氣使某一特定機場的航班延遲的可能性有多大。該網站結合了航

班資訊和網際網路免費提供的官方天氣預報。

7 :給資料估值

無論是向公眾開放還是將其鎖在公司的保險庫中,資料的價值都難以衡量。

Facebook 開盤當天,其正規金融資產與其未記錄的無形資產之間相差了近 1000 億美元,差距幾乎是 20 倍!太可笑了。

但是,隨著企業找到在資產負債表上記錄資料資產價值的方法,這樣的差距有一天也必將消

除。

資料價值的關鍵是看似無限的再利用,即它的潛在價值。收集資訊固然至關重要,但還遠

遠不夠,因為大部分的資料價值在於它的使用,而不是佔有本身。

大資料價值鏈

資料、技術、思維

ITA software 與資料授權

VISA & MasterCard 與商戶推薦

微軟研究中心與再入院率分析

埃森哲與無線感測監測系統

FlightCaster 的大資料思維

谷歌與亞馬遜,三者兼備

資料中間商,交通資料處理公司 Inrix

http://

The-Numbers。com

與電影票房預測

蘋果,挖出 “ 潛伏 ” 的資料價值

大資料掌控公司

ITA Software 與資料授權

四大機票預訂系統之一的 ITA Software就為 Farecast 提供預測機票價格所需要的資料,而它

自身並不進行這種資料分析。為什麼呢?因為商業定位不一樣,畢竟出售機票已經很不容易

了,所以 ITA 並不考慮這些資料的額外利用。因此,兩家公司的核心競爭力也會不同。當然,還有就是 ITA 並沒有這種創新想法,如果它能像 Farecast 一樣利用資料,那麼就需要向奧倫 · 埃齊奧尼先生購買

專利使用權

了。

當然,它在大資料價值鏈上所處的位置也決定了它不會這樣去使用資料。 “ITA 會盡量避免

用任何資料來暴露航空公司的利潤問題。 ”ITA 的創始人之一也是前 CTO 卡爾 · 德馬肯( Carl de Marcken )如是說。他還說, “ITA 能夠得到這些資料而且必須擁有這些資料,因為它們是 ITA 在提供服務時必須具備的。 ” 但是, ITA 有意與這些資料保持一定的距離,所以自己不使用而是授權別人使用。結果不難預見, ITA 只從 Farecast 那裡分得了小小的一杯羹。 Farecast 得到了資料大部分的間接價值,它把其中一部分價值以更便宜的機票的形式轉移給了它的使用者,而把這種價值帶來的利潤分給了它的股東以及員工。 Farecast 透過廣告、佣金,當然最後通過出售公司本身獲取利潤。

有的公司精明地把自己放在了這個資訊鏈的核心,這樣它們就能擴大規模、挖掘資料的價

值。信用卡行業的情況就符合這一點。多年來,防範信用詐騙的高成本使得許多中小銀行都不

願意發行自己的信用卡;而是由大型金融機構發行,因為只有它們才能大規模地投入人力物力

發展防範技術。美國第一

資本銀行

和美國銀行這樣的大型金融機構就承擔了這個工作。但是現

在小銀行後悔了,因為沒有自己發行的信用卡,它們就無從得知客戶的消費模式,從而不能為

客戶提供定製化服務。

如果一個人在下午四點左右給汽車加油的話,他很可能在接下來的一個小時內要去購物或者去餐館吃飯,而這一個小時的花費大概在 35~50 美元之間。商家可能正需要這樣的資訊,因為這樣它們就能在這個時間段的加油小票背面附上加油站附近商店的優惠券。

處於這個資料鏈的中心, MasterCard 佔據了收集資料和挖掘資料價值的黃金位置。我們可以

想象,未來的信用卡公司不會再對交易收取佣金,而是免費提供支付服務。作為回報,它們會

獲得更多的資料,而對這些資料進行復雜的分析之後,它們又可以賣掉分析結果以取得利潤。

大資料技術公司

2005 年,在

埃森哲

與密蘇里州聖路易斯市共同合作的一個實驗專案中,它給 20 輛公交車安

裝了

無線感測器

來監測車輛引擎的工作情況。這些資料被用來預測公交車什麼時候會拋錨以及

維修的最佳時機。研究促使車輛更換零件的週期從 30 萬或者 40 萬公里變成了 50 萬公里,僅這一項研究結果就幫助該城市節省了 60 萬美元。

大資料思維公司和個人

FlightCaster 的大資料思維

布拉德福德 · 克羅斯( Bradford Cross )用擬人手法解釋了什麼是有大資料思維。

http://

FlightCaster。com

。和

http://

FlyOnTime。us

類似,這個網站致力於預測航班是否會晚點。它主要基於分析過去十年裡每個航班的情況,然後將其與過去和現實的天氣情況進行匹配。

谷歌與亞馬遜,三者兼備

谷歌,

收集搜尋時拼寫錯誤的資料,它也有利用這些資料建立一個世界上最好的拼寫檢查程式的好點

子,同時它自身也具備挖掘資料價值的技術。谷歌在大資料價值鏈中同時充當的這三個不同的

角色,與谷歌其他專案整合後為谷歌帶來了巨大的利潤。除此之外,谷歌還透過應用程式介面

( APIs )把它掌握的部分資料授權別人使用,這樣資料就能重複使用還可以產生附加價值。谷歌地圖就是這樣,它免費給網際網路上的任何人提供服務(儘管訪問量很大的網站是需要付費

的)。

亞馬遜

剛開始的時候,關於它備受讚譽的推薦系統,亞馬遜只有一個初步的想法。它在其 1997 年的股票市場簡介中首先描述了 “ 協同過濾 ” ,這發生在它找到實施這個想法的方法和配備足夠的資料資源之前。

雖然谷歌和亞馬遜都是三者兼具,但是它們的商業策略並不相同。谷歌在剛開始收集資料

的時候,就已經帶有多次使用資料的想法。比方說,它的街景採集車收集全球定位系統資料不

光是為了建立谷歌地圖,也是為了製成全自動汽車。相對地,亞馬遜更關注的是資料的基本用

途而且也只把資料的二級用途作為額外收益。比方說,它的推薦系統把使用者瀏覽過的網頁資料

作為線索,但是它並沒有利用它預測經濟狀況和流感爆發。

亞馬遜的 Kindle 電子書閱讀器記錄了一些讀者反覆標註和強調過的內容,但是亞馬遜並沒有

把這些資料資訊賣給作者或是出版社。書商肯定很樂意知道哪些段落是受讀者喜歡的,因為這

樣他們就能提高銷量;作者應該也想知道書籍的哪些地方不受讀者歡迎,這樣他們就能根據讀

者的喜好提高作品質量;出版社則可以透過這些資料知道哪些主題的書籍更有可能成為暢銷

書。但是,亞馬遜把這些資料都雪藏了。

全新的

資料中間商

資料中間商,交通資料處理公司 Inrix

總部位於西雅圖的交通資料處理公司 Inrix 就是一個很好的例子。它彙集了來自美洲和歐洲

近 1 億輛汽車的實時交通資料。這些資料來自寶馬、福特、豐田等私家車,還有一些商用車,比如計程車和貨車。私家車主的行動電話也是資料的來源。這也解釋了為什麼它要建立一個免費的智慧手機應用程式,因為一方面它可以為使用者提供免費的交通訊息,另一方面它自己就得到了同步的資料。 Inrix 透過把這些資料與歷史交通資料進行比對,再考慮進天氣和其他諸如當地時事等資訊來預測交通狀況。資料軟體分析出的結果會被同步到汽車衛星導航系統中,政府部門和商用車隊都會使用它。

大資料,決定企業競爭力

大資料成為許多公司競爭力的來源,從而使整個行業結構都改變了。當然,每個公司的情

況各有不同。大公司和小公司最有可能成為贏家,而大部分中等規模的公司則可能無法在這次

行業調整中嚐到甜頭。

雖然像亞馬遜和谷歌一樣的行業領頭羊會一直保持領先地位,但是和工業時代不一樣,它

們的企業競爭力並不是體現在龐大的生產規模上。已經擁有的技術配備規模固然很重要,但那

也不是它們的核心競爭力,畢竟如今已經能夠快速而廉價地進行大量的資料儲存和處理了。公

司可以根據實際需要調整它們的計算機技術力量,這樣就把固定投入變成了可變投入,同時也

削弱了大公司的技術配備規模的優勢。

大資料管理變革、問題與解決

風險:讓資料主宰一切的隱憂

無處不在的 “ 第三隻眼 ”

我們的隱私被二次利用了

預測與懲罰,不是因為 “ 所做 ” ,而是因為 “ 將做 ”

資料獨裁

掙脫大資料的困境

掌控:責任與自由並舉的資訊管理

管理變革 1 :個人隱私保護,從個人許可到讓資料使用者承擔責任

管理變革 2 :個人動因 VS 預測分析

管理變革 3 :擊碎黑盒子,大資料演算法師的崛起

管理變革 4 :反資料壟斷大亨

標簽: 資料  谷歌  亞馬遜  拼寫  ITA