大數據(big data)目前已然成為IT行業中最時髦的詞匯,然而真正了解大數據的人卻不多。大數據的含義可不是僅僅數據量大,很多人對大數據的概念有所誤解,想要從概念上把大數據講清楚就得從理論上講大數據的特征,比如4V(數據體量巨大Volume、數據類型繁多Variety、價值密度低Value、處理速度快Velocity),那就要用到很多理論性和學術性的語言和詞匯,相信會把大家越說越糊涂,我在寫大數據應用開發工程師專業課程的時候,就想寫一篇文章來告訴大家大數據是什么,卻總是組織不起那種能讓外行人秒懂的語言,就先把技術上的學習內容給發了,沒有學過編程的同學直接看Hadoop學些什么Spark學些什么應該難以理解。我是技術出身并不善寫作,我決定就寫一些我知道的大數據在方方面面的應用實例來向大家說明大數據的含義,在這里還請大家諒解我的寫作水平。

在我們日常生活當中,我們所做的一切事,不論在線上還是線下,都會留下數字腳印。每一次刷卡購物,每一次網絡搜索,手機上的每一次點擊,乃至社交網絡上的每一個點贊,都會被記錄下來。形成的這些數據被稱作非結構化數據,這些數據的存儲分析計算提取處理的一系列行為就是我們說的大數據,就像聽歌軟件會分析我們的播放記錄向我們推薦我們愛聽的歌曲一樣,我們打開吃飯穿衣的APP也會看到我們喜愛的菜單和衣著搭配。
在出行方面大數據已經體現得更是淋漓盡致,網約車已經成為了新的產業,傳統的出租車行業已然被顛覆,打車軟件通過對出行和車輛數據的收集和分析,在司機的APP上顯示哪里有潛在乘客,在乘客的APP上顯示哪里可以打到車。滴滴優步這些公司徹底的改革了一個行業。就在前段時間,一元單車APP風靡各大城市,大街小巷的人們都騎著黃色、綠色一模一樣的自行車,類似這樣的公司做這樣的事情實際上就是用錢來砸數據,實現原始的數據積累,由此可見大數據的非凡魅力和巨大價值。
在零售方面,全球最大零售連鎖超市沃爾瑪引入大數據技術之后,在大數據分析了大量的零售數據之后發現,啤酒與尿不濕經常出現在同一張銷售小票上,啤酒和尿不濕在人類正常思維當中是沒有關聯的兩件商品,為什么會有一定的關聯度呢,經過調查發現給寶寶購買尿不濕的通常是爸爸,買完尿不濕之后通常要買啤酒。所以沃爾瑪現在的尿不濕貨架旁邊就是各種啤酒。當然這只是其中的一個小小的例子,很多大數據給出的商品擺放位置在最有經驗的沃爾瑪店員看來都是驢頭不對馬嘴的,沃爾瑪就是按照大數據分析的結果以人類思維看來是匪夷所思的方式安排各種商品的擺放,靠這種利用大數據技術分析商品關聯度的方式大幅提高了零售營業額。
在體育賽事方面,我要說一說我喜愛的NBA球隊——金州勇士隊,還有我最喜愛的球星之一庫里。勇士隊崛起和庫里成名的原因,就要歸功于球隊的管理者和教練相信并且使用了大數據技術所分析的結果。大數據在分析了有史以來所有的籃球比賽數據發現最有效的進攻不是突破和扣籃,而是傳球和投籃。在這個思想的指導下,勇士隊引進了像庫里這樣的三分球命中率球員并且瘋狂練習投籃,勇士隊利用大數據制定戰略并且利用實時數據制定現場戰術,才得以短時間里從倒數第二成為NBA冠軍,被奧巴馬戲稱為籃球界里的Google。
說完籃球再講一個足球界的實例,在2014年世界杯的時候,谷歌通過自己的大數據平臺成功預測了16強比賽的每場比賽的勝利者,預測準確率100%,秒殺章魚保羅和貝利,我都后悔沒跟著谷歌的預測買足彩……谷歌是靠網絡上搜集的數據,包括搜索引擎、微博和新聞報道綜合分析這些數據得出的結論,據說著名的物理學家霍金也參與到這個預測算法的設計。
在農業方面,比如以色列人的滴灌技術,采用計算機進行自動化控制,灌溉系統中的傳感器能夠檢測植物變化和濕度,來決定對植物的灌溉量,節省人力和水資源,由于有大量的傳感器在采集數據,這種自動滴灌系統會分析這些水量和產量的大數據,從而改進灌溉方法,大數據+農業讓這個嚴重缺水國土面積還很小的國度成為農業大國。再說一個事,大家都知道美國的家庭通常都有院落和草地的,在美劇當中我們經常看到人們拿著水管在澆水,這兩年美國出現了自動噴水機器人,不但可以通過草地濕度調整水量還可以與天氣預報相連,如果明天會下雨就會停止澆灌。據說這種自動噴水機器人可以節省95%的用水量。
在商業金融方面,算法交易越來越流行,金融機構紛紛利用大數據和算法來實現交易自動化,以人類無法匹敵的速度和頻率創造利潤。高頻交易就是建立在龐大數據集的基礎之上,通過分析多個市場,根據當前的市場環境來執行交易指令。雖然這創造了巨大的利潤空間,但也讓許多證券經紀人丟了飯碗。
在教育方面,百度2014年推出一個百度高考的應用,預測押中了當年全國18套作文考題中的12套,今年參加高考的同學們可以留意一下百度高考,沒準可以提前知道今年的高考考題。
在媒體方面,《洛杉磯時報》已經開發了機器人寫作技術,那里的記者正在同一堆機器人進行競爭。在這背后,就是大數據技術的進一步發展。 記者的許多工作現在已經可以利用機器學習工具自動完成,就連許多公司的財務報表都是大數據直接寫出,只需一個會打字的人,輸入關鍵信息,大數據自動匹配出相應風格的稿件。而大數據的寫法,一定更受歡迎,因為它基于的是我們大量的閱讀數據。
在法律方面,在訴訟案的發現階段,律師及其助手們需要篩選成千上萬份與案件有關的文件。而現在,復雜的數據庫可以利用大數據技術,比如同步分析、關鍵詞識別等,以更少的時間完成同樣的工作。而在傳統上,這些工作都是律師事務所充當律師助手的人類完成。但是不要認為只有律師助手的工作處于危險中,就連拿著高薪、可預測案件結果的大律師也無法幸免。據說IBM研發的訴訟案件算法已經能夠準確預測70%以上的法官判決結果。
在醫療方面,目前美國大部分癌癥已被攻破,其做法就是利用了大數據。我們都知道“舉一反三”很了不起,但是美國攻破癌癥用的就是“舉上百萬反一”的推算法,用好多病歷算法來推進病情發展。目前國內的趨勢是盡早實現病歷大數據共享,這將是一比巨大的財富,中國人多,如果所有患者的病歷上傳云端實現大數據共享,那么中國的醫療診斷準確率將是世界第一的。到時候我們看病只需要輸入自己的癥狀,大數據會馬上給出最好的治療方案。
最重要的是在國家政策方面,“十二五”以來,國務院和相關部門先后印發了《促進大數據發展行動綱要》、《大數據產業發展規劃(2016-2020年)》等指導性文件。特別提出加快推進大數據產業應用能力,相信各位看官也已經不止一次在央視的新聞聯播、在習大大和李克強主席那里聽到“大數據”這個詞了吧,所以請你們相信:大數據的發展前途無量!
