随着近年來企業信息化建設的不斷深化、社會化網絡的興起,以及移動互聯網等新(xīn)一代信息技(jì )術的廣泛應用(yòng),全球數據規模及其存儲容量正在迅速增長(cháng),數據的類型也變得複雜多(duō)樣。海量多(duō)樣化的數據對信息的有效存儲、快速讀取、檢索提出了挑戰;且其中所蘊藏的巨大商業價值也引發了對數據處理(lǐ)、分(fēn)析的巨大需求。當前,大數據已逐漸滲透到各個行業和業務(wù)職能(néng)領域,數據成為(wèi)企業戰略資産,企業戰略逐漸從"業務(wù)驅動"轉向"數據驅動"。如何通過收集和分(fēn)析大量内部和外部的數據,獲取有價值的信息将成為(wèi)指導企業經營決策、業務(wù)運作(zuò)中的核心環節。
什麽是大數據(Big Data)
大數據技(jì )術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理(lǐ)。換而言之,如果把大數據比作(zuò)一種産業,那麽這種産業實現盈利的關鍵,在于提高對數據的“加工能(néng)力”,通過“加工”實現數據的“增值”。
從技(jì )術上看,大數據與雲計算的關系就像一枚硬币的正反面一樣密不可(kě)分(fēn)。大數據必然無法用(yòng)單台的計算機進行處理(lǐ),必須采用(yòng)分(fēn)布式架構。它的特色在于對海量數據進行分(fēn)布式數據挖掘。但它必須依托雲計算的分(fēn)布式處理(lǐ)、分(fēn)布式數據庫和雲存儲、虛拟化技(jì )術。
随着雲時代的來臨,大數據也吸引了越來越多(duō)的關注。大數據通常用(yòng)來形容一個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關系型數據庫用(yòng)于分(fēn)析時會花(huā)費過多(duō)時間和金錢。大數據分(fēn)析常和雲計算聯系到一起,因為(wèi)實時的大型數據集分(fēn)析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電(diàn)腦分(fēn)配工作(zuò)。
大數據需要特殊的技(jì )術,以有效地處理(lǐ)大量的容忍經過時間内的數據。适用(yòng)于大數據的技(jì )術,包括大規模并行處理(lǐ)(MPP)數據庫、數據挖掘、分(fēn)布式文(wén)件系統、分(fēn)布式數據庫、雲計算平台、互聯網和可(kě)擴展的存儲系統。
數據采集:實現将異構數據從系統外部采集并傳輸到大數據平台的過程,包括數據爬取、提取、清洗、轉換和裝(zhuāng)載等,保證數據獲取和驗證數據的有效性。
數據存儲與分(fēn)析:負責海量多(duō)态數據的存儲及處理(lǐ),以混搭架構模式實現多(duō)種數據存儲策略;對經過存儲和處理(lǐ)後的數據進行分(fēn)析,主要包括自然語言處理(lǐ)、數據統計分(fēn)析以及數據挖掘。
數據服務(wù):将屏蔽底層針對各類數據服務(wù)需求的數據處理(lǐ)過程,将加工後的數據、應用(yòng)等通過集中的數據服務(wù)提供功能(néng),為(wèi)外部合作(zuò)夥伴提供數據服務(wù)能(néng)力,簡化數據共享邏輯,集約化數據分(fēn)析能(néng)力。
數據應用(yòng):通過固定報表、多(duō)維分(fēn)析等方式展現數據,對内支撐企業管理(lǐ)分(fēn)析、經營分(fēn)析、服務(wù)分(fēn)析、銷售分(fēn)析及産品開發;對外支撐産品化的數據服務(wù)以及數據提供。
數據管控:實現數據全生命周期管理(lǐ),提升企業數據标準、數據質(zhì)量、數據安(ān)全、元數據管理(lǐ)等基礎數據管控能(néng)力。
大數據的價值體(tǐ)現
(1)對大量消費者提供産品或服務(wù)的企業可(kě)以利用(yòng)大數據進行精(jīng)準營銷;
(2)做小(xiǎo)而美模式的中小(xiǎo)微企業可(kě)以利用(yòng)大數據做服務(wù)轉型;
(3)面臨互聯網壓力之下必須轉型的傳統企業需要與時俱進充分(fēn)利用(yòng)大數據的價值。
不過,“大數據”在經濟發展中的巨大意義并不代表其能(néng)取代一切對于社會問題的理(lǐ)性思考,科(kē)學(xué)發展的邏輯不能(néng)被湮沒在海量數據中。著名經濟學(xué)家路德(dé)維希·馮·米塞斯曾提醒過:“就今日言,有很(hěn)多(duō)人忙碌于資料之無益累積,以緻對問題之說明與解決,喪失了其對特殊的經濟意義的了解。”這确實是需要警惕的。
在這個快速發展的智能(néng)硬件時代,困擾應用(yòng)開發者的一個重要問題就是如何在功率、覆蓋範圍、傳輸速率和成本之間找到那個微妙的平衡點。企業組織利用(yòng)相關數據和分(fēn)析可(kě)以幫助它們降低成本、提高效率、開發新(xīn)産品、做出更明智的業務(wù)決策等等。例如,通過結合大數據和高性能(néng)的分(fēn)析,下面這些對企業有益的情況都可(kě)能(néng)會發生:
(1)及時解析故障、問題和缺陷的根源,每年可(kě)能(néng)為(wèi)企業節省數十億元。
(2)為(wèi)成千上萬的快遞車(chē)輛規劃實時交通路線(xiàn),躲避擁堵。
(3)分(fēn)析所有SKU,以利潤最大化為(wèi)目标來定價和清理(lǐ)庫存。
(4)根據客戶的購(gòu)買習慣,為(wèi)其推送他(tā)可(kě)能(néng)感興趣的優惠信息。
(5)從大量客戶中快速識别出金牌客戶。
(6)使用(yòng)點擊流分(fēn)析和數據挖掘來規避欺詐行為(wèi)。