你的(de)公司是否仍然在努力理(lǐ)解大(dà)數據是什(shén)麽,以及如何管理(lǐ)嗎?這(zhè)裏有6個(gè)關于大(dà)數據的(de)誤區(qū),行業專家将幫助你把真相從虛構的(de)大(dà)數據領域中分(fēn)離出來(lái)。
你的(de)組織是否在考慮分(fēn)析數據的(de)最佳方式?以下(xià)是在你采用(yòng)大(dà)數據分(fēn)析之前,需要注意的(de)有關大(dà)數據的(de)6個(gè)誤區(qū)。
雲計算(suàn)的(de)應用(yòng),更快(kuài)的(de)數據處理(lǐ)速度,以及從物(wù)聯網輸入大(dà)量的(de)數據,這(zhè)些意味著(zhe),企業現在正在收集前所未見的(de)數據量。現在大(dà)數據比以往任何時(shí)候都大(dà)。但是如何組織、處理(lǐ)和(hé)理(lǐ)解數據仍然是許多(duō)組織面臨的(de)一個(gè)主要挑戰。
你的(de)公司是否仍然在努力理(lǐ)解大(dà)數據是什(shén)麽,以及如何管理(lǐ)嗎?這(zhè)裏有6個(gè)關于大(dà)數據的(de)誤區(qū),行業專家将幫助你把真相從虛構的(de)大(dà)數據領域中分(fēn)離出來(lái)。
1.大(dà)數據意味著(zhe)“很多(duō)”數據
目前,大(dà)數據已經成爲一個(gè)流行詞。但人(rén)們通(tōng)常對(duì)它真正的(de)含義還(hái)是不清楚。有些人(rén)将大(dà)數據簡單地認爲是大(dà)量的(de)數據。但是,這(zhè)并不完全正确,它比這(zhè)稍微複雜(zá)一些。大(dà)數據是指一個(gè)數據集,無論是結構(如數據表)或非結構化(huà)(如元數據從電子郵件)結合的(de)數據,如社會媒體分(fēn)析或物(wù)聯網數據,形成一個(gè)更大(dà)的(de)故事。大(dà)數據故事說明(míng)組織很難用(yòng)傳統的(de)分(fēn)析技術來(lái)捕獲發生的(de)趨勢。
豐田研究院的(de)數據研究總監吉姆?阿德勒表達了(le)一個(gè)很好的(de)觀點:“數據也(yě)有質量。這(zhè)就像水(shuǐ)一樣:玻璃容器中的(de)水(shuǐ)是非常易于管理(lǐ)。但是,如果混雜(zá)在洪水(shuǐ)中,這(zhè)将是壓倒性的(de)災害。”他(tā)說,“在數據分(fēn)析系統中,工作在一台機器的(de)的(de)數據将被沖走時(shí),其數據規模将增長(cháng)100或1000倍。所以,當然,原型雖小,但其架構卻很大(dà)。”
2.數據需要清潔
“最大(dà)的(de)誤區(qū)就是你必須要有幹淨的(de)數據進行分(fēn)析。”BeyondCore公司首席執行官阿裏吉特?森古普塔說,“沒有人(rén)有幹淨的(de)數據,必須将數據進行清理(lǐ),否則分(fēn)析是行不通(tōng)的(de)。這(zhè)是一個(gè)瘋狂的(de)想法。你要做(zuò)的(de)就是進行一個(gè)足夠好的(de)分(fēn)析。你要分(fēn)析所有的(de)數據,盡管這(zhè)些數據是肮髒的(de),這(zhè)隻說明(míng)你有數據質量問題。我可(kě)以告訴你一些模式,盡管數據存在質量問題,但完全可(kě)以進行正常分(fēn)析。現在,你可(kě)以集中進行數據質量工作,隻是提高(gāo)數據可(kě)以得(de)到稍微好一點的(de)洞察力。”
InOutsource商業智能和(hé)分(fēn)析總監梅根?布茨梅因對(duì)此表示贊同,“很多(duō)時(shí)候,企業就會将這(zhè)些工作能拖就拖,因爲他(tā)們認爲數據是不幹淨的(de),這(zhè)是沒有必要的(de)。部署的(de)分(fēn)析應用(yòng)程序将可(kě)以找到數據的(de)薄弱環節,”她說。“一旦這(zhè)些問題已經确定,清理(lǐ)計劃可(kě)以投入到位。然後,分(fēn)析應用(yòng)程序可(kě)以利用(yòng)一種機制,加大(dà)清理(lǐ)力度,并監測進展情況。”
布茨梅因說。“一旦你把這(zhè)些數據整合在一起,你将在一個(gè)應用(yòng)程序中賦予它生命的(de)視覺,你可(kě)以看到這(zhè)些彙集在一起的(de)數據的(de)關聯,你會很快(kuài)看到你的(de)資料不足。”她說,“你可(kě)以看到數據的(de)問題在于要提供一個(gè)清理(lǐ)數據的(de)基準。”
3.等待,讓你的(de)數據完美(měi)
你不應該等待清理(lǐ)你的(de)數據,這(zhè)裏還(hái)有一個(gè)原因,森古普塔說,“在你完全清除數據之後,這(zhè)可(kě)能需要三個(gè)月(yuè)的(de)時(shí)間,然而三個(gè)月(yuè)後,這(zhè)些數據已經陳舊(jiù)過時(shí)了(le)。”因此,這(zhè)些信息将不再适用(yòng)。
森古普塔表示,第一州際銀行的(de)喬希?巴特曼在會議(yì)提出了(le)一個(gè)重要觀點。喬希展示了(le)他(tā)是如何運行分(fēn)析,發現問題,分(fēn)析變化(huà),重新運行分(fēn)析的(de)。他(tā)說,“你看,我的(de)分(fēn)析時(shí)間隻有大(dà)約四到五分(fēn)鐘(zhōng)。所以,如果我可(kě)以運行分(fēn)析,發現問題,解決問題,再重新進行分(fēn)析,并在四、五分(fēn)鐘(zhōng)後查看報告,改變如何處理(lǐ)分(fēn)析的(de)方法。”
森古普塔用(yòng)編碼來(lái)比喻那些舊(jiù)方式。“我的(de)一切都是正确的(de),然後我進行編碼。但現在,每個(gè)人(rén)進行編碼都不太靈活。”他(tā)說。“你寫好程序之後,你必須要測試它,并查看如何能使它更好,那麽等它變得(de)更好之後。世界發生了(le)變化(huà),人(rén)們仍然采用(yòng)的(de)是舊(jiù)的(de)做(zuò)事方法。”
4.數據湖
數據湖是持有大(dà)量的(de)原始結構化(huà)和(hé)結構化(huà)數據的(de)松散的(de)存儲庫,經常在大(dà)數據的(de)背景下(xià)提到。
唯一的(de)問題是,盡管他(tā)們是如何經常被引用(yòng),但它們卻不存在,阿德勒說,“一個(gè)組織的(de)數據不被倒入一個(gè)數據湖中。這(zhè)是精心策劃的(de)一個(gè)部門的(de)數據庫。鼓勵集中使用(yòng)專業知識。他(tā)們還(hái)提供了(le)良好的(de)數據治理(lǐ)和(hé)合規性所需的(de)問責性和(hé)透明(míng)度。”
5.分(fēn)析數據是昂貴的(de)
如果假定在數據分(fēn)析工具涉及一些費用(yòng)的(de)話(huà),你可(kě)能會害怕獲得(de)數據。而可(kě)以告訴你的(de)有好消息是,如今有許多(duō)免費的(de)數據工具,任何人(rén)都可(kě)以開始使用(yòng)這(zhè)些工具來(lái)分(fēn)析大(dà)數據。
同時(shí),森古普塔表示,當今雲計算(suàn)的(de)低成本意味著(zhe)“你真的(de)可(kě)以做(zuò)那些以前從來(lái)不可(kě)能實現的(de)的(de)事情。”
6.機器算(suàn)法将取代人(rén)類分(fēn)析
森古普塔認爲在分(fēn)析大(dà)數據方法有一個(gè)有趣的(de)二分(fēn)法。“有人(rén)說,解決這(zhè)個(gè)問題需要成千上萬的(de)數據科學家來(lái)分(fēn)析解決,随後,又有人(rén)說,采用(yòng)機器學習(xí)就可(kě)以做(zuò)到這(zhè)一切。這(zhè)将是完全自動的(de)。”
但是,桑古塔并不認爲這(zhè)些都是合适的(de)解決方案。“沒有足夠的(de)數據科學家,成本将快(kuài)速上升。”他(tā)說,“此外,企業用(yòng)戶有多(duō)年的(de)域名登錄經驗,并有著(zhe)對(duì)他(tā)們業務的(de)直覺。當你請來(lái)一個(gè)數據科學家,并認爲他(tā)會搞定這(zhè)些工作,并告訴你該怎麽做(zuò)。這(zhè)實際上創造了(le)一個(gè)确切的(de)錯誤,數據科學家們往往無法無法足夠了(le)解企業的(de)業務。”
“完美(měi)”的(de)數據科學家,是那些準确理(lǐ)解具體業務如何運作,以及其數據是如何工作的(de),這(zhè)是一個(gè)誤區(qū)。森古普塔說,“這(zhè)樣的(de)人(rén)根本不存在。”
在現實中,森古普塔說,“大(dà)多(duō)數數據科學項目實際上沒有得(de)到實施,因爲它是如此艱難,需要幾個(gè)月(yuè)得(de)到完成,而當它完成的(de)時(shí)候,你所關心的(de)問題是已經陳舊(jiù)過時(shí)了(le)。”
但是,也(yě)有過于依賴機器學習(xí)問題。“機器學習(xí)隻是給出一個(gè)答(dá)案,但并沒有解釋。它告訴人(rén)們該怎麽做(zuò),而不是爲什(shén)麽要那樣做(zuò),”他(tā)說。“人(rén)們不喜歡别人(rén)告訴他(tā)該怎麽做(zuò),尤其是神奇的(de)機器。”他(tā)說,其關鍵是不隻是答(dá)案,而是其解釋和(hé)建議(yì)。
一方面,他(tā)說,數據科學家将變得(de)越來(lái)越專業化(huà),而這(zhè)是真正困難的(de)問題。“想一想各機構和(hé)企業開始建設了(le)數據處理(lǐ)部門和(hé)一些處理(lǐ)部門。世界500強企業也(yě)有數據處理(lǐ)部門“或數字加工部門。但他(tā)們基本上變成了(le)Excel,Word和(hé)PowerPoint。”盡管如此,人(rén)們仍然是數據和(hé)數字處理(lǐ)方面的(de)專家。
“如果我去摩根士丹利,相信我,那些數據處理(lǐ)和(hé)數字處理(lǐ)方面的(de)專家仍然存在。他(tā)們隻是有著(zhe)不同的(de)名稱和(hé)不同的(de)工作,但在真正的(de)情況下(xià),這(zhè)些人(rén)仍然存在,但80%-90%的(de)專家已經轉移到Excel,Word和(hé)PowerPoint方面,這(zhè)是全球在大(dà)數據方面應該發展的(de)主要原因。”