淺談大數據分析(Big Data Analysis)【什麼是大數據?】

大數據(Big Data)一詞真的越來越夯了
photo credit:KamiPhuc (CC BY 2.0)

但到底它是什麼東西,能吃嗎?能用嗎?怎麼用?







如果你想從這篇看到結論的話,可以直接把這篇文章關起來吧吧吧.............









你確定要看下去了嗎?那要開始囉!

先說說在我理解的大數據,它的核心是個什麼樣的東西:
說穿了,它就是【資料探勘】放大的結果



早些年還在學校唸書的時候,接觸到一門叫做「資料探勘」(Data mining)的課程


那是門很玄秘的課程,但整門的課程都是在描述一件事情:

如何向你的資料庫問問題,分析並取得預測結果


看起來很容易,但實際上卻不簡單,首先你要有很明確的預測目標,並且很清楚地知道你的資料庫裡有哪些種類的資料


以課程中的範例資料庫和作業題目是這樣的:
有一個資料庫,存放著20年美國選舉的投票結果,請你利用預測並使用資料探勘的方法,取得並說明資料探勘的結果

這種自由發揮而沒有目標的題目還真的不容易想像:要知道你預測什麼樣的趨勢、要問什麼問題,和你要知道探勘的結果是你問題的結果,光是這點就能探討好久,一學期的課程要學工具和理論實在是不容易


當時我是這樣問的:
魔鏡啊魔鏡
請問
下一屆總統大選會是哪一黨選上


然後,系統算了好一陣子,如果說硬要給那「一陣子」加上時間,我會說


一萬年














好啦,有點冷……


總之,系統花了很久的時間,終於跑出一份預測報表

拿著這份報表給老師評分,而老師給了我這樣的回答:










你問錯問題了。





咳,最後,老師並沒有直接告訴我應該要怎麼問,而我也帶著這個【問題的問題】畢業了,這件事等我搞清楚再另開一篇專文說明(如果說搞清楚的時間硬要給它一個日期……)

*****************************

光是這樣也不容易知道和我們有什麼切身的關係,我以Google為例子好來說明:

以個人來說,Google可以從個人帳戶中的活動,進而分析出該用戶的喜好、用語、類型等內容,並預測用戶意圖取得的資料。例如:搜尋結果、廣告等

從大方向來看,Google可以分析多個帳戶活動來預測當前趨勢或關注項目等,並在合適的地方向個別用戶顯示結果。例如:搜尋建議、關鍵字列等

看到這裡就可以得到下列內容:
  • 個人、單一企業、小範圍:資料探勘
  • 多人、跨企業、國家、跨範圍:大數據

經過這樣的分析,你是否已經明白所謂的「大數據」是什麼樣的東西呢?


隨著資料的開源,例如健保資料庫,交通資料庫等,能研究的範圍可說是越來越多,大數據的分析技術也越來越多和成熟,期待大數據能讓你應用,並為你的未來更添美好。

留言

這個網誌中的熱門文章

對於 Delphi 10.1 Berlin 推出的看法

Delphi ORM Generator