易經包含了三個部分: 象, 數, 理. 象是卦象, 或是代表現象; 數代表規律; 理是卦代表的義理. 由於宇宙萬物變化有其規律, 因此易經可透過數來預測未來. 很可惜, 數這一個部分已經失傳, 目前只能透過籌策等工具占卦, 透過卦象及義理, 了解所問問題的目前狀況及未來可能的發展. 解掛時, 卦象又比義理重要, 因為義理除了簡單的卦辭跟爻辭本身, 象傳及彖傳據說是孔子的弟子所寫(可能跟論語一樣, 是孔子上課的筆記), 後人所衍生的解釋不如原始卦象是最初的象徵, 更具有代表性. 但已經無法用易經的數來預測未來了.
其實大數據跟易經象, 數, 理是類似的, 在我們生活的世界中充滿了各種現象, 這些現象背後有其物理法則或因果關係, 而這些現象又有些可測量的特性. 因此所謂的科學就是從現象的觀察中, 建立假設, 透過實驗找出其因果關係, 再透過測量將其關係數量化. 因此, 過去科學的順序大概是: 象->理->數. 然後透過理跟數來預測.
大數據的順序則是: 象->數->理, 先從現象取得數據, 再用數據建立模型, 透過模型來預測. 至於模型本身能找到因果關係那很好, 就算模型找不到因果關係, 只要能夠預測準確, 那就很棒了. 像大數據演算法之一的類神經網路所建立的模型, 可能可以很精準地預測, 但你無法知道為什麼, 只知道就現有的資料, 跑出來最好的預測模型就是這樣.
大數據最經典的就是啤酒與尿布的例子, 據說這個故事好像不是真的, 但用來說明上述的觀念還是OK的. 故事大概是這樣(360 Digit Times:"Big Data 經典範例")
「美國零售龍頭業者沃爾瑪(Wal-Mart)的資訊工程師, 在分析結帳數據時發現,每到星期五晚上, 尿布和啤酒的銷售量有正向關聯性。透過調查才知道,原來美國週五晚上,父親常常幫家裡到超市買尿布,順便為週末球賽會購買啤酒回家。後來沃爾瑪採取合購策略,固定在每週五,啤酒和尿布擺設放在同一區域,意外讓這兩項產品的銷售量提升30%。」
一般人不會將尿布跟啤酒聯想在一起, 因此如果只是透過行銷策略的發想, 不大會想到要把啤酒和尿布擺設放在同一區域來賣. 但是透過大數據的"關聯規則演算法", 卻可以從銷售紀錄中找出這樣的關聯規則, 再去了解或調查原因. 也就是透過銷售現象(象)所收集的資料(數), 建立模型後, 再調查背後的道理(理).
再來看看人工智慧中機器翻譯的例子, 最早的機器翻譯的觀念來自被譽為機器翻譯的鼻祖:沃倫·韋弗「任何語言都是由一堆詞彙和一套語法規則組成。只要把兩種詞彙放到機器里,按照人類組合這兩種詞彙的方式,為之建立一套完整的規則,機器就能破譯「密碼」。」在這個例子, "按照人類組合這兩種詞彙的方式,為之建立一套完整的規則"也就是"理", 是傳統的想法.
後來有了"統計翻譯機器"的演算法, 透過統計機率找出最好的翻譯("運算思維:一張圖看懂機器翻譯(人工智慧)的原理"). 這就是只透過"數", 翻譯機器不需要知道這些機率背後的道理, 只要知道這樣翻譯正確的可能性最高就行了. 2016/11/16 Google更宣布了Google 翻譯再進化到用類神經網路演算法("3 分鐘搞懂深度學習到底在深什麼"), 會考量整個句子的語境跟通順度, 翻出更流暢的文意.
寫這篇文章的目的不是阿Q式地說我們祖先就發明了大數據, 而是最近在讀中西哲學時發現, 早期的祖先不曉得是生活單純還是怎地, 總能洞察到一些非常基本本質的東西. 易經的象數理本身就揭露了科學跟大數據的二條方向. 到了宋代理學, 程頤跟朱熹理學一派的格物致知--格外物之理以窮我心中之理, 已經有機會走向科學. 只可惜中國傳統知識分子只重視治國平天下之修養, 及社會之倫理(道), 輕視自然之物理(器), 讓中國在明代開始落後西方的科學發展, 埋下中國近代苦難的遠因.
留言列表