一篇文章重新認識數學

一篇文章重新認識數學

©文章由「更好時代」原創發佈,保留所有權,全網違反相關法律的抄襲行為將受到更好時代專業法律團隊相應的嚴重法律追責。

我們每天生活中都離不開手機和電腦,其實本質上都是各種計算機,想讓它們輔助我們的生活和工作,就必須讓它們處理人類的文字和語言,而計算機處理這些數據的背後原理都是數學。

在很久以前,人們就已經試著用數字來解決文字校驗的問題了:抄寫《聖經》的時候面臨一個問題,那就是不在抄寫的過程中出錯,這本來是一個難題。

為了解決這個難題,從判斷一個句子出現的可能性多大入手,這需要用到「馬爾科夫假設」,也就是一個句子中詞語出現的頻率,只和前一個詞語有關,比如「漲停」這個詞語最有可能跟在「股票」這個詞語的後面。

所以只要給計算機足夠大的機讀文本,計算機就能算出來一個特定詞後面出現某個詞的頻率,這樣將一句話中所有詞語出現的頻率相乘,那就是這個句子出現的概率,概率最大的句子,就是有可能出現的正確句子。

一個用幾萬條複雜語法解決不了的問題,用數學工具就輕鬆地解決了,而且效果還很好。

還有很多人喜歡新聞網站上的分類標籤,將新聞分類的原理也是數學,而這恰恰是簡單的餘弦定理,一篇新聞中的語氣詞通常對新聞的分類沒有太大意義,而「股票」或者「利息」這樣的實詞,才是判斷新聞分類的重點詞。

科學家們精選了一個詞彙表,裡面收錄了64000個詞語,每個詞語對應著一個編號,他們將大量文字輸入計算機,算出每個詞語出現的次數。

一般出現次數越少的詞就越有搜索價值,根據不同詞的價值將64000個詞算出各自的權重,然後再往計算機中輸入要分類的新聞,計算出這64000個詞語在這個篇新聞中的分佈。

如果某些詞語沒有出現,對應值則為零,64000個詞語的頻率,就構成了一個64000維的向量,然後用這個向量來代表這個篇新聞,這就叫做這篇新聞的特徵向量。

不同類型新聞用詞上不同的特點,所以只要算出不同新聞特徵之間的夾角大小,就可以判斷新聞類型了,一個簡單的餘弦定理,解決了一個分類難題。

和經驗相比,數學能夠幫助我們找到一個正確的數學模型,只有正確的數學模型,才能把一個大問題的計算複雜度降低,讓它變得簡單,而經驗得出來的模型常常是錯的。

比如古人認為天上的星星不論是太陽、月亮還是太陽系其他幾大行星,都以為是圍繞地球旋轉,這就是錯誤的「地心說」,但實際上除了月亮其他的星體均不是圍繞地球轉圈。

為了給星體找到一個符合觀測經驗的運動規律古代科學家找了很多方法,有個理論用到了40到60個圓形,大圓裡面套著小圓。但這很複雜,即使用了最高端的計算機都很難解出40個套在一起的圓方程。

後來就是哥白尼提出了日心說,一個橢圓方程就搞定了,這個數學模型還解決了行星圍繞恆星運轉的開普勒三定律,將星體的運動規律解釋得明明白白。

數學能幫助我們發現僅憑經驗無法發現的規律,找到僅憑經驗無法總結出來的辦法,所以沒有數學,就不可能擁有今天的世界觀和生活方式。

數學公式、數學計算、數學推導過程可能實際應用起來很複雜,這是數學難學的原因,但是數學應用背後包含的數學思想,卻總是特別簡單。

計算機的原理就是一個例子,計算機很複雜,由大量的精密電路搭建而成,但是計算機的基本算法卻很簡單,本質上的邏輯運算來自布爾代數。

布爾代數的運算元素只有0和1兩個數字,基本運算也只有三種,「與」and「或」or以及「非」not,這就是數字電路的基礎,所有的數學和邏輯運算,都是轉化為布爾代數的基本運算,正是靠著這樣的基礎,人們才用布爾代數原理為基礎的電路,搭建起了現代計算機。

在現實生活中,真正能夠通用的工具,在形式上一定是最簡單的,「簡單之美」說起來容易,但是做起來很難。

-完-

相關推薦

推薦中...