人工智能技術與數據挖掘

一 前言

當人工智能進展到一定程度時,對符號處理技術和神經網絡處理技術相結合的要求越來越強烈,其中數據挖掘便是二者很好的結合。數據挖掘體現了人工智能技術的進展,其應用領域日益廣泛。本文綜述了人工智能和數據挖掘的產生、發展及其相互聯繫,以便引起更多研究者的關注。

二 人工智能的發展

人工智能(Artificial Intelligence,簡記為AI)研究計算和知識之間的關係[1]。用機器去模擬人的智能,使機器具有類似於人的智能,其實質是研究如何構造智能機器或智能系統,以模擬、延伸、擴展人類的智能。人工智能是在計算機科學、控制論、信息論、神經心理學、哲學、語言學等多種學科研究的基礎上發展起來的。

人工智能是當前信息化社會的迫切要求。例如,人工智能技術在Internet和未來的信息高速公路上將發揮重要作用。人工智能是1956年由McCarthyJ等正式提出的。隨後人工智能的研究取得了許多引人注目的成就。例如,1956年Samuel L研製出了跳棋程序,6年之後擊敗了一個州的跳棋冠軍;1958年美籍華人王浩在IBM2704計算機上用3~5min證明了有關命題演算的全部定理;1959年SelfrideO推出了一個模式識別程序;1965年Roberts編制出了可分辨積木構造的程序;Feigenbaum E A於1968年研製成功了DENDRAL專家系統;1972年法國人Comerauer A提出並設計實現了邏輯程序設計語言PROLOG;同一時期,斯坦福大學的Short liffe E H開始研製用於診斷和治療感染性疾病的專家系統MYCIN;1977年Feigenbaum E A在第五屆國際人工智能聯合會議上提出了“知識工程”的概念,對以知識為基礎的智能系統的研究與建造起到了重要作用;1991年第12屆國際人工智能聯合會議上日本展出了PSI23智能工作站和由4X4PSI23構成的模型機系統;1997年,IBM公司製造的“深藍”號計算機系統戰勝了國際象棋大師卡斯帕羅夫等。

人工智能早期的研究領域有:專家系統、機器學習、模式識別、自然語言理解、自動定理證明、自動程序設計、機器人學、博弈、人工神經網絡等;目前已涉及到以下研究領域:數據挖掘、智能決策系統、知識工程、分佈式人工智能等。其中,數據挖掘的出現是人工智能發展史上具有重大意義的事件。這是因為20世紀80年代初,美國、歐洲和日本製定的一批針對人工智能的大型項目都面臨了重重困難:一是所謂的交叉問題,即傳統方法只能模擬人類深思熟慮的行為,而不包括人與環境的交互行為;二是所謂的擴展問題,即傳統人工智能方法只適合於建造領域狹窄的專家系統,不能把這種方法簡單地推廣到規模更大、領域更寬的複雜系統中去。以上兩個根本性問題使人工智能研究進入低谷。數據挖掘的出現使人們又重新看到人工智能的希望。

三 數據挖掘

數據挖掘(Data Mining, DM)是指從大量的數據或信息中挖掘或抽取出知識的過程。這裡包含數據的挖掘和智能信息的抽取過程,前者要從大量紛繁複雜的現實世界數據中挖掘出未知的、有價值的模式或規律,後者是對知識進行比較、選擇,總結出原理和法則,形成所謂的智能。

目前,在很多重要的領域,尤其是在銀行、電信、保險、交通、零售(如超級市場)等商業應用領域,數據挖掘能夠幫助解決許多典型的商業問題,如數據庫營銷(Database Marketing)、客戶群體劃分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉銷售(Cross2Selling)等市場行為,以及客戶流失性分析(Churn Analysis)、客戶信用評分(Credit Scoring)、欺詐發現(Fraud Detection)等等。

數據挖掘技術在企業市場營銷中的應用是以市場營銷學的市場細分原理為基礎,其基本假定是“消費者過去的行為是其今後消費傾向的最好說明”[8]。數據挖掘有兩種分析處理形式,有監督學習和無監督學習,前者是在已知訓練樣本集合類別的基礎上通過學習建立相應模型;後者是指訓練樣本類別與個數未知的學習。

例如,表1為某超市顧客信息數據庫的部分內容,包括顧客信用卡號、姓名、性別、年齡、收入、職業、聯繫方式、購買商品信息、消費記錄等屬性描述,利用這些數據可以給潛在顧客發送用於促銷的新產品宣傳手冊,以及將要開始的商品打折信息。

人工智能技術與數據挖掘

用“人工智能”的方法對以上信息進行處理的步驟為:首先,對原始數據進行填補遺漏數據、消除異常數據、平滑噪聲數據等處理,提高數據挖掘進程的有效性和準確性。然後,利用AOI算法(基於屬性歸納算法)對原始數據進行歸納抽象,即去掉取值過多且不均勻的屬性和概念層次樹中不存在的屬性,最終得到一個更加泛化的關係。

最後,應用數據挖掘算法,獲得分類規則,對不同類別的顧客採用不同的宣傳和打折策略。當新顧客的信息被加入到數據庫中時,就需要對該顧客的類型進行判斷,以決定是否給顧客發送相應的宣傳手冊和打折信息。有針對性地給有最大可能購買力的顧客發送其所需要的商品廣告,使其保持最大購買共振狀態,才是一種高效節儉的市場營銷策略。

四 數據挖掘與人工智能技術的聯繫

人工智能技術包括推理技術、搜索技術、知識表示與知識庫技術、歸納技術、聯想技術、分類技術、聚類技術等等,其中最基本的三種技術即知識表示、推理和搜索都在數據挖掘中得到了體現。

(1)知識表示

知識表示是指在計算機中對知識的一種描述,是一種計算機可以接受的用於描述知識的數據結構。由於目前對人類知識的結構及機制還沒有完全搞清楚,因此關於知識表示的理論及規範尚未建立起來。儘管如此,人們在對智能技術系統的研究及建立過程中還是結合具體研究提出了一些知識表示方法:符號表示法和連接機制表示法。

符號表示法使用各種包含具體含義的符號,以各種不同的方式和次序組合起來表示知識,它主要用來表示邏輯性知識。連接表示法是把各種物理對象以不同的方式及次序連接起來,並在其間相互傳遞及加工各種包含具體意義的信息。數據挖掘中關聯規則的挖掘用到了符號表示法。關聯規則挖掘是從大量的數據中挖掘出有價值的描述數據項之間相互聯繫的有關知識。例如,通過分析某個超市的數據庫後,發現許多顧客在購買A牌子牛奶時,同時也購買了A牌子的麵包,顯然這是一個很重要的知識,因為它可以幫助商家對這兩種商品打包出售,並且及時調整貨架商品擺放。這一條知識可以用以下規則來表示:

A牌子的牛奶]A牌子的麵包 [Support=20%,Confidence=60%]

其中 Support=20%表示支持度是20%,即交易庫中同時包含A牌子的麵包和A牌子的牛奶的記錄佔總記錄數的20%,Confidence=60%表示有60%的顧客在購買A牌子的牛奶的同時,還會購買A牌子的麵包。整條規則描述為如果顧客購買了A

牌子的牛奶,那麼他有60%的可能性去購買A牌子的麵包。連接表示法對應於數據挖掘中神經網絡分類法。神經網絡通過調整權重來實現輸入樣本與其類別的對應,從而達到從訓練後的神經網絡中挖掘出知識。

(2)推理技術

推理技術從已知的事實出發,運用已掌握的知識,找出其中蘊含的實事,或歸納出新的實事。推理可分為經典推理和非經典推理,前者包括自然演繹推理、歸納演繹推理、與/或形演繹推理等,後者主要包括多值邏輯推理、模態邏輯推理、非單調推理等。

一般而言,數據挖掘在處理過程中其基本思想是非經典的,而其依據的“剪枝”規則應該是經過經典推理嚴格證實的———有其嚴格的數學背景。比如,聚類處理時的基本思想是基於非經典推理,但為了提高效率而採取的“剪枝”技術必須保證完備性、正確性,經得起推理,否則便成了隨意剪枝和刪除信息,雖然提高了效率,但其正確性不能保證,就沒有什麼意義了。

(3)搜索技術

搜索是根據問題的實際情況不斷尋找可利用的知識,從而構造一條代價較小的推理路線。搜索分為盲目搜索和啟發式搜索,盲目搜索是按預定的控制策略進行搜索,在搜索過程中獲得的中間信息不用來改進控制策略。啟發式搜索是在搜索過程中加入與問題有關的啟發性信息,用於指導搜索朝著最有希望的方向前進,加速問題的求解過程,並找到最優解。

搜索機制在數據挖掘中得到了最詳盡的體現。例如,在屬性約簡中,如果我們發現某一列屬性的取值完全一樣或區分能力不大,則可以提前刪去。另外,在挖掘關聯規則時,如果發現頻繁K項集的任一(K21)項候選集不存在,則終止搜索剩餘的(K21)項候選集,就可以判斷“頻繁K項集是不存在的”;等等。搜索機制提高了數據挖掘的效率,這對解決人工智能中的NP難問題是一個積極的探索。

五 展望

目前數據挖掘和人工智能存在以下幾個發展趨勢。

(1)更加註重智能化。人工智能和數據挖掘都很注重對智能技術的研究,例如自動客戶需求分析、自動資料更新、機器人自動識別、自動交通管理等。高度的智能化是數據挖掘和人工智能研究最終追求的目標,也是二者最終合而為一的標誌。可以預計未來的10年裡將是人工智能和數據挖掘高度智能化發展的10年。

(2)網絡化。將人工智能的技術應用於網絡中將會使網絡技術帶上“智能”的特性,可以提高網絡運行效率、解決網絡擁塞問題、增加網絡安全性、智能管理網絡客戶等。目前關於數據挖掘在網絡上的應用已經很常見了,例如,提出了用數據挖掘的方法在萬維網上進行搜索的三種算法,某文獻提出了一種基於數據挖掘的高效搜索引擎的編制算法。但是,人工智能和數據挖掘的網絡化,仍然存在著算法效率和結果的可靠性不夠理想的問題。

(3)各種技術交叉融合。文獻[5]結合邏輯學的方法提出了負關聯規則的挖掘問題;文獻首次將穩定性理論的研究成果應用於數據挖掘;文獻提出了挖掘軟件數據的方法,並首次提出軟件數據挖掘的概念。另外物理的理論和方法、化學的理論和方法、生物的理論和方法、複雜性問題的理論和方法、模式識別的理論和方法、管理學的理論和方法、運籌學的理論和方法、製造業的理論和方法都已經開始融入了人工智能和數據挖掘之中。未來的人工智能和數據挖掘技術必將是一個融合眾多領域的複合學科。

(4)知識經濟化。知識經濟時代的人工智能和數據挖掘必將受到經濟規律的影響,這決定了人工智能和數決挖掘必將帶有經濟化的特徵。人工智能和數據挖掘技術作為無形資產可以直接帶來經濟效益,這種無形資產通過傳播、教育、生產和創新將成為知識經濟時代的主要資本。可以預計未來的人工智能和數據挖掘技術將是更加經濟化、更加實用的技術。

人工智能領域專家張師超教授認為:數據挖掘的異軍突起,為人工智能注入了新的活力,現在的形勢就像中國紅軍的作戰一樣,目前已在更廣泛的領域內利用新的思想、新的理論、新的技術去解決實際問題。

相關推薦

推薦中...