'包偉民 | 數字人文及其對歷史學的新挑戰'

""包偉民 | 數字人文及其對歷史學的新挑戰

包偉民

近代以來,人文學研究一直為科學的發展所左右。數十年來,已經開始深刻影響其演進走向的,是日新月異的計算機信息技術。據說,目前我們已經處於一個被稱之為“數字人文”的時代。

史學研究也不例外。學界已經為歷史資料數據庫的建設,投入了巨大的人力和物力。也有一些敏感的商界人士,將此視為攫取商業利潤的新場域,投入巨資,開疆拓土。各方面先後建立起來的各種類型的歷史資料數據庫,不勝枚舉。例如在中國古代歷史研究領域,具有標誌性意義的,先是有香港迪志文化出版有限公司在1999年推出了文淵閣四庫全書全文檢索數據庫,後更有北京愛如生數字化技術研究中心開發製作、於2005年推出的“中國基本古籍庫”。這些數據庫,已經將中國存世古籍的絕大多數收錄其中。與中國古代歷史研究直接相關的當代學術文獻數據庫,執其牛耳者則非中國知網莫屬。儘管因其明顯地輕視學者個人著作權益而多受詬病,然而這個始建於1999年,集期刊、碩博士學位論文、會議論文、報紙、工具書、年鑑、專利、標準、海外文獻資源為一體的巨無霸式的網絡出版平臺,已經成為學者從事史學研究工作須臾不可離開的幫手。而資本對於高額回報的期待,也開始對學術機構產生越來越沉重的經費壓力。

"包偉民 | 數字人文及其對歷史學的新挑戰

包偉民

近代以來,人文學研究一直為科學的發展所左右。數十年來,已經開始深刻影響其演進走向的,是日新月異的計算機信息技術。據說,目前我們已經處於一個被稱之為“數字人文”的時代。

史學研究也不例外。學界已經為歷史資料數據庫的建設,投入了巨大的人力和物力。也有一些敏感的商界人士,將此視為攫取商業利潤的新場域,投入巨資,開疆拓土。各方面先後建立起來的各種類型的歷史資料數據庫,不勝枚舉。例如在中國古代歷史研究領域,具有標誌性意義的,先是有香港迪志文化出版有限公司在1999年推出了文淵閣四庫全書全文檢索數據庫,後更有北京愛如生數字化技術研究中心開發製作、於2005年推出的“中國基本古籍庫”。這些數據庫,已經將中國存世古籍的絕大多數收錄其中。與中國古代歷史研究直接相關的當代學術文獻數據庫,執其牛耳者則非中國知網莫屬。儘管因其明顯地輕視學者個人著作權益而多受詬病,然而這個始建於1999年,集期刊、碩博士學位論文、會議論文、報紙、工具書、年鑑、專利、標準、海外文獻資源為一體的巨無霸式的網絡出版平臺,已經成為學者從事史學研究工作須臾不可離開的幫手。而資本對於高額回報的期待,也開始對學術機構產生越來越沉重的經費壓力。

包偉民 | 數字人文及其對歷史學的新挑戰

中國基本古籍庫(個人版)首頁

在差不多每一個從業人員都感受到了新技術無所不在的影響的同時,歷史學作為人文學的重要組成部分,其在數字人文時代的境遇,也引起不少學者的關注與討論。多數意見,是竭力稱頌新技術將給歷史學帶來全新的發展機遇,出現了“大數據時代似乎給史學研究帶來了前所未有的興奮”的現象。例如有學者認為,“大數據使歷史資料利用產生革命性變革”。在研究方法層面,有學者歸納出了關於利用信息技術的所謂“e-考據時代”的概念,認為“e-考據”“已使文史學界的研究環境與方法面臨千年鉅變”。更有人將“傳統史學”與數字人文時代的“新史學”直接對立了起來,甚至提出了“信息技術革命會‘終結’人文學科嗎”這樣聳人聽聞的問題。但也有學者持冷靜遲疑的立場,從近年來數字化技術在史學研究中的實際應用情況出發作觀察,指出,“當我們以數字化的方式在一定範圍內窮盡史料之後,我們所期待的‘史料大發現’的時代卻並沒有到來,我們依舊要在那幾部最基本史著的字裡行間尋求突破。技術手段的更新,也並沒有帶來終極意義上的學術思維革命”。

可以說,相關議題已經展開了比較充分的討論,各位論者所言,基本也可以自成其說。只不過,對於涉及領域極為寬泛的歷史學研究,論者常常僅就其所熟悉且相對有利的部分來舉例論證,涵蓋面常有不足,不免難以周全;與此同時,不少看法則明顯是陳述多於論證,屬於“願景”而已。

因此,本人謹以自己具體研究的心得為例,在中國古代史研究領域的範圍之內,對論者的討論提出幾點補充,以期有助於“數字史學”的發展——如果可以如此來稱呼它的話。

一、檢索資料

在實際史學研究工作中,近年來計算機數據庫的發展真正產生廣泛影響的,是多數學者已經習慣利用歷史文獻數據庫來搜尋資料。這也是我們首先應該討論的。

新技術在給研究工作帶來極大便利的同時,也帶來了一些前所未有的新問題,值得注意。

利用數據庫來搜尋資料這一方法的廣泛應用,所帶來的第一個結果,無疑是從中得到的搜索結果的數量大增,正如黃一農所指出的,“隨著出版業的蓬勃以及圖書館的現代化,再加上網際網路和數位資料庫的普及,一位文史工作者往往有機會掌握前人未曾寓目的材料,並在較短時間內透過邏輯推理的佈局,填補探究歷史細節時的隙縫”。正由於學者們“有機會在很短時間內就掌握前人未曾寓目的材料”,就可以經分析研究,得出新的結論。這也正是他“深感史學研究已晉入一前人所無法想象的新局”的原因,也是他提出“e-考據”說的依據所在。

儘管這種檢索的結果可能極大地擴展了學者們搜尋資料的範圍與數量,並幫助他們在不同類型的資料之間建立起聯繫,推進分析思考,不過這種搜尋資料的路徑,本來就是“傳統”考據學所要求的,只不過學者們常受條件之限,不太容易做到而已。因此就其本質而言,從傳統考據到“e-考據”,仍屬量變而非質變。這也是為什麼有論者以為“e-考據作為一種考據方法的創新,並未改變考據學的性質”之故。此外,黃一農所實踐的兩個案例,無論是關於第一代天主教徒,還是關於曹振彥的生平事蹟,都發生在明末清初,其存世的歷史文獻相比於前代要豐富得多,有例如“明人文集資料庫”那樣信息量十分豐富的數據庫,其所能夠提供的幫助就十分顯著。如果事涉更早一些的歷史時期,情況也許會有所不同。

第二個結果,這也是本人在日常研究工作中常常感到困惑之處,那就是對於某一史事,常常難以確定哪些詞彙應該被納入檢索字串的範圍,而且檢索出來的成百上千條的結果,常常絕大多數與研究主題並不相關,對檢索結果一條條地分析閱讀,徒然增加了工作量。因此,有學者感嘆數據庫檢索並未使得搜尋資料變得容易,反而是更難了。

這就反映了文史類數據庫建設所面臨的一大難題:中國傳統歷史文獻絕大多數是出於文人之手的描述性文本,其中最大量的是文學作品,到了數字人文時代,不管是“細讀”還是“遠讀”,計算機的閱讀,只可能落實於文字表面,將數據信息與檢索字串機械地一一對應。至少在目前的條件下,還不太可能應對傳統文人士大夫筆下常見的各種看似“詞不達意”的、靈活多變的表述方式。簡言之,當文本未能在字面上直接反映歷史信息時,我們該怎麼辦?

這裡又可以分為三種不同的層次。

"包偉民 | 數字人文及其對歷史學的新挑戰

包偉民

近代以來,人文學研究一直為科學的發展所左右。數十年來,已經開始深刻影響其演進走向的,是日新月異的計算機信息技術。據說,目前我們已經處於一個被稱之為“數字人文”的時代。

史學研究也不例外。學界已經為歷史資料數據庫的建設,投入了巨大的人力和物力。也有一些敏感的商界人士,將此視為攫取商業利潤的新場域,投入巨資,開疆拓土。各方面先後建立起來的各種類型的歷史資料數據庫,不勝枚舉。例如在中國古代歷史研究領域,具有標誌性意義的,先是有香港迪志文化出版有限公司在1999年推出了文淵閣四庫全書全文檢索數據庫,後更有北京愛如生數字化技術研究中心開發製作、於2005年推出的“中國基本古籍庫”。這些數據庫,已經將中國存世古籍的絕大多數收錄其中。與中國古代歷史研究直接相關的當代學術文獻數據庫,執其牛耳者則非中國知網莫屬。儘管因其明顯地輕視學者個人著作權益而多受詬病,然而這個始建於1999年,集期刊、碩博士學位論文、會議論文、報紙、工具書、年鑑、專利、標準、海外文獻資源為一體的巨無霸式的網絡出版平臺,已經成為學者從事史學研究工作須臾不可離開的幫手。而資本對於高額回報的期待,也開始對學術機構產生越來越沉重的經費壓力。

包偉民 | 數字人文及其對歷史學的新挑戰

中國基本古籍庫(個人版)首頁

在差不多每一個從業人員都感受到了新技術無所不在的影響的同時,歷史學作為人文學的重要組成部分,其在數字人文時代的境遇,也引起不少學者的關注與討論。多數意見,是竭力稱頌新技術將給歷史學帶來全新的發展機遇,出現了“大數據時代似乎給史學研究帶來了前所未有的興奮”的現象。例如有學者認為,“大數據使歷史資料利用產生革命性變革”。在研究方法層面,有學者歸納出了關於利用信息技術的所謂“e-考據時代”的概念,認為“e-考據”“已使文史學界的研究環境與方法面臨千年鉅變”。更有人將“傳統史學”與數字人文時代的“新史學”直接對立了起來,甚至提出了“信息技術革命會‘終結’人文學科嗎”這樣聳人聽聞的問題。但也有學者持冷靜遲疑的立場,從近年來數字化技術在史學研究中的實際應用情況出發作觀察,指出,“當我們以數字化的方式在一定範圍內窮盡史料之後,我們所期待的‘史料大發現’的時代卻並沒有到來,我們依舊要在那幾部最基本史著的字裡行間尋求突破。技術手段的更新,也並沒有帶來終極意義上的學術思維革命”。

可以說,相關議題已經展開了比較充分的討論,各位論者所言,基本也可以自成其說。只不過,對於涉及領域極為寬泛的歷史學研究,論者常常僅就其所熟悉且相對有利的部分來舉例論證,涵蓋面常有不足,不免難以周全;與此同時,不少看法則明顯是陳述多於論證,屬於“願景”而已。

因此,本人謹以自己具體研究的心得為例,在中國古代史研究領域的範圍之內,對論者的討論提出幾點補充,以期有助於“數字史學”的發展——如果可以如此來稱呼它的話。

一、檢索資料

在實際史學研究工作中,近年來計算機數據庫的發展真正產生廣泛影響的,是多數學者已經習慣利用歷史文獻數據庫來搜尋資料。這也是我們首先應該討論的。

新技術在給研究工作帶來極大便利的同時,也帶來了一些前所未有的新問題,值得注意。

利用數據庫來搜尋資料這一方法的廣泛應用,所帶來的第一個結果,無疑是從中得到的搜索結果的數量大增,正如黃一農所指出的,“隨著出版業的蓬勃以及圖書館的現代化,再加上網際網路和數位資料庫的普及,一位文史工作者往往有機會掌握前人未曾寓目的材料,並在較短時間內透過邏輯推理的佈局,填補探究歷史細節時的隙縫”。正由於學者們“有機會在很短時間內就掌握前人未曾寓目的材料”,就可以經分析研究,得出新的結論。這也正是他“深感史學研究已晉入一前人所無法想象的新局”的原因,也是他提出“e-考據”說的依據所在。

儘管這種檢索的結果可能極大地擴展了學者們搜尋資料的範圍與數量,並幫助他們在不同類型的資料之間建立起聯繫,推進分析思考,不過這種搜尋資料的路徑,本來就是“傳統”考據學所要求的,只不過學者們常受條件之限,不太容易做到而已。因此就其本質而言,從傳統考據到“e-考據”,仍屬量變而非質變。這也是為什麼有論者以為“e-考據作為一種考據方法的創新,並未改變考據學的性質”之故。此外,黃一農所實踐的兩個案例,無論是關於第一代天主教徒,還是關於曹振彥的生平事蹟,都發生在明末清初,其存世的歷史文獻相比於前代要豐富得多,有例如“明人文集資料庫”那樣信息量十分豐富的數據庫,其所能夠提供的幫助就十分顯著。如果事涉更早一些的歷史時期,情況也許會有所不同。

第二個結果,這也是本人在日常研究工作中常常感到困惑之處,那就是對於某一史事,常常難以確定哪些詞彙應該被納入檢索字串的範圍,而且檢索出來的成百上千條的結果,常常絕大多數與研究主題並不相關,對檢索結果一條條地分析閱讀,徒然增加了工作量。因此,有學者感嘆數據庫檢索並未使得搜尋資料變得容易,反而是更難了。

這就反映了文史類數據庫建設所面臨的一大難題:中國傳統歷史文獻絕大多數是出於文人之手的描述性文本,其中最大量的是文學作品,到了數字人文時代,不管是“細讀”還是“遠讀”,計算機的閱讀,只可能落實於文字表面,將數據信息與檢索字串機械地一一對應。至少在目前的條件下,還不太可能應對傳統文人士大夫筆下常見的各種看似“詞不達意”的、靈活多變的表述方式。簡言之,當文本未能在字面上直接反映歷史信息時,我們該怎麼辦?

這裡又可以分為三種不同的層次。

包偉民 | 數字人文及其對歷史學的新挑戰

《宋人傳記資料索引》

其一,一個對象物,文獻中可能用不同的詞彙來指稱它,研究者非遍覽史籍,則難以知曉,不太可能僅依靠檢索數據庫來完成資料的收集。黃一農在討論曹振彥生平時,就曾以“瞿汝稷”為例指出,在資料庫中可以發現其人共有十數種稱謂。他一共舉出了諸如“瞿元立”“瞿洞觀”等17種不同的稱謂。一個歷史人物有他的姓名、表字、雅號、別名、官職、籍貫等等,這當然是常見的現象。有的時候,釐清歷史人物的雅號別名就已經是一項並不輕鬆的研究議題。例如關於宋代名相王安石的表字,吳曾《能改齋漫錄》卷十四曾載:“(王)荊公少字介卿,後易介甫。”今人對此有專文討論,但莫衷一是。更麻煩的是,相比於同名同姓的案例,一個字號為多人所共享的情況則更為普遍。例如僅據《宋人傳記資料索引》,一些典雅的字號,往往相同者眾多。例如“子文”,相同者有王聎等26人;“子正”,相同者則多至33人。即便如“希文”這樣相對冷僻的字號,也有范仲淹等相同者5人。

不僅是歷史人物,制度、事物等也常見一事多名的現象。例如南宋時期有一箇中央向地方徵調財賦的重要項目,叫月樁錢,文獻所載,又稱月給錢、月解錢、月樁大軍錢等等,甚至簡稱“大軍錢”。而“大軍錢”一詞,當時還指另外的財政項目,相互間的辨別,全憑研究者細讀文獻上下文才能做出判斷。

這樣一來,在具體的研究過程中,以往依靠通讀文獻,細細品味,遺漏、返工的情況相對較少。現在如果主要依靠數據庫檢索來搜尋資料,則往往需要每發現一個新的與研究議題相關的關鍵詞,就返工再做一次檢索,最後卻仍無法保證是否已經將相關記載搜尋無遺。這無疑會給研究工作帶來不小的困惑。也許,技術專家會告訴我們,現今大數據技術的發展,已經完全可以由研究者歸納出其中的規律,設置必要的前提條件,讓計算機經過學習,掌握相關的分辨、判斷技術,再讓它將相關記載的文本“挖掘”出來。這樣的設想是否適合於中國古代歷史資料的搜尋,筆者尚無法判斷。不過比較明確的是,歸納詞頻規律與為檢索設置必要的前提條件,當然是只有史學工作者才能夠勝任的一項工作。而這樣一來,實際上研究過程恐怕已經完成,無須再煩勞機器了;同時其可能需要的人力、物力投入,也多半會得不償失。

其二,在中國古代歷史文獻的記載中,文本字面含義與史實之間常常存在錯位,這就使得事情變得更為複雜了。筆者近年從事的兩個專題研究,有一定的示範意義。

討論宋代鄉村基層管理組織,存世的宋元地方誌是核心文獻。從宋到元,存在著一個從鄉里、鄉管到鄉都的制度演變過程,這是公認的史實。但是數十種存世宋元方誌關於鄉村基層管理組織的描述,從南宋至元代,在“鄉”之下,超過80%卻仍記載著已經退出歷史舞臺的“裡”,至於當時實際運行之中的“都”與“保”,則甚少記載。如果完全依賴數據庫的檢索統計,就可能使人誤以為當時的鄉村基層管理組織,仍是以“鄉”與“裡”為核心來建構的,這就反而遠離了史實。實際上這些“裡”,看似鄉村基層管理組織,卻不過是經過演變的某種地理單元而已。這樣的認識,僅憑數據庫的檢索閱讀,當然是無法達到的。

又關於宋代城市的城區佈局與管理,存世地方誌的記載無不以“坊”為中心,無論是“坊巷”“坊市”或者“坊陌”,都是如此。多數地方誌幾乎不記載關於街巷的情況。即便有的地方誌,如《嘉泰會稽志》,設有“衢巷”之目,看似專為街巷而立,實際記載的內容,卻僅有坊而無巷。這就給了讀者一個直觀的印象,似乎當時的城區一切都以“坊”為中心來展開。實際上,“坊”在宋元方誌的文本中有多重含義,既可能是城市管理組織“坊區”,又多指聳立於街巷兩端的兼具裝飾與實用功能的坊額坊表,同時也有可能是純粹作為紀念性建築物的牌坊,如各地常見的狀元坊、功德坊之類的東西。但是宋元地方誌對於其間的區別幾乎都不做說明,只是將它們混雜在一起記載了下來。究其原因,就是因為地方誌編纂者們“歷史書寫”的用心所在,是要凸顯各地城區坊額的“為美名以志”,即其某種“為邑之壯觀”。同時,對於在民眾日常生活中扮演著主角的街巷,他們卻嫌其名稱“出於俚俗”,“多非馴雅”,不屑於記述了。這種在歷史書寫中畸輕畸重的失真現象,長期誤導了人們對於當時城市制度的認識。如果僅僅依靠數據庫對歷史文本的統計分析,無疑也會得出坊主巷從的結論,難以解開這個歷史的謎團。

其三,更進一步,文人士大夫行文遣墨,筆下常見的隱語、反諷、比擬、轉喻等手法,使得有時文本與史實之間隔著好幾層關係,史家常常不得不依靠自己對史事大背景的掌握以及上下文的邏輯聯繫,有時甚至還得依靠揣摸作者行文的語氣與心態,來做出判斷。這就使得事情更加複雜了。

例如,古人書信中,常以“某氏”“某丈”之類簡稱,類似於今人所言“老張”“老李”之類的泛稱,來指稱通信雙方都熟悉的某位人物,如南宋理學家呂祖謙(1137—1181),在其與朱熹(1130—1200)的信函中,經常提到一位“張丈”,熟悉南宋理學史的學者很容易判斷,這應該是指當時另一位著名的理學家張軾(1133—1180)。但是僅憑類似於今人“老張”這一泛稱,想要請計算機通過數據檢索來追索到具體是哪一位老張,無疑太過難為機器了。

又如,古人還常有以兄弟排行來指稱人物的書寫方法,類似於今人稱某人為老大、老二等等。若無其他更為明確的信息,計算機恐怕也是難以做出判斷的。如北宋末年權臣蔡京(1047—1126)的小兒子蔡眥,因與長兄蔡攸(1077—1126)不諧,在其於南宋初年所撰筆記《鐵圍山叢談》中,概以“伯氏”一詞指稱之,其他信息全無,依靠數據庫檢索,恐怕也是難以從此書中把關於蔡攸的記載挖掘出來的。

古人又多以官職、籍貫來指稱人物,如杜工部(杜甫)、康南海(康有為)之類就是顯例。黃一農就曾提到,瞿汝稷還有“瞿黃州”“瞿太虛運使”等別稱。但如果這類指稱連姓氏都被省略,學者有時不免得考索一番,才弄得清究竟所指為何人。數據庫看來是無能為力的。例如北宋後期宰臣曾布(1036—1107)的《曾公遺錄》,因屬於私人日記性質,指稱人物的用詞就相當簡單。如“元符二年三月丁卯日”條載:“是日,夔、轄不入。”這裡被簡略至僅一個字的“夔”與“轄”所指何人,就頗費思量。據同書卷九“元符三年正月己卯日”條載,宋哲宗駕崩之後,向太后與宰執們商量帝位繼任大事。“章惇厲聲雲:‘依禮典律令,簡王乃母弟之親,當立。’餘愕然未及對,太后雲……餘即應聲雲:‘章惇並不曾與眾商量,皇太后聖諭極允當。’蔡卞亦云:‘在皇太后聖旨。’許將亦唯唯,夔遂默然。”可知“夔”即為時任宰相、尚書左僕射兼門下侍郎的章惇(1035—1105)。然而此“夔”字,既非章惇的表字,更非其雅號,顯然是曾布因與其政見不合、在自己的私記中為其所取帶有鄙意的別稱。至於“轄”,文中也多見有“兩轄”一詞,當指“左轄”與“右轄”,即尚書左丞與尚書右丞的別稱。時任尚書左丞是蔡卞(1048—1117),尚書右丞為黃履(1030—1101)。從人名到其官職,又從官職到別稱,更將別稱簡化,這中間幾重轉折的線索,檢索工具怕是接不上的。

又如南宋乾道八年(1172年),朱熹致信呂祖謙:“熹自泉、福間得侍郎中丈教誨,蒙以契舊之故,愛予甚厚。”這裡提到的“郎中丈”究系何人,就有點沒頭沒腦。查呂祖謙年譜及其他相關資料,才得以明瞭原來指的是呂祖謙之父呂大器。紹興二十五年(1155年)呂大器任福建提刑司幹官,當時朱熹應該拜見過他,因此才說自己在泉、福間得其教誨。呂大器於乾道八年二月初七日過世,朱熹得知此消息後,致信好友表示慰問。呂大器官至右朝散郎,所以朱熹以“郎中丈”尊稱之。但是,我們若要討論呂大器這樣的歷史人物,應該是不會想到將其曾任之右朝散郎之簡略詞“郎”等詞彙列為檢索字串的。即便檢索字串的設置周全得無以復加,能夠將其列入,那麼不管是某氏某丈、伯氏季氏,還是夔、轄、郎之類,利用“中國基本古籍庫”那樣的數據庫,當然都能很快地將它們全部檢索出來,羅列無遺,但是每一字串所得到的起碼數千及至十數萬個檢索結果,在實際的研究工作中顯然也是沒有任何利用價值的。

所以說,僅就全文檢索這一層面而言,對於以上這幾類現象,計算機數據庫看來仍然是無能為力。如果僅僅依靠數據庫來搜尋歷史資料,至少在目前的技術水平下,仍有其明顯不足,難以將資料搜尋完備。黃一農曾指出:“當然,別忘了,‘e-考據’的研究方法,不僅得熟悉網絡或電子資源,還必須建立在深厚的史學基礎之上。而清晰的問題意識與靈活的搜尋技巧,亦將是考據功力的深淺所繫。”我們或許還可以對此稍做補充,在清晰的問題意識與靈活的搜尋技巧之外,對於一些基本歷史文獻,認真通讀,細心體會,仍然是中國古代歷史研究必不可少的一道“工序”。

二、提出議題

當然,正如不少論者所指出的,全文檢索遠未發揮出計算機數據庫的所有功能,其所強調較多的,還有提出議題與統計分析兩個方面。

議題是史學研究的起點。人們觀察歷史,不免站在當今的立場上來提出議題,以求瞭解過去。但如何提出有意義、得以真正展開討論的議題,還有賴於我們對歷史社會的認識,去發現那些有意義的歷史現象。正是在這一意義上,歷史資料數據庫的發展,給我們展示了新的可能,也帶來了新的困惑。

由於數據庫能夠幫助研究者比以前更加方便地蒐集資料,並據以展開分析討論,因此有論者特別強調“量化研究的一個重要優勢是,能夠發現靠傳統文獻閱讀無法發現的隱藏在歷史資料堆中的史實”,甚至更進一步,可以經過“同時比對上千條數據,辨識其中模式”,也就是認為利用數據庫的分析,可以在複雜的歷史現象中發現傳統研究方法難以覺察到的問題。這樣的推論,在邏輯上自然順理成章。不過,更為周全的觀察還提醒著我們,這一推論的適應面存在著明顯的侷限性。除非我們能夠滿足它所有必要的前提條件,否則推論的結果難以達到。那就是:第一,相關研究領域保存有豐富的檔案文獻,可以構建起信息量足夠的數據庫;第二,利用計算機來閱讀歷史資料,如前文所論,至少在目前,還停留在詞義直接對應的水平,這就要求歷史文本的字面含義與它所可能蘊含的歷史信息完全對應,否則機器閱讀就無能為力。但是這在中國古代史研究領域,條件似乎尚欠充分。

人類歷史內容極其廣泛,不同領域存世的歷史資料差別明顯。不少學者在討論中經常舉為論據的“大數據”,大多需要以豐富的存世檔案文獻為基礎,在中國古代歷史領域,卻基本不存在這樣的條件。在印刷術未能普及應用之前的那些歷史階段,更是如此。所以信息技術在中國古代史研究領域的應用,可能與近現代史領域有一些不同,不應忽視。

因此,在意見的另一方面,常被論者提及的則是王國維的“讀書得間”之論:“宜由細心苦讀以發現問題,不宜懸問題以覓材料。”強調從細心閱讀歷史文獻之中來發現問題。

所謂經過大數據分析比較來發現問題,不可能將史學分析完全交給計算機自發地操作,而必須由研究者設置一定的前提條件。也就是說,其實是由研究者事先提出研究目的或者目的範圍,也就是“懸問題以覓材料”。這些問題當然不可能憑空得來,必然有其依據。除了研究者對特定歷史社會的認識之外,比較直接的應該就是現代社會科學一些範式的指引。這就難免會與作為研究對象的歷史社會之間存在一定的隔閡。這樣一來,豈非坐實了關於“實際情況則是研究者預先設定的思路往往成為搜尋和篩選數據的藩籬而不自知”的批評?

而所謂“讀書得間”之論,“由細心苦讀以發現問題”,強調的是要通過分析存世歷史文本、在字裡行間的細節中發現前人所忽略的問題。其與前者的差別,主要體現在立足點之不同,即立足於客體(歷史社會),從深入觀察之中來發現問題,還是立足於主體(研究者),根據今人的主觀目標來設定問題。儘管這兩者之間還存在著相當複雜的聯繫,但立場的區別是明顯的。

史學研究的目的是為了理解歷史。所謂一代人有一代人的歷史,指的是每一代人都會對歷史有與前人不同的理解。因此在史學研究中,主體與客體常常相互影響。相對而言,強調主體,在於其研究目的,即從今人理解歷史、使之服務於當今的目的出發來提出問題;立足於客體,則是強調從研究對象本身的實際情況出發,來發現問題、提出問題。也就是所謂的要“貼近史實”。筆者的理解,這裡可以包含兩層意思:一是要在總體上把握研究對象的全",二是要充分發掘歷史的細節。

具體到筆者相對熟悉的宋代史研究領域而言,其中相較於其他歷史時期一些突顯的現象,是任何觀察者都不能忽視的,一直為人們所重視。如多民族政權並存、趙宋政權文官制度的發達與武功之不振、經濟與技術的突破性發展、思想文化領域新氣象的形成、南方地區的開發以及隨之帶來的地域格局的變化、城市新面貌的形成等等,是任何觀察者都不能忽視的。論題雖舊,其命彌新。只有在基本把握了全"的前提下,再將各方面的歷史現象聯繫起來觀察,以研究者獨到與深邃的眼光,才有可能從歷史文本的字裡行間發現隱藏於其中的一些重要歷史現象,找出可以深入討論的問題。也就是從中去尋找某一歷史現象可能蘊含的意義,來解答它的“為什麼”,即所謂“得間”。更為重要的是,也才有可能使得對問題的討論契合於歷史發展的大趨勢,將局部與總體有機地結合起來。

正是在這一意義上,目前學界多所批評的所謂“檢索體”類文章,即主要依靠數據庫檢索來完成資料搜尋工作,或者依靠機器閱讀來確立討論議題的,可能正在於它們既不能把握住特定歷史社會的基本脈絡,對於引為論據的歷史文本又常常割裂其與上下文之間的有機聯繫,更割裂了其與歷史大背景之間的聯繫,在典型地“尋章摘句”之餘,更以今人之心揣古人之腹,可以說在其所提出的議題與其對議題的論證兩方面都脫離了歷史實際。

也正因此,能否通過大數據分析來發現史事中的問題,其前提仍在於研究者對於歷史社會基本脈絡及其細節的掌握是否充分。“讀書得間”,尤其在史學訓練的初級階段,不可跨越。

三、統計分析

不少論者都曾指出,數字人文的發展,早已從簡單的全文檢索進化到了“關係型”數據庫——比較著名的如中國曆代人物傳記項目(CBDB)與Markus古籍半自動標記平臺等等,它們能將各種要素有機地聯繫起來,來做統計分析,以得出個體研究者不容易達到的結論,甚至做到所謂“精準型研究”。可是,這些數據庫在處理歷史文本時,如前文所說的當文本未能在字面上直接反映歷史信息時研究者該怎麼辦的困窘依然存在。另外,在充分意識到這種關係型數據庫的潛能以及有時抱怨它們的用戶界面大多不夠友好的同時,筆者不免得隴望蜀,期待它能夠發揮更大的作用。因此還有幾點困惑之處,提出來討論。

首先,如何應對存世記載零散、數據庫的統計分析難以保證結論的普遍性的問題。在中國古代史領域,存世記載大多零散,具有明顯的偶然性與或然性,很難具有系統性,這與近現代史領域存在著相當大的差別。在“傳統”的以全文閱讀為基礎的研究中,成熟的學者往往可以通過對不同案例的全面考量,判斷其典型性,才舉為例證。這一過程儘管看似主觀,事實上可能反而更接近史實。但是根據這些記載建立起來的數據庫,看似精確,實際是隻能將複雜、立體的描述性歷史文本轉化成平面的數據,抹殺了它們相互間的差異性,這樣一來,數據庫統計還能夠在多大程度上反映歷史現象的普遍性,不免令人存疑。例如以歷史人物研究為例,坦率地說,近年來學界為建設關係型數據庫,投入了大量的人力和物力,但學者們在各自的研究工作中真正利用這些數據庫並做出有影響的學術成果的,則極為有限。筆者曾見有論者利用CBDB數據庫,來研究宋代處州的家族群體,還補充以其他一些碑銘資料,共發現了35個符合“有影響力”條件的家族,其中麗水縣10個,縉雲縣7個,松陽縣5個,青田縣5個,龍泉縣5個,遂昌縣與慶元縣各2個。作者據此得出結論,認為在宋代處州地區,除了政治中心麗水有影響力的家族數量較多外,其他各縣分佈較為均勻,縣域之間的差別較小。同時這些家族及其區域的發展有著明顯的“內生性”特點。查考作者所列出的這35個家庭的資料出處,坦率地說,基本不出文史研究者目力可及的範圍。而且,以每縣僅僅個位數的例證,來論證300年時間跨度之中“家族群體”的特徵,不能不說是太過試探性的了。更重要的是,處州的這35個家族雖然按一定條件都可以被認定為具有“影響力”,在數據庫的資料處理方式中,他們都變成了一個簡單的計數單位,在每個“1”的背後,不同家族間可能存在的各種差異——豪族與寒士、顯宦與下僚,全都被忽略、抹平了。其與史實之間究竟存在多少距離,就令人不得而知了。

其次,與此相類似,在人物研究領域,以CBDB為代表的關係型數據庫,在將本質上屬於描述性的文獻轉化為可供統計的量化數據的過程中,經過一定的條件界定,難免會篩選、過濾歷史信息,造成信息的衰減。例如關於宋末入元士人對新朝的態度問題,學界曾有一些研究。觀察的視角之一,是統計這些士人入元后是否入仕新朝。經過“是”與“否”的統計,得出不同地區、不同群體之間的不同數據。應該說,在將描述性文獻轉化為量化數據的處理中,這一個“是”與“否”的統計,當屬於邏輯關係比較明晰、信息衰減相對較少的類型,卻仍然不能保證其結論不偏離於史實。數年前,筆者曾以明州(慶元府)入元士人為例,來校正這類數據,發現實際情形遠比“入仕”或“未入仕”這樣兩大簡單的歸類更為複雜。入仕者,其與新朝可以有親與疏,或者自願與無奈之異;未入仕者,也可能存在著不願仕與不得仕之別。特定的入仕者與未入仕者之間對於新朝的情感立場,相比同一類別內部之間,甚至有可能更為接近。但是非此即彼的統計歸類,只能摘取文本所反映的豐富歷史信息中的一個節點而已,完全忽略了這些重要內容。人們的社會活動是複雜多樣的,數據庫式的歷史資料處理方式,將本來豐富多彩的社會活動簡單地轉化成了是與否、0與1,在資料統計追求全面、可視、多樣化的同時,有時無疑也存在著簡單化、反而背離了史實的情形。

"包偉民 | 數字人文及其對歷史學的新挑戰

包偉民

近代以來,人文學研究一直為科學的發展所左右。數十年來,已經開始深刻影響其演進走向的,是日新月異的計算機信息技術。據說,目前我們已經處於一個被稱之為“數字人文”的時代。

史學研究也不例外。學界已經為歷史資料數據庫的建設,投入了巨大的人力和物力。也有一些敏感的商界人士,將此視為攫取商業利潤的新場域,投入巨資,開疆拓土。各方面先後建立起來的各種類型的歷史資料數據庫,不勝枚舉。例如在中國古代歷史研究領域,具有標誌性意義的,先是有香港迪志文化出版有限公司在1999年推出了文淵閣四庫全書全文檢索數據庫,後更有北京愛如生數字化技術研究中心開發製作、於2005年推出的“中國基本古籍庫”。這些數據庫,已經將中國存世古籍的絕大多數收錄其中。與中國古代歷史研究直接相關的當代學術文獻數據庫,執其牛耳者則非中國知網莫屬。儘管因其明顯地輕視學者個人著作權益而多受詬病,然而這個始建於1999年,集期刊、碩博士學位論文、會議論文、報紙、工具書、年鑑、專利、標準、海外文獻資源為一體的巨無霸式的網絡出版平臺,已經成為學者從事史學研究工作須臾不可離開的幫手。而資本對於高額回報的期待,也開始對學術機構產生越來越沉重的經費壓力。

包偉民 | 數字人文及其對歷史學的新挑戰

中國基本古籍庫(個人版)首頁

在差不多每一個從業人員都感受到了新技術無所不在的影響的同時,歷史學作為人文學的重要組成部分,其在數字人文時代的境遇,也引起不少學者的關注與討論。多數意見,是竭力稱頌新技術將給歷史學帶來全新的發展機遇,出現了“大數據時代似乎給史學研究帶來了前所未有的興奮”的現象。例如有學者認為,“大數據使歷史資料利用產生革命性變革”。在研究方法層面,有學者歸納出了關於利用信息技術的所謂“e-考據時代”的概念,認為“e-考據”“已使文史學界的研究環境與方法面臨千年鉅變”。更有人將“傳統史學”與數字人文時代的“新史學”直接對立了起來,甚至提出了“信息技術革命會‘終結’人文學科嗎”這樣聳人聽聞的問題。但也有學者持冷靜遲疑的立場,從近年來數字化技術在史學研究中的實際應用情況出發作觀察,指出,“當我們以數字化的方式在一定範圍內窮盡史料之後,我們所期待的‘史料大發現’的時代卻並沒有到來,我們依舊要在那幾部最基本史著的字裡行間尋求突破。技術手段的更新,也並沒有帶來終極意義上的學術思維革命”。

可以說,相關議題已經展開了比較充分的討論,各位論者所言,基本也可以自成其說。只不過,對於涉及領域極為寬泛的歷史學研究,論者常常僅就其所熟悉且相對有利的部分來舉例論證,涵蓋面常有不足,不免難以周全;與此同時,不少看法則明顯是陳述多於論證,屬於“願景”而已。

因此,本人謹以自己具體研究的心得為例,在中國古代史研究領域的範圍之內,對論者的討論提出幾點補充,以期有助於“數字史學”的發展——如果可以如此來稱呼它的話。

一、檢索資料

在實際史學研究工作中,近年來計算機數據庫的發展真正產生廣泛影響的,是多數學者已經習慣利用歷史文獻數據庫來搜尋資料。這也是我們首先應該討論的。

新技術在給研究工作帶來極大便利的同時,也帶來了一些前所未有的新問題,值得注意。

利用數據庫來搜尋資料這一方法的廣泛應用,所帶來的第一個結果,無疑是從中得到的搜索結果的數量大增,正如黃一農所指出的,“隨著出版業的蓬勃以及圖書館的現代化,再加上網際網路和數位資料庫的普及,一位文史工作者往往有機會掌握前人未曾寓目的材料,並在較短時間內透過邏輯推理的佈局,填補探究歷史細節時的隙縫”。正由於學者們“有機會在很短時間內就掌握前人未曾寓目的材料”,就可以經分析研究,得出新的結論。這也正是他“深感史學研究已晉入一前人所無法想象的新局”的原因,也是他提出“e-考據”說的依據所在。

儘管這種檢索的結果可能極大地擴展了學者們搜尋資料的範圍與數量,並幫助他們在不同類型的資料之間建立起聯繫,推進分析思考,不過這種搜尋資料的路徑,本來就是“傳統”考據學所要求的,只不過學者們常受條件之限,不太容易做到而已。因此就其本質而言,從傳統考據到“e-考據”,仍屬量變而非質變。這也是為什麼有論者以為“e-考據作為一種考據方法的創新,並未改變考據學的性質”之故。此外,黃一農所實踐的兩個案例,無論是關於第一代天主教徒,還是關於曹振彥的生平事蹟,都發生在明末清初,其存世的歷史文獻相比於前代要豐富得多,有例如“明人文集資料庫”那樣信息量十分豐富的數據庫,其所能夠提供的幫助就十分顯著。如果事涉更早一些的歷史時期,情況也許會有所不同。

第二個結果,這也是本人在日常研究工作中常常感到困惑之處,那就是對於某一史事,常常難以確定哪些詞彙應該被納入檢索字串的範圍,而且檢索出來的成百上千條的結果,常常絕大多數與研究主題並不相關,對檢索結果一條條地分析閱讀,徒然增加了工作量。因此,有學者感嘆數據庫檢索並未使得搜尋資料變得容易,反而是更難了。

這就反映了文史類數據庫建設所面臨的一大難題:中國傳統歷史文獻絕大多數是出於文人之手的描述性文本,其中最大量的是文學作品,到了數字人文時代,不管是“細讀”還是“遠讀”,計算機的閱讀,只可能落實於文字表面,將數據信息與檢索字串機械地一一對應。至少在目前的條件下,還不太可能應對傳統文人士大夫筆下常見的各種看似“詞不達意”的、靈活多變的表述方式。簡言之,當文本未能在字面上直接反映歷史信息時,我們該怎麼辦?

這裡又可以分為三種不同的層次。

包偉民 | 數字人文及其對歷史學的新挑戰

《宋人傳記資料索引》

其一,一個對象物,文獻中可能用不同的詞彙來指稱它,研究者非遍覽史籍,則難以知曉,不太可能僅依靠檢索數據庫來完成資料的收集。黃一農在討論曹振彥生平時,就曾以“瞿汝稷”為例指出,在資料庫中可以發現其人共有十數種稱謂。他一共舉出了諸如“瞿元立”“瞿洞觀”等17種不同的稱謂。一個歷史人物有他的姓名、表字、雅號、別名、官職、籍貫等等,這當然是常見的現象。有的時候,釐清歷史人物的雅號別名就已經是一項並不輕鬆的研究議題。例如關於宋代名相王安石的表字,吳曾《能改齋漫錄》卷十四曾載:“(王)荊公少字介卿,後易介甫。”今人對此有專文討論,但莫衷一是。更麻煩的是,相比於同名同姓的案例,一個字號為多人所共享的情況則更為普遍。例如僅據《宋人傳記資料索引》,一些典雅的字號,往往相同者眾多。例如“子文”,相同者有王聎等26人;“子正”,相同者則多至33人。即便如“希文”這樣相對冷僻的字號,也有范仲淹等相同者5人。

不僅是歷史人物,制度、事物等也常見一事多名的現象。例如南宋時期有一箇中央向地方徵調財賦的重要項目,叫月樁錢,文獻所載,又稱月給錢、月解錢、月樁大軍錢等等,甚至簡稱“大軍錢”。而“大軍錢”一詞,當時還指另外的財政項目,相互間的辨別,全憑研究者細讀文獻上下文才能做出判斷。

這樣一來,在具體的研究過程中,以往依靠通讀文獻,細細品味,遺漏、返工的情況相對較少。現在如果主要依靠數據庫檢索來搜尋資料,則往往需要每發現一個新的與研究議題相關的關鍵詞,就返工再做一次檢索,最後卻仍無法保證是否已經將相關記載搜尋無遺。這無疑會給研究工作帶來不小的困惑。也許,技術專家會告訴我們,現今大數據技術的發展,已經完全可以由研究者歸納出其中的規律,設置必要的前提條件,讓計算機經過學習,掌握相關的分辨、判斷技術,再讓它將相關記載的文本“挖掘”出來。這樣的設想是否適合於中國古代歷史資料的搜尋,筆者尚無法判斷。不過比較明確的是,歸納詞頻規律與為檢索設置必要的前提條件,當然是只有史學工作者才能夠勝任的一項工作。而這樣一來,實際上研究過程恐怕已經完成,無須再煩勞機器了;同時其可能需要的人力、物力投入,也多半會得不償失。

其二,在中國古代歷史文獻的記載中,文本字面含義與史實之間常常存在錯位,這就使得事情變得更為複雜了。筆者近年從事的兩個專題研究,有一定的示範意義。

討論宋代鄉村基層管理組織,存世的宋元地方誌是核心文獻。從宋到元,存在著一個從鄉里、鄉管到鄉都的制度演變過程,這是公認的史實。但是數十種存世宋元方誌關於鄉村基層管理組織的描述,從南宋至元代,在“鄉”之下,超過80%卻仍記載著已經退出歷史舞臺的“裡”,至於當時實際運行之中的“都”與“保”,則甚少記載。如果完全依賴數據庫的檢索統計,就可能使人誤以為當時的鄉村基層管理組織,仍是以“鄉”與“裡”為核心來建構的,這就反而遠離了史實。實際上這些“裡”,看似鄉村基層管理組織,卻不過是經過演變的某種地理單元而已。這樣的認識,僅憑數據庫的檢索閱讀,當然是無法達到的。

又關於宋代城市的城區佈局與管理,存世地方誌的記載無不以“坊”為中心,無論是“坊巷”“坊市”或者“坊陌”,都是如此。多數地方誌幾乎不記載關於街巷的情況。即便有的地方誌,如《嘉泰會稽志》,設有“衢巷”之目,看似專為街巷而立,實際記載的內容,卻僅有坊而無巷。這就給了讀者一個直觀的印象,似乎當時的城區一切都以“坊”為中心來展開。實際上,“坊”在宋元方誌的文本中有多重含義,既可能是城市管理組織“坊區”,又多指聳立於街巷兩端的兼具裝飾與實用功能的坊額坊表,同時也有可能是純粹作為紀念性建築物的牌坊,如各地常見的狀元坊、功德坊之類的東西。但是宋元地方誌對於其間的區別幾乎都不做說明,只是將它們混雜在一起記載了下來。究其原因,就是因為地方誌編纂者們“歷史書寫”的用心所在,是要凸顯各地城區坊額的“為美名以志”,即其某種“為邑之壯觀”。同時,對於在民眾日常生活中扮演著主角的街巷,他們卻嫌其名稱“出於俚俗”,“多非馴雅”,不屑於記述了。這種在歷史書寫中畸輕畸重的失真現象,長期誤導了人們對於當時城市制度的認識。如果僅僅依靠數據庫對歷史文本的統計分析,無疑也會得出坊主巷從的結論,難以解開這個歷史的謎團。

其三,更進一步,文人士大夫行文遣墨,筆下常見的隱語、反諷、比擬、轉喻等手法,使得有時文本與史實之間隔著好幾層關係,史家常常不得不依靠自己對史事大背景的掌握以及上下文的邏輯聯繫,有時甚至還得依靠揣摸作者行文的語氣與心態,來做出判斷。這就使得事情更加複雜了。

例如,古人書信中,常以“某氏”“某丈”之類簡稱,類似於今人所言“老張”“老李”之類的泛稱,來指稱通信雙方都熟悉的某位人物,如南宋理學家呂祖謙(1137—1181),在其與朱熹(1130—1200)的信函中,經常提到一位“張丈”,熟悉南宋理學史的學者很容易判斷,這應該是指當時另一位著名的理學家張軾(1133—1180)。但是僅憑類似於今人“老張”這一泛稱,想要請計算機通過數據檢索來追索到具體是哪一位老張,無疑太過難為機器了。

又如,古人還常有以兄弟排行來指稱人物的書寫方法,類似於今人稱某人為老大、老二等等。若無其他更為明確的信息,計算機恐怕也是難以做出判斷的。如北宋末年權臣蔡京(1047—1126)的小兒子蔡眥,因與長兄蔡攸(1077—1126)不諧,在其於南宋初年所撰筆記《鐵圍山叢談》中,概以“伯氏”一詞指稱之,其他信息全無,依靠數據庫檢索,恐怕也是難以從此書中把關於蔡攸的記載挖掘出來的。

古人又多以官職、籍貫來指稱人物,如杜工部(杜甫)、康南海(康有為)之類就是顯例。黃一農就曾提到,瞿汝稷還有“瞿黃州”“瞿太虛運使”等別稱。但如果這類指稱連姓氏都被省略,學者有時不免得考索一番,才弄得清究竟所指為何人。數據庫看來是無能為力的。例如北宋後期宰臣曾布(1036—1107)的《曾公遺錄》,因屬於私人日記性質,指稱人物的用詞就相當簡單。如“元符二年三月丁卯日”條載:“是日,夔、轄不入。”這裡被簡略至僅一個字的“夔”與“轄”所指何人,就頗費思量。據同書卷九“元符三年正月己卯日”條載,宋哲宗駕崩之後,向太后與宰執們商量帝位繼任大事。“章惇厲聲雲:‘依禮典律令,簡王乃母弟之親,當立。’餘愕然未及對,太后雲……餘即應聲雲:‘章惇並不曾與眾商量,皇太后聖諭極允當。’蔡卞亦云:‘在皇太后聖旨。’許將亦唯唯,夔遂默然。”可知“夔”即為時任宰相、尚書左僕射兼門下侍郎的章惇(1035—1105)。然而此“夔”字,既非章惇的表字,更非其雅號,顯然是曾布因與其政見不合、在自己的私記中為其所取帶有鄙意的別稱。至於“轄”,文中也多見有“兩轄”一詞,當指“左轄”與“右轄”,即尚書左丞與尚書右丞的別稱。時任尚書左丞是蔡卞(1048—1117),尚書右丞為黃履(1030—1101)。從人名到其官職,又從官職到別稱,更將別稱簡化,這中間幾重轉折的線索,檢索工具怕是接不上的。

又如南宋乾道八年(1172年),朱熹致信呂祖謙:“熹自泉、福間得侍郎中丈教誨,蒙以契舊之故,愛予甚厚。”這裡提到的“郎中丈”究系何人,就有點沒頭沒腦。查呂祖謙年譜及其他相關資料,才得以明瞭原來指的是呂祖謙之父呂大器。紹興二十五年(1155年)呂大器任福建提刑司幹官,當時朱熹應該拜見過他,因此才說自己在泉、福間得其教誨。呂大器於乾道八年二月初七日過世,朱熹得知此消息後,致信好友表示慰問。呂大器官至右朝散郎,所以朱熹以“郎中丈”尊稱之。但是,我們若要討論呂大器這樣的歷史人物,應該是不會想到將其曾任之右朝散郎之簡略詞“郎”等詞彙列為檢索字串的。即便檢索字串的設置周全得無以復加,能夠將其列入,那麼不管是某氏某丈、伯氏季氏,還是夔、轄、郎之類,利用“中國基本古籍庫”那樣的數據庫,當然都能很快地將它們全部檢索出來,羅列無遺,但是每一字串所得到的起碼數千及至十數萬個檢索結果,在實際的研究工作中顯然也是沒有任何利用價值的。

所以說,僅就全文檢索這一層面而言,對於以上這幾類現象,計算機數據庫看來仍然是無能為力。如果僅僅依靠數據庫來搜尋歷史資料,至少在目前的技術水平下,仍有其明顯不足,難以將資料搜尋完備。黃一農曾指出:“當然,別忘了,‘e-考據’的研究方法,不僅得熟悉網絡或電子資源,還必須建立在深厚的史學基礎之上。而清晰的問題意識與靈活的搜尋技巧,亦將是考據功力的深淺所繫。”我們或許還可以對此稍做補充,在清晰的問題意識與靈活的搜尋技巧之外,對於一些基本歷史文獻,認真通讀,細心體會,仍然是中國古代歷史研究必不可少的一道“工序”。

二、提出議題

當然,正如不少論者所指出的,全文檢索遠未發揮出計算機數據庫的所有功能,其所強調較多的,還有提出議題與統計分析兩個方面。

議題是史學研究的起點。人們觀察歷史,不免站在當今的立場上來提出議題,以求瞭解過去。但如何提出有意義、得以真正展開討論的議題,還有賴於我們對歷史社會的認識,去發現那些有意義的歷史現象。正是在這一意義上,歷史資料數據庫的發展,給我們展示了新的可能,也帶來了新的困惑。

由於數據庫能夠幫助研究者比以前更加方便地蒐集資料,並據以展開分析討論,因此有論者特別強調“量化研究的一個重要優勢是,能夠發現靠傳統文獻閱讀無法發現的隱藏在歷史資料堆中的史實”,甚至更進一步,可以經過“同時比對上千條數據,辨識其中模式”,也就是認為利用數據庫的分析,可以在複雜的歷史現象中發現傳統研究方法難以覺察到的問題。這樣的推論,在邏輯上自然順理成章。不過,更為周全的觀察還提醒著我們,這一推論的適應面存在著明顯的侷限性。除非我們能夠滿足它所有必要的前提條件,否則推論的結果難以達到。那就是:第一,相關研究領域保存有豐富的檔案文獻,可以構建起信息量足夠的數據庫;第二,利用計算機來閱讀歷史資料,如前文所論,至少在目前,還停留在詞義直接對應的水平,這就要求歷史文本的字面含義與它所可能蘊含的歷史信息完全對應,否則機器閱讀就無能為力。但是這在中國古代史研究領域,條件似乎尚欠充分。

人類歷史內容極其廣泛,不同領域存世的歷史資料差別明顯。不少學者在討論中經常舉為論據的“大數據”,大多需要以豐富的存世檔案文獻為基礎,在中國古代歷史領域,卻基本不存在這樣的條件。在印刷術未能普及應用之前的那些歷史階段,更是如此。所以信息技術在中國古代史研究領域的應用,可能與近現代史領域有一些不同,不應忽視。

因此,在意見的另一方面,常被論者提及的則是王國維的“讀書得間”之論:“宜由細心苦讀以發現問題,不宜懸問題以覓材料。”強調從細心閱讀歷史文獻之中來發現問題。

所謂經過大數據分析比較來發現問題,不可能將史學分析完全交給計算機自發地操作,而必須由研究者設置一定的前提條件。也就是說,其實是由研究者事先提出研究目的或者目的範圍,也就是“懸問題以覓材料”。這些問題當然不可能憑空得來,必然有其依據。除了研究者對特定歷史社會的認識之外,比較直接的應該就是現代社會科學一些範式的指引。這就難免會與作為研究對象的歷史社會之間存在一定的隔閡。這樣一來,豈非坐實了關於“實際情況則是研究者預先設定的思路往往成為搜尋和篩選數據的藩籬而不自知”的批評?

而所謂“讀書得間”之論,“由細心苦讀以發現問題”,強調的是要通過分析存世歷史文本、在字裡行間的細節中發現前人所忽略的問題。其與前者的差別,主要體現在立足點之不同,即立足於客體(歷史社會),從深入觀察之中來發現問題,還是立足於主體(研究者),根據今人的主觀目標來設定問題。儘管這兩者之間還存在著相當複雜的聯繫,但立場的區別是明顯的。

史學研究的目的是為了理解歷史。所謂一代人有一代人的歷史,指的是每一代人都會對歷史有與前人不同的理解。因此在史學研究中,主體與客體常常相互影響。相對而言,強調主體,在於其研究目的,即從今人理解歷史、使之服務於當今的目的出發來提出問題;立足於客體,則是強調從研究對象本身的實際情況出發,來發現問題、提出問題。也就是所謂的要“貼近史實”。筆者的理解,這裡可以包含兩層意思:一是要在總體上把握研究對象的全",二是要充分發掘歷史的細節。

具體到筆者相對熟悉的宋代史研究領域而言,其中相較於其他歷史時期一些突顯的現象,是任何觀察者都不能忽視的,一直為人們所重視。如多民族政權並存、趙宋政權文官制度的發達與武功之不振、經濟與技術的突破性發展、思想文化領域新氣象的形成、南方地區的開發以及隨之帶來的地域格局的變化、城市新面貌的形成等等,是任何觀察者都不能忽視的。論題雖舊,其命彌新。只有在基本把握了全"的前提下,再將各方面的歷史現象聯繫起來觀察,以研究者獨到與深邃的眼光,才有可能從歷史文本的字裡行間發現隱藏於其中的一些重要歷史現象,找出可以深入討論的問題。也就是從中去尋找某一歷史現象可能蘊含的意義,來解答它的“為什麼”,即所謂“得間”。更為重要的是,也才有可能使得對問題的討論契合於歷史發展的大趨勢,將局部與總體有機地結合起來。

正是在這一意義上,目前學界多所批評的所謂“檢索體”類文章,即主要依靠數據庫檢索來完成資料搜尋工作,或者依靠機器閱讀來確立討論議題的,可能正在於它們既不能把握住特定歷史社會的基本脈絡,對於引為論據的歷史文本又常常割裂其與上下文之間的有機聯繫,更割裂了其與歷史大背景之間的聯繫,在典型地“尋章摘句”之餘,更以今人之心揣古人之腹,可以說在其所提出的議題與其對議題的論證兩方面都脫離了歷史實際。

也正因此,能否通過大數據分析來發現史事中的問題,其前提仍在於研究者對於歷史社會基本脈絡及其細節的掌握是否充分。“讀書得間”,尤其在史學訓練的初級階段,不可跨越。

三、統計分析

不少論者都曾指出,數字人文的發展,早已從簡單的全文檢索進化到了“關係型”數據庫——比較著名的如中國曆代人物傳記項目(CBDB)與Markus古籍半自動標記平臺等等,它們能將各種要素有機地聯繫起來,來做統計分析,以得出個體研究者不容易達到的結論,甚至做到所謂“精準型研究”。可是,這些數據庫在處理歷史文本時,如前文所說的當文本未能在字面上直接反映歷史信息時研究者該怎麼辦的困窘依然存在。另外,在充分意識到這種關係型數據庫的潛能以及有時抱怨它們的用戶界面大多不夠友好的同時,筆者不免得隴望蜀,期待它能夠發揮更大的作用。因此還有幾點困惑之處,提出來討論。

首先,如何應對存世記載零散、數據庫的統計分析難以保證結論的普遍性的問題。在中國古代史領域,存世記載大多零散,具有明顯的偶然性與或然性,很難具有系統性,這與近現代史領域存在著相當大的差別。在“傳統”的以全文閱讀為基礎的研究中,成熟的學者往往可以通過對不同案例的全面考量,判斷其典型性,才舉為例證。這一過程儘管看似主觀,事實上可能反而更接近史實。但是根據這些記載建立起來的數據庫,看似精確,實際是隻能將複雜、立體的描述性歷史文本轉化成平面的數據,抹殺了它們相互間的差異性,這樣一來,數據庫統計還能夠在多大程度上反映歷史現象的普遍性,不免令人存疑。例如以歷史人物研究為例,坦率地說,近年來學界為建設關係型數據庫,投入了大量的人力和物力,但學者們在各自的研究工作中真正利用這些數據庫並做出有影響的學術成果的,則極為有限。筆者曾見有論者利用CBDB數據庫,來研究宋代處州的家族群體,還補充以其他一些碑銘資料,共發現了35個符合“有影響力”條件的家族,其中麗水縣10個,縉雲縣7個,松陽縣5個,青田縣5個,龍泉縣5個,遂昌縣與慶元縣各2個。作者據此得出結論,認為在宋代處州地區,除了政治中心麗水有影響力的家族數量較多外,其他各縣分佈較為均勻,縣域之間的差別較小。同時這些家族及其區域的發展有著明顯的“內生性”特點。查考作者所列出的這35個家庭的資料出處,坦率地說,基本不出文史研究者目力可及的範圍。而且,以每縣僅僅個位數的例證,來論證300年時間跨度之中“家族群體”的特徵,不能不說是太過試探性的了。更重要的是,處州的這35個家族雖然按一定條件都可以被認定為具有“影響力”,在數據庫的資料處理方式中,他們都變成了一個簡單的計數單位,在每個“1”的背後,不同家族間可能存在的各種差異——豪族與寒士、顯宦與下僚,全都被忽略、抹平了。其與史實之間究竟存在多少距離,就令人不得而知了。

其次,與此相類似,在人物研究領域,以CBDB為代表的關係型數據庫,在將本質上屬於描述性的文獻轉化為可供統計的量化數據的過程中,經過一定的條件界定,難免會篩選、過濾歷史信息,造成信息的衰減。例如關於宋末入元士人對新朝的態度問題,學界曾有一些研究。觀察的視角之一,是統計這些士人入元后是否入仕新朝。經過“是”與“否”的統計,得出不同地區、不同群體之間的不同數據。應該說,在將描述性文獻轉化為量化數據的處理中,這一個“是”與“否”的統計,當屬於邏輯關係比較明晰、信息衰減相對較少的類型,卻仍然不能保證其結論不偏離於史實。數年前,筆者曾以明州(慶元府)入元士人為例,來校正這類數據,發現實際情形遠比“入仕”或“未入仕”這樣兩大簡單的歸類更為複雜。入仕者,其與新朝可以有親與疏,或者自願與無奈之異;未入仕者,也可能存在著不願仕與不得仕之別。特定的入仕者與未入仕者之間對於新朝的情感立場,相比同一類別內部之間,甚至有可能更為接近。但是非此即彼的統計歸類,只能摘取文本所反映的豐富歷史信息中的一個節點而已,完全忽略了這些重要內容。人們的社會活動是複雜多樣的,數據庫式的歷史資料處理方式,將本來豐富多彩的社會活動簡單地轉化成了是與否、0與1,在資料統計追求全面、可視、多樣化的同時,有時無疑也存在著簡單化、反而背離了史實的情形。

包偉民 | 數字人文及其對歷史學的新挑戰

《文獻通考》

再次,偶然存世、零散殘缺與每一單篇都頗具個性色彩的古代歷史文本,在被統合到數據庫後,或者被分解開來以其局部與其他資料相聯繫、對比、分析,或者以其一部或整體與其他資料相加、統計、核算,都會存在一個損失其個性、脫離其歷史背景的問題。典型案例,可舉存世的一些財政數據來做說明。目前保存在正史、政書、地誌、文集等文獻中的一些古代財政數據,即便是相對全面的那些記載,也無不存在著統計口徑不一、計量單位各異等複雜問題,非經對每一個案認真解讀、換算,不易解讀。數據庫的處理,如果僅僅因為其表面看來財政項目相同,就簡單展開統計分析,難免不會出現失之毫厘謬以千里之誤。例如馬端臨《文獻通考》卷二三《國用考一》載有宣和元年(1119年)“諸路上供錢物之數”,涉及17個路分,合計1532萬貫匹兩,其中數額高者如兩浙路,達443萬餘貫匹兩,佔諸路總額的29%,而四川地區的成都、利州、潼川、夔州四路合計起來僅14萬有奇,不到諸路總額的0.9%。根據當時四川地區的經濟地位,其上供財賦絕不可能如此之少,這說明《文獻通考》所載宣和元年“諸路上供錢物之數”並非當地的上供原額,應該只是供送到京師開封府的那部分,四川上供財物絕大部分估計已被截留於陝西了。但是這樣的認識,非經對北宋後期國家財政調撥體系做出全局性分析之後,不可能得出。可知宣和元年這一“上供錢物之數”的記載,與存世的當時其他一些關於四川地區的財政數據出於不同的統計口徑。數據庫的統計,如何綜合這些分析性的認知,避免簡單化地加加減減呢?其他大量的更為個性化的記載,如何避免在數據庫統計過程中損失背後的歷史信息,將立體的文本偏平化了呢?這些都是我們在將數字化技術應用到中國古代歷史研究領域時不得不面對的問題。

上述例子說明,史家讀書,除了某一詞句與其上下文的邏輯關係外,還得關心通篇文本與其時代背景之間的複雜關係。在數字人文時代,若將讀書的任務完全交給計算機來完成,是否會恰好顯露出文史類資料與現代信息技術之間某種程度的方枘圓鑿呢?

四、餘論

回到本文的標題,所謂在數字人文時代歷史學遇到的新挑戰,當然並非如某些論者所言,“傳統史學”將被“具體、細緻和精確”的“新史學”所取替,而是指如何在符合學科特點的基礎之上,更有效地利用信息技術,以推動歷史學研究的深化發展,對史學從業人員來說,的確是一個新課題、新挑戰。在這裡,歷史學與計算機學科等領域的攜手合作非常重要。本文所談到的這些困惑,正是希望“具體、細緻和精確”地指出在應用數字技術來分析歷史信息時可能產生的一些BUG,既提醒史學界同仁,我們應該將數據技術放到一個更為恰當的位置,在更好地利用它的同時,避開它可能帶來的一些弊病;同時,更試圖為計算機等學科提供參考意見,期待有關學者改進技術,幫助史學研究更好地融入數字化時代。

總之,正如王家範先生所指出的,“世界上有一種職業是任何再先進的機器人也無法替代,那就是歷史學家”。對於史學研究來說,“大數據”只不過是一種新的更加有效的工具而已,它當然不可能取代學術研究的主體——歷史學家。

本文原載《史學月刊》2018年第9期,轉自“史學月刊”微信公眾號,註釋從略。

"

相關推薦

推薦中...