中華書局古籍數字化側記:讓古籍不脛而走

原標題:古人的智慧,曾以文字的方式,被記錄在甲骨、青銅器、竹簡、線裝書上。如今,這些智慧結晶凝結在比特(BIT)裡,供世代鏡鑑 讓古籍不脛而走——中華書局古籍數字化側記

中華書局古籍數字化側記:讓古籍不脛而走

古聯公司成立大會

中華書局古籍數字化側記:讓古籍不脛而走

微信版閱讀頁

中華書局古籍數字化側記:讓古籍不脛而走

專業版PC端閱讀頁面

程毅中先生有些煩。

這位中央文史館館員、中華書局前副總編,雖退休20多年,卻仍然以整理古籍為業。最近他正校勘《大宋宣和遺事》(元代人根據多個筆記小說以說書形式連貫而成的話本,後成為《水滸傳》的藍本),需用筆記小說原文來對,但他用不慣手機上的數據庫,打開慢不說,一不小心一碰就把頁面弄丟了。

現在好了,“中華經典古籍庫”微信個人專業版上線了。用戶可以在電腦端使用,古籍原書圖像、頁碼都清晰在目。

從對古籍簡單的數字化處理,到產品化設計,再到互聯網化……回顧一路摸索的曲曲折折,中華書局數字出版中心副主任、古聯(北京)數字常務副總經理洪濤既感慨萬千,又對未來充滿期待。

厚積終有薄發日

洪濤是學歷史的,因為喜歡計算機,2001年直接被招進中華書局信息中心。書局當時連電腦都沒有,只好現買電腦,建局域網。2003年,中華書局成立了“古籍資源開發部”,建設“中華古籍語料庫”。

洪濤坦言,當時完全沒有數字出版概念,只是對中華書局傳統鉛排古籍整理書籍進行數字化編輯加工。

這一工作不僅為《史料筆記叢刊》《古典文學基本叢刊》、佛教道教典籍的出版提供了數字內容,也讓書局藉此建立了數字加工和流程管理的標準,造了3.1萬個字符集以外的字,這些成果直到今天還在應用。

2008年前後,已完成3億字的數字化加工的中華書局並沒開發產品,而是進入了對古籍知識庫的研究。他們認為,以谷歌百度為代表的搜索引擎,有強大的資源索引、聚合功能,代表了從內容服務到知識服務的互聯網方向。於是開始對《資治通鑑》《二十四史》進行分析系統建設,把書中相關知識信息標引、組織起來,形成以人物、時間、地點和事件為不同維度的知識網絡,脫離了原書目錄結構,相當於一個小世界。比如搜索張飛和關羽,系統會圖形化給出兩個人的關係圖,包括他們共同參與的事件、接觸的人物,甚至可以看到他倆在地域上的移動軌跡,文獻變得可視、立體化了。

事實證明,這個項目思維過於超前、工作量過於龐大,技術、知識和資金都嚴重不足。通常的用戶群——普通讀者、學生、教職、研究者,不知道該用這個知識庫做什麼;反倒是結構簡單的數據庫,在商業上容易成功。

這段經歷看似歧路,卻為後續開發“中華經典古籍庫”提供了重要思路。

貼近互聯網後的“人”

中華書局遲遲沒有開展數字產品化,不僅有技術因素的考量、對市場的理解和把握,但最重要的還是對知識產權保護的顧慮。

眾所周知,整理本古籍(將同一古籍的不同版本研究對照、整理出版)是書局最核心的資源,也是書局這個品牌安身立命之所在。古籍的高重印率是書局重要的經濟支撐,很難確定數字化是否會加重盜版風險、傷害傳統紙本書市場。

在對侵權的網絡數字公司進行知識產權訴訟中,有用戶說,如果你們有自己的數字版,我們當然不會看別人的。書局意識到,產品化或許才是最好的保護。

2012年,中華書局開始了數據庫的產品化。當時手頭兩三億字的數據量,與一些民營古籍庫動輒10億字的數據量相比,實在差距頗大。

他們在跟蹤用戶使用習慣中發現,很多用戶先在數據庫檢索到需要內容,然後去圖書館與整理本核對原文,記錄下原文出處等信息。在這一文獻檢索使用過程中,用戶只把數據庫當成了紙質圖書的電子索引。

於是,他們的數據庫中保留了原書版面圖像,讓用戶不必再去圖書館查紙書;用戶複製文獻時,來源出處會自動在文獻後顯示。

由於整理本涵蓋了新中國成立以來無數頂尖專家學者的研究成果,具有不可替代性和權威性,再加上對用戶的尊重和體貼,中華書局數據庫受到用戶歡迎,培養出很多重度專業用戶。

2014年到2015年間,他們的主要產品是“中華經典古籍庫”的局域網版,主要面向高校圖書館及專業院系、公共圖書館、黨政機關、出版社、研究機構、博物館及其他民間機構。局域網版符合國內用戶一次性買斷的習慣,但不適合海外推廣。所以,2015年底發佈了在線版,可以通過網絡授權訪問。短短1年,在線版已經在100多個機構開通試用,北美的哈佛、耶魯、普雷斯頓、哥倫比亞等大學都購買了在線產品。

2016年4月23日,他們又發佈了微信版古籍庫,這是社交移動平臺上第一次出現的古籍資源,讀者可隨時隨地閱讀檢索。短短半年,微信版吸引了3.5萬讀者,原來隱藏在局域網版後的用戶個體浮出水面。通過後臺統計,他們可以瞭解用戶在檢索和閱讀哪些內容、什麼時間使用數據庫、哪些地方的用戶多、他們的操作方式是什麼。這些數據讓他們能夠將營銷和服務真正定位到“人”,這也是微信產品最核心的價值。

溝通古籍和當代人的平臺

2015年,古聯(北京)數字傳媒科技有限公司成立,統合了中華書局的古籍數字化業務。

2017年1月北京圖書訂貨會上,“中華經典古籍庫”第四期發佈,古籍庫總字數達到7.5億字。但與往期不同,這一期納入的古籍有2/3不是中華書局出版的,比如《冊府元龜》《全元文》《蘇軾文集編年箋註》《宋代序跋全編》《八旗文經》等,分別來自天津古籍出版社、鳳凰出版社、齊魯書社、巴蜀書社、遼海出版社、華東師範大學出版社。古聯公司還與其他古籍出版社洽談業務,到2017年底,古籍庫將收入古籍1000種、10億字,古籍庫會變得更為全面、權威,充分體現“古聯”的內涵。

隨著產品越來越多,局域網版的價格越來越貴,需要化整為零。為此,他們開發了個人微信版,直接針對有不同需求的個體用戶。

但這遠遠不夠。

洪濤介紹說,根據《中國古籍總目》,中國古籍著錄約20萬種,其中重要的古籍約四五千種,整理本無法滿足用戶的所有需求。除去核心的人文類古籍,像醫學、天文、數學等古籍,雖然很偏,卻同樣是古人的智慧結晶,同樣具有當代價值。同時他們注意到,現有數字產品實質上是紙書的附屬物,受制於紙書的出版。互聯網時代,很多內容產品靠用戶自己生產達到迅速擴張,維基百科、知乎都是這樣。

2016年,他們開始籌劃“籍合網”平臺:提供古籍書目(包括版刻書及整理本)及相關的參考資料和已有整理成果。平臺發佈需要整理的古籍信息,採用眾包形式,由讀者共同整理完成。

趙萍是河北經貿大學大三的學生。在電話採訪中她告訴記者,她從小就喜歡古文,平常的碎片時間都在閱讀古文。去年4月參加中華書局讀者開放日,受贈一年的個人微信版會員資格,發現裡面的書特別多,還有檢索功能。過去下載PDF電子書,總要劃上劃下,現在是橫排,直接一搜,複製,拿去請教老師,“我還把它推薦給老師呢!”我問她會不會參加“籍合網”的古籍整理,她笑著說:“哪怕沒有報酬,能做也是開心的。”

這個預計今年內上線的平臺,將打通數字和出版的雙向通路:古籍整理出版物用數字形式發佈,平臺通過數字化產生整理作品,提供給出版社紙質出版。平臺上還可介紹學術會議成果、學術動態,讓用戶在這一空間自由交流,大大增強用戶黏合度,數據庫將更像一個現代互聯網產品。

通過古聯,我們或者可以看到古籍數字化的宏大全景。

相關推薦

推薦中...