“我们做古籍数据库,会像做纸书一样,世世代代做下去。”在上海举办的一场“信息时代:古史研究的新思路”研讨会上,中华书局总编辑顾青这样表示。
2014年,中华书局首次推出古籍数据库产品,定名为“中华经典古籍库”。第一辑收录了近300种中华书局出版的整理本古籍图书,涵盖经史子集各部,包含了“二十五史”、“通鉴系列”、“新编诸子集成”、“清人十三经注疏”、“史料笔记丛刊”、“学术笔记丛刊”、“古典文学基本丛书”、“佛教典籍选刊”等经典系列,总计约2亿字。“建立在中华书局点校本基础上,这个数据库的质量比较高,查阅也比较方便,被吐槽最多的是数据太少”,顾青坦言,这个初期产品远不能符合海量数据要求,为此,中华书局成立了专门的子公司古联公司,专攻古籍数字化,目前,“中华经典古籍库”已收录1274种古籍,约7.5亿字,几乎囊括中华书局成立至今出版的所有质量较高的整理本古籍,中华书局以外出版社出版的古籍经典也被逐渐收入,最终规模有望达到30亿字,约3、4000种古籍。
古籍数字化,对今人的研究发挥了什么样的作用?华东师范大学古籍研究所所长顾宏义用了一个夸张说法,“如果不打开数据库,简直不知道如何进行研究。”在很多学者看来,互联网改变了做学问的方式,古籍数字化让学术研究发生了革命性变化,“没有冷僻、查不到的史料,只有打开、查找数据库的方式和路径不对。”顾宏义说,陈寅恪一代的学人有“童子功”,可以凭借记忆写出引文的大意,而现代学术对于引文的规范更加严格,今人的旧学底子也远不及前辈,这就需要权威、准确、可以直接征引的数据库。然而,数据库的出现并不意味着对于史料的阅读、掌握可以缺省。“过去我们做学生时,导师表扬一篇论文,可能包括‘史料很丰富’,而现在的问题往往是史料太丰富了,一看就知道是从某个数据库中拉下来的。文献与文献之间的关系,哪些更为重要,需要数据库有更为科学的检索方法,也需要查询者有更强的阅读和辨别能力。”
华东师范大学古籍研究所所长顾宏义
古籍数字化有非常广阔的运用天地,除了“中华经典古籍库”这样面向学术界的产品,在教育等很多领域也有可为空间。中华书局正在开发一款针对普通读者的古籍数字化产品,计划收录500种经典古籍、1000篇经典古文,包含注释和翻译,力求人人都能看懂。顾宏义则“爆料”,他的同事、华东师范大学古籍研究所副研究员方笑一在担任《中国诗词大会》命题专家时,就是利用“中华经典古籍库”查找核对各类资料。
古籍数字化发展空间巨大,但顾青坦言,推广“中华经典古籍库”仍然步履艰难,“市面上类似的数据库非常多,很多比我们做得早、数据量也更大”。然而,这些数据库的通病是基本都是未经标点的原始版本,错讹较多。“我的看法是,古籍整理的数据库一定要以古籍整理的标准为原则,有些数据库采用自动识别技术,正确率达到99%,看似不错了,但一般出版物的差错率只有万分之一。”顾青形容,目前古籍数字化的网络生态“近似于丛林社会”,“弱肉强食、没有法则”,“有些公司上门来推销他们的数据库,一看,这里头有的书就是从我们这儿扒的”。
中华书局总编辑顾青
在顾青看来,版权问题是困扰古籍数字化的一重困难,其次还是经费问题,“看起来钱很多,实际上还是投入不足”。他介绍,古籍数字化分为三类,一是古籍保护的数字化,即原物扫描、原样复制,多为图书馆层面进行;其次是古籍整理的数字化,其成果可以作为文本来使用,“中华经典古籍库”即属此类;再次是古籍应用的数字化,包括开发国学应用游戏、教育软件等等。这其中,尤以古籍整理的难度最高,投入仍嫌不足,“只有懂古籍的人才能做好古籍,而在古籍整理的数字化中,伪专家、假行家太多了。”
“中华经典古籍库”的远景定位是”体现新中国成立以来古籍整理的全部成果”,不仅中华书局出版的每一本纸质书都将尽快做成电子书和数据库进行分享,也要收入其他出版社的优秀资源,“拿到授权和数据”。目前,凤凰出版社、齐鲁出版社、华东师范大学出版社等6家出版社已经加入“中华经典古籍库”,作为国内古籍整理的另一大巨头,顾青介绍,上海古籍出版社与“中华经典古籍库”的合作也在商谈之中,有望以股份制合作形式展开。
“不断长大——数据越来越多,准确可信,活的——功能越来越丰富强大”,在顾青看来,一个符合时代需求的古籍数据库必须符合以上三点要求。能否有一个权威的数据库结束目前市面上各色数据库杂乱、差错频频的局面?顾青笑道:“目前的形势下,正版数据库能活下去就好,不敢奢望‘灭了别人’。但我们会努力做下去的。”