张岩:从字频特征看“伪”古文《尚书》不伪

作者: 张岩   发布时间: 2023-05-05

《尚书》今古文篇章合计约24600字,去其重复,约使用1900余字。某些字在不同时代和文献中的用字量(现代语言学研究中所谓“字频”)明显不同,这与不同时期、不同文献的具体内容、语法习惯和撰写风格有关。在文献长期流传和古今字体的转换中会出现少量改字,但不会影响用字量不同的整体情况。我曾专门作过一次检索和对比分析,检索范围是《尚书》和先秦两汉另外二十余种参照文献(《诗经》《逸周书》《周易》《周礼》《国语》《左传》《论语》《孟子》《荀子》《礼记》《管子》《晏子春秋》《墨子》《老子》《列子》《庄子》《鹖冠子》《韩非子》《吕氏春秋》《春秋繁露》《淮南子》《新书》《说苑》《论衡》《史记》《汉书》等)。

具体步骤是先通过初步判断选出500余字,在上述每种文献中检索这500余字中每个字的出现次数,再换算成每个字在每种文献中的万字含量,然后在万字含量的一万多个数据间进行对比,选出《尚书》与其他参照文献万字含量(或多或少)明显不同的108个字,姑且称其焉“《尚书》用字量特征字群”。这108个字多是《尚书》中的常用字,其重复使用数量约占《尚书》 总篇幅三分之一,其中“多字组”(100字)万字含量比其他参照文献万字含量平均多出一倍以上(5:1),“少字组”(8字)万字含量比其他参照文献平均少一倍以上(1:2.9);在今文篇章和古文篇章之间进行对比,这108个字在二者间的平均万字含量 基本一致(今文47%:53%古文)。

先说“多字组”情况。比如:

(1)“乃”字,在《尚书》中万字含量是148字,在参照文献中万字含量是26字,在古文和今文篇章之间万字含量的比例是 142字:150字。

(2)“惟”字,《尚书》万字含量是263字,参照文献是2字,古今文篇章之间比例是:330字:233字。

(3)“永”字,《尚书》万字含量是20字,参照文献是1字,古今文篇章之间比例是:24字:19字。

(4)“若”字,《尚书》万字含量是69字,参照文献是20字,古今文篇章之间比例是:68字:69字。

(5)“厥”字,《尚书》万字含量是129字,参照文献是2字,古今文篇章之间比例是:157字:117字。

(6)“作”字,《尚书》万字含量是58字,参照文献是10字, 古今文篇章之间比例是:58字:58字。

在两汉魏晋间文献中,“多字组”文字(如:畴、诞、怠、孚、厥、缉、克、暨、佥、懋、惟、询、矧、允、攸、愆、爰等)的出现次数一方面明显少于《尚书》,另一方面大多出现于前面提到具有明显 “拟古文风”的书写场合,其前后文多有“引文”、“用文”现象(或其本身便在引文、用文中)。这里也有两种可能, 一是作伪者刻意实现了这种“天衣无缝”的作伪效果;二是今古文篇章都是真文献,故用字量特征相同。

为实现这种效果,作伪者(如果真有这么一个人)在“伪造”古文篇章过程中,每三个字中要考虑一个字的万字含量,使其出现率同步于今文篇章。为此,他必须对“《尚书》用字量特征字群”在先秦两汉文献中的万字含量有一个比较凖确的了解。我完成上述检索过程,虽借助计算机的文文件检索功能(word“替换”),仍然用了三个多月(每天工作十小时以上),极其单调繁琐。

如果不借助计算机检索的字数统计功能,完成此过程要对总篇幅几百万字的几十种文献一丝不苟地阅读(统计)几百遍,还要将由此获得的上万个数据经过两步计算(某字在某文献中的出现次数÷该文献总字数×10000)转换为万字含量。从收集文献到完成阅读统计和换算,仅此一项,以一人之力至少要用二十余年时间。据我所知,“字频统计”是近代以来语言学研究中比较新颖的方法,随着计算机的普及逐渐被研究者采用。我国古文献研究中采用这种方法更晚一些。魏晋之间也就是一千七八百年前那位“作伪者”居然能够娴熟使用这项如此晚近的研究方法,这可能吗?

作伪者最难实现的效果之一,是古文篇章“少字组”文字(行可相则能所之为)的出现率同步于今文篇章。因为,其中一些字在《尚书》中的出现率较高,在参照文献中的出现率更高,需要在“较高”和“更高”之间拿捏分寸。比如:

(1)“之”字,在《尚书》中的万字含量是137字,在参照文献中的万字含量是367字,在古文和今文篇章之间万字含量的比例是141字:136字。

(2)“可”字,《尚书》万字含量13字,参照文献是40字,古今文篇章之间比例是:14字:13字。

(3)“焉”字,《尚书》万字含量22字,参照文献是127字,古今文篇章之间比例是:24字:21字。

(4)“所”字,《尚书》万字含量5字,参照文献是54字,古今文篇章之间比例是:5字:5字。

再补进两个例子:

(1)“者”字,《尚书》万字含量2字,参照文献是115字,古今文篇章之间比例是:7字:1字。

(2)“也”字,《尚书》万字含量0字,参照文献是170字,古今文篇章之间比例是:0字:0字。

完成上述凖确的“字频作伪”要有一个前提条件,也就是在“作伪”之前预先确定“伪书”的篇幅,然后才有条件实施“作伪”过程,还要伪造出“无一字无出处”的效果。实现这様的作伪过程和效果几乎不可能,故后一种情况的可能性远高于前者。从古文篇章“多字组”(100字)万字含量的平均值略高于今文篇章(35字:31字)、“少字组”(8字)万字含量的平均值略低于今文篇章(31字:33字)的情况看,古文篇章的保存质量应略好于今文篇章。这应是古文篇章行文更加流畅一些的原因之一。

按本书前面已经提到,今文《尚书》中也有一些文从字顺的篇章,具体如《尧典》《舜典》《皋陶谟》《益稷》《禹贡》《洪范》《吕刑》等,真正“艰涩难晓”的祇有殷盘周诰等十余篇。也就是说,吴棫、朱熹的“怀疑起点”本身存在逻辑问题,其提出怀疑的推理过程不能成立。

我的基本结论是:“作伪”难度太高,高到不可能实现的程度。从人量文献的搜集,到引文、用文的查找;从上百个罕见词语的查寻采用,到文化、制度方面的理解归纳和融会贯通;从搞清先秦两汉文献与今文《尚书》之间字频不同,到“伪造”过程中拼凑引文和“字频勾兑”。如此这般“伪造”的二十五篇不仅没有明显缀辑痕迹,且文采尤富于今文。其工程量之大,非一人一世所能及。其道德文章,是黄钟大吕,绝世风华。刘勰所谓“义固为经,文亦师矣”(《文心雕龙•才略》),刘知几所谓“《尚书》古文,《六经》之冠冕也”(《史通•鉴识》)。此人是谁?谁能有此移山倒海之力,灵通造化之巧!

(节选自张岩:《审核古文<尚书>案》,中华书局2006年版,第29-33页;标题为整理者所加。)