张岩：从字频特征看“伪”古文《尚书》不伪经学研究

张岩：从字频特征看“伪”古文《尚书》不伪

作者: 张岩发布时间: 2023-05-05

《尚书》今古文篇章合计约24600字，去其重复，约使用1900余字。某些字在不同时代和文献中的用字量（现代语言学研究中所谓“字频”）明显不同，这与不同时期、不同文献的具体内容、语法习惯和撰写风格有关。在文献长期流传和古今字体的转换中会出现少量改字，但不会影响用字量不同的整体情况。我曾专门作过一次检索和对比分析，检索范围是《尚书》和先秦两汉另外二十余种参照文献（《诗经》《逸周书》《周易》《周礼》《国语》《左传》《论语》《孟子》《荀子》《礼记》《管子》《晏子春秋》《墨子》《老子》《列子》《庄子》《鹖冠子》《韩非子》《吕氏春秋》《春秋繁露》《淮南子》《新书》《说苑》《论衡》《史记》《汉书》等）。

具体步骤是先通过初步判断选出500余字，在上述每种文献中检索这500余字中每个字的出现次数，再换算成每个字在每种文献中的万字含量，然后在万字含量的一万多个数据间进行对比，选出《尚书》与其他参照文献万字含量（或多或少）明显不同的108个字，姑且称其焉“《尚书》用字量特征字群”。这108个字多是《尚书》中的常用字，其重复使用数量约占《尚书》总篇幅三分之一，其中“多字组”（100字）万字含量比其他参照文献万字含量平均多出一倍以上（5:1）,“少字组”（8字）万字含量比其他参照文献平均少一倍以上（1:2.9）；在今文篇章和古文篇章之间进行对比，这108个字在二者间的平均万字含量基本一致（今文47%:53%古文）。

先说“多字组”情况。比如：

（1）“乃”字，在《尚书》中万字含量是148字，在参照文献中万字含量是26字，在古文和今文篇章之间万字含量的比例是 142字：150字。

（2）“惟”字，《尚书》万字含量是263字，参照文献是2字，古今文篇章之间比例是：330字：233字。

（3）“永”字，《尚书》万字含量是20字，参照文献是1字，古今文篇章之间比例是：24字：19字。

（4）“若”字，《尚书》万字含量是69字，参照文献是20字，古今文篇章之间比例是：68字：69字。

（5）“厥”字，《尚书》万字含量是129字，参照文献是2字，古今文篇章之间比例是：157字：117字。

（6）“作”字，《尚书》万字含量是58字，参照文献是10字，古今文篇章之间比例是：58字：58字。

在两汉魏晋间文献中，“多字组”文字（如：畴、诞、怠、孚、厥、缉、克、暨、佥、懋、惟、询、矧、允、攸、愆、爰等）的出现次数一方面明显少于《尚书》，另一方面大多出现于前面提到具有明显 “拟古文风”的书写场合，其前后文多有“引文”、“用文”现象（或其本身便在引文、用文中）。这里也有两种可能，一是作伪者刻意实现了这种“天衣无缝”的作伪效果；二是今古文篇章都是真文献，故用字量特征相同。

为实现这种效果，作伪者（如果真有这么一个人）在“伪造”古文篇章过程中，每三个字中要考虑一个字的万字含量，使其出现率同步于今文篇章。为此，他必须对“《尚书》用字量特征字群”在先秦两汉文献中的万字含量有一个比较凖确的了解。我完成上述检索过程，虽借助计算机的文文件检索功能（word“替换”），仍然用了三个多月（每天工作十小时以上），极其单调繁琐。

如果不借助计算机检索的字数统计功能，完成此过程要对总篇幅几百万字的几十种文献一丝不苟地阅读（统计）几百遍，还要将由此获得的上万个数据经过两步计算（某字在某文献中的出现次数÷该文献总字数×10000）转换为万字含量。从收集文献到完成阅读统计和换算，仅此一项，以一人之力至少要用二十余年时间。据我所知，“字频统计”是近代以来语言学研究中比较新颖的方法，随着计算机的普及逐渐被研究者采用。我国古文献研究中采用这种方法更晚一些。魏晋之间也就是一千七八百年前那位“作伪者”居然能够娴熟使用这项如此晚近的研究方法，这可能吗？

作伪者最难实现的效果之一，是古文篇章“少字组”文字（行可相则能所之为）的出现率同步于今文篇章。因为，其中一些字在《尚书》中的出现率较高，在参照文献中的出现率更高，需要在“较高”和“更高”之间拿捏分寸。比如：

（1）“之”字，在《尚书》中的万字含量是137字，在参照文献中的万字含量是367字，在古文和今文篇章之间万字含量的比例是141字：136字。

（2）“可”字，《尚书》万字含量13字，参照文献是40字，古今文篇章之间比例是：14字：13字。

（3）“焉”字，《尚书》万字含量22字，参照文献是127字，古今文篇章之间比例是：24字：21字。

（4）“所”字，《尚书》万字含量5字，参照文献是54字，古今文篇章之间比例是：5字：5字。

再补进两个例子：

（1）“者”字，《尚书》万字含量2字，参照文献是115字，古今文篇章之间比例是：7字：1字。

（2）“也”字，《尚书》万字含量0字，参照文献是170字，古今文篇章之间比例是：0字：0字。

完成上述凖确的“字频作伪”要有一个前提条件，也就是在“作伪”之前预先确定“伪书”的篇幅，然后才有条件实施“作伪”过程，还要伪造出“无一字无出处”的效果。实现这様的作伪过程和效果几乎不可能，故后一种情况的可能性远高于前者。从古文篇章“多字组”（100字）万字含量的平均值略高于今文篇章（35字：31字）、“少字组”（8字）万字含量的平均值略低于今文篇章（31字：33字）的情况看，古文篇章的保存质量应略好于今文篇章。这应是古文篇章行文更加流畅一些的原因之一。

按本书前面已经提到，今文《尚书》中也有一些文从字顺的篇章，具体如《尧典》《舜典》《皋陶谟》《益稷》《禹贡》《洪范》《吕刑》等，真正“艰涩难晓”的祇有殷盘周诰等十余篇。也就是说，吴棫、朱熹的“怀疑起点”本身存在逻辑问题，其提出怀疑的推理过程不能成立。

我的基本结论是：“作伪”难度太高，高到不可能实现的程度。从人量文献的搜集，到引文、用文的查找；从上百个罕见词语的查寻采用，到文化、制度方面的理解归纳和融会贯通；从搞清先秦两汉文献与今文《尚书》之间字频不同，到“伪造”过程中拼凑引文和“字频勾兑”。如此这般“伪造”的二十五篇不仅没有明显缀辑痕迹，且文采尤富于今文。其工程量之大，非一人一世所能及。其道德文章，是黄钟大吕，绝世风华。刘勰所谓“义固为经，文亦师矣”（《文心雕龙•才略》），刘知几所谓“《尚书》古文，《六经》之冠冕也”（《史通•鉴识》）。此人是谁？谁能有此移山倒海之力，灵通造化之巧!

（节选自张岩：《审核古文<尚书>案》，中华书局2006年版，第29-33页；标题为整理者所加。）