張岩:從字頻特徵看“偽”古文《尚書》不偽

作者: 張岩   發布時間: 2023-05-05

《尚書》今古文篇章合計約24600字,去其重復,約使用1900餘字。某些字在不同時代和文獻中的用字量(現代語言學研究中所謂“字頻”)明顯不同,這與不同時期、不同文獻的具體內容、語法習慣和撰寫風格有關。在文獻長期流傳和古今字體的轉換中會出現少量改字,但不會影響用字量不同的整體情況。我曾專門作過一次檢索和對比分析,檢索範圍是《尚書》和先秦兩漢另外二十餘種參照文獻(《詩經》《逸周書》《周易》《周禮》《國語》《左傳》《論語》《孟子》《荀子》《禮記》《管子》《晏子春秋》《墨子》《老子》《列子》《莊子》《鶡冠子》《韓非子》《呂氏春秋》《春秋繁露》《淮南子》《新書》《說苑》《論衡》《史記》《漢書》等)。

具體步驟是先通過初步判斷選出500餘字,在上述每種文獻中檢索這500餘字中每個字的出現次數,再換算成每個字在每種文獻中的萬字含量,然後在萬字含量的一萬多個數據間進行對比,選出《尚書》與其他參照文獻萬字含量(或多或少)明顯不同的108個字,姑且稱其焉“《尚書》用字量特徵字群”。這108個字多是《尚書》中的常用字,其重復使用數量約占《尚書》 總篇幅三分之一,其中“多字組”(100字)萬字含量比其他參照文獻萬字含量平均多出一倍以上(5:1),“少字組”(8字)萬字含量比其他參照文獻平均少一倍以上(1:2.9);在今文篇章和古文篇章之間進行對比,這108個字在二者間的平均萬字含量 基本一致(今文47%:53%古文)。

先說“多字組”情況。比如:

(1)“乃”字,在《尚書》中萬字含量是148字,在參照文獻中萬字含量是26字,在古文和今文篇章之間萬字含量的比例是 142字:150字。

(2)“惟”字,《尚書》萬字含量是263字,參照文獻是2字,古今文篇章之間比例是:330字:233字。

(3)“永”字,《尚書》萬字含量是20字,參照文獻是1字,古今文篇章之間比例是:24字:19字。

(4)“若”字,《尚書》萬字含量是69字,參照文獻是20字,古今文篇章之間比例是:68字:69字。

(5)“厥”字,《尚書》萬字含量是129字,參照文獻是2字,古今文篇章之間比例是:157字:117字。

(6)“作”字,《尚書》萬字含量是58字,參照文獻是10字, 古今文篇章之間比例是:58字:58字。

在兩漢魏晉間文獻中,“多字組”文字(如:疇、誕、怠、孚、厥、緝、克、暨、僉、懋、惟、詢、矧、允、攸、愆、爰等)的出現次數一方面明顯少於《尚書》,另一方面大多出現於前面提到具有明顯 “擬古文風”的書寫場合,其前後文多有“引文”、“用文”現象(或其本身便在引文、用文中)。這裏也有兩種可能, 一是作偽者刻意實現了這種“天衣無縫”的作偽效果;二是今古文篇章都是真文獻,故用字量特徵相同。

為實現這種效果,作偽者(如果真有這麽一個人)在“偽造”古文篇章過程中,每三個字中要考慮一個字的萬字含量,使其出現率同步於今文篇章。為此,他必須對“《尚書》用字量特徵字群”在先秦兩漢文獻中的萬字含量有一個比較凖確的瞭解。我完成上述檢索過程,雖借助電腦的文檔檢索功能(word“替換”),仍然用了三個多月(每天工作十小時以上),極其單調繁瑣。

如果不借助電腦檢索的字數統計功能,完成此過程要對總篇幅幾百萬字的幾十種文獻一絲不苟地閱讀(統計)幾百遍,還要將由此獲得的上萬個數據經過兩步計算(某字在某文獻中的出現次數÷該文獻總字數×10000)轉換為萬字含量。從收集文獻到完成閱讀統計和換算,僅此一項,以一人之力至少要用二十餘年時間。據我所知,“字頻統計”是近代以來語言學研究中比較新穎的方法,隨著電腦的普及逐漸被研究者採用。我國古文獻研究中採用這種方法更晚一些。魏晉之間也就是一千七八百年前那位“作偽者”居然能夠嫺熟使用這項如此晚近的研究方法,這可能嗎?

作偽者最難實現的效果之一,是古文篇章“少字組”文字(行可相則能所之為)的出現率同步於今文篇章。因為,其中一些字在《尚書》中的出現率較高,在參照文獻中的出現率更高,需要在“較高”和“更高”之間拿捏分寸。比如:

(1)“之”字,在《尚書》中的萬字含量是137字,在參照文獻中的萬字含量是367字,在古文和今文篇章之間萬字含量的比例是141字:136字。

(2)“可”字,《尚書》萬字含量13字,參照文獻是40字,古今文篇章之間比例是:14字:13字。

(3)“焉”字,《尚書》萬字含量22字,參照文獻是127字,古今文篇章之間比例是:24字:21字。

(4)“所”字,《尚書》萬字含量5字,參照文獻是54字,古今文篇章之間比例是:5字:5字。

再補進兩個例子:

(1)“者”字,《尚書》萬字含量2字,參照文獻是115字,古今文篇章之間比例是:7字:1字。

(2)“也”字,《尚書》萬字含量0字,參照文獻是170字,古今文篇章之間比例是:0字:0字。

完成上述凖確的“字頻作偽”要有一個前提條件,也就是在“作偽”之前預先確定“偽書”的篇幅,然後才有條件實施“作偽”過程,還要偽造出“無一字無出處”的效果。實現這様的作偽過程和效果幾乎不可能,故後一種情況的可能性遠高於前者。從古文篇章“多字組”(100字)萬字含量的平均值略高於今文篇章(35字:31字)、“少字組”(8字)萬字含量的平均值略低於今文篇章(31字:33字)的情況看,古文篇章的保存質量應略好於今文篇章。這應是古文篇章行文更加流暢一些的原因之一。

按本書前面已經提到,今文《尚書》中也有一些文從字順的篇章,具體如《堯典》《舜典》《皋陶謨》《益稷》《禹貢》《洪範》《呂刑》等,真正“艱澀難曉”的祇有殷盤周誥等十餘篇。也就是說,吳棫、朱熹的“懷疑起點”本身存在邏輯問題,其提出懷疑的推理過程不能成立。

我的基本結論是:“作偽”難度太高,高到不可能實現的程度。從人量文獻的搜集,到引文、用文的查找;從上百個罕見詞語的查尋採用,到文化、制度方面的理解歸納和融會貫通;從搞清先秦兩漢文獻與今文《尚書》之間字頻不同,到“偽造”過程中拼湊引文和“字頻勾兌”。如此這般“偽造”的二十五篇不僅沒有明顯綴輯痕跡,且文采尤富於今文。其工程量之大,非一人一世所能及。其道德文章,是黃鍾大呂,絕世風華。劉勰所謂“義固為經,文亦師矣”(《文心雕龍•才略》),劉知幾所謂“《尚書》古文,《六經》之冠冕也”(《史通•鑒識》)。此人是誰?誰能有此移山倒海之力,靈通造化之巧!

(節選自張岩:《審核古文<尚書>案》,中華書局2006年版,第29-33頁;標題為整理者所加。)