數(shù)據(jù)時代的詩詞之問
提起大數(shù)據(jù),人們腦海中往往會浮現(xiàn)出自然科學、社會科學、商業(yè)經(jīng)濟等領(lǐng)域應用海量數(shù)據(jù)和復雜算法的場景,而不太會將其與凝聚著文學之美的古典詩詞聯(lián)系起來。仿佛詩詞之美可以被感受、允許被討論,但不能被計算。然而,無論是在學術(shù)研究中,還是出于閱讀好奇,我們常會碰到這樣的問題:
古代各朝有多少詩人?多少女詩人?唐人和宋人哪個更愛寫格律詩?宋詞有多少詞牌?哪個詞牌最受詞人歡迎?《唐詩三百首》中誰的詩最多?李白與杜甫誰的影響大?唐人七律第一,該頒給崔顥的《黃鶴樓》還是杜甫的《登高》?周邦彥和姜夔誰的音樂水平更高?李白“一生好入名山游”,蘇軾“身行萬里半天下”,他們到底走了多少地方……
這些問題,有的需要統(tǒng)計數(shù)據(jù)來作答,有的看似屬于藝術(shù)判斷,實際也需要科學邏輯和數(shù)學思維來支撐,有的問題目的不在數(shù)量多寡而在具體內(nèi)容。信息時代的數(shù)據(jù)思維,給我們認知古典詩詞新辟了一扇窗。數(shù)據(jù)可以是量化的數(shù)值,也可以是非量化的信息。無論哪種數(shù)據(jù),都有各自的價值和使用場景。
詩詞中的量化數(shù)據(jù)及其作用
傳統(tǒng)意義上的數(shù)據(jù),指“有根據(jù)的數(shù)字”,比如靠樣本統(tǒng)計獲得的量化數(shù)據(jù)。一個時代或者一個地區(qū)的存詩總量、作家人數(shù),或者一位作家的經(jīng)行地方、創(chuàng)作的某體數(shù)量,或者一個選本的選人數(shù)量、作品數(shù)量,一個詞牌的使用次數(shù)、使用人數(shù),一首詩詞在歷代選本中的入選次數(shù)、被歷代作家唱和的次數(shù)等,都屬于量化數(shù)據(jù)。
量化數(shù)據(jù)可以在樣本范圍內(nèi)準確描述研究對象的基本格局。以著名選本《唐詩三百首》為例,蘅塘退士從兩千多位唐代詩人的五萬多首唐詩中,精選出77家的312首詩分體編成。各體選詩數(shù)量為:五古32首、七古28首、五律80首、七律53首、五絕29首、七絕51首、樂府39首。從占比看,古體詩和格律詩的比例近乎一比二。其中五古選詩最多的是中唐詩人韋應物(7首),七古選詩最多的是杜甫和李頎(各5首),五律選詩最多的是杜甫(10首),王維和孟浩然次之(各9首),七律選詩最多的是杜甫(13首),李商隱次之(10首),五絕選詩最多的是王維(5首),七絕選詩最多的是杜牧和李商隱(各7首)。而李白入選的作品大多在樂府(12首)。從選人看,入選率最高的前四位是:杜甫39首、李白29首、王維29首、李商隱24首??梢娛⑻圃娙俗钍芡瞥纭6鸥Σ粌H是入選率最高的詩人,也是入選作品覆蓋七種詩體的全能型詩人。而在唐代存詩量最多的詩人白居易僅6首作品入選。
這些數(shù)據(jù),既能體現(xiàn)作家的創(chuàng)作特點和時代地位,也能反映選家的審美偏好和詩體觀念。有的選本流傳廣遠,甚至能夠影響一代讀者的詩詞審美。如果將統(tǒng)計樣本橫向擴大到其他選本,可考察歷代選本的選詩標準和變化特點;如果縱向聚焦某位詩人或相關(guān)詩作,還可考察詩人在不同時代的影響力和名篇的穩(wěn)定性。
▲《唐詩三百首》書影。
量化數(shù)據(jù)還能為難以公斷的某些學術(shù)判斷提供思路和科學支撐。以文學經(jīng)典研究為例,“唐人七律第一”是個自古聚訟的話題,“李杜優(yōu)劣論”也歷史悠久。誠然,藝術(shù)審美是一種個性化、主觀化的體驗,很難為審美尋求一份標準,也不必建立這樣的標準。但在學術(shù)研究中,可以通過“影響力研究”為經(jīng)典作家和經(jīng)典作品尋求一種評價方式。衡量一部影視作品的影響力,可以考察其獲獎級別、評分情況、重播次數(shù)、相關(guān)活動等。衡量一首詩詞的影響力,也可以通過一系列“指標”來分析,比如選本對于詩詞的流傳影響深遠,評點也能體現(xiàn)詩詞在專業(yè)領(lǐng)域的關(guān)注度,語文教材常常塑造著青少年的詩詞印象,文學史則在很大程度上定位了作品的級別。指標有了,再選取一些合適的樣本對指標量化,并結(jié)合計量科學的特點和文學研究的實際,對數(shù)據(jù)進行統(tǒng)計計算,就可以在比較客觀的前提下得出相對理性的結(jié)果。數(shù)十年前,王兆鵬教授等專家學者的《尋找經(jīng)典——唐詩百首名篇的定量分析》《影響的追尋:宋詞名篇的定量分析》《唐詩排行榜》《宋詞排行榜》等論著,就是基于影響力分析的計量研究成果。
例如在《唐詩排行榜》中,位列榜首的作品是崔顥《黃鶴樓》,這多少有點令人驚訝。再考察其各項指標,會發(fā)現(xiàn)這首詩在列入統(tǒng)計樣本的33種古代選本中入選率最高,被歷代詩論家品評的頻次也最高,當代文學史更是無一漏收??梢哉f,是古今詩選家、詩論家以及文學史的編撰者共同的認可,將這首詩送至榜首。數(shù)據(jù)背后的信息,還能啟發(fā)我們考察不同時期詩選家和詩論家對同一首詩歌的關(guān)注度,從而用歷史性、階段性的眼光來看待經(jīng)典的形成過程。這種通過設定指標來量化分析研究對象的思維和做法,比主觀好惡的感受更加科學、公允。
▲《唐詩排行榜》書影。
詩詞中的屬性數(shù)據(jù)及其價值
進入信息時代,“數(shù)據(jù)”的內(nèi)涵也在擴大,而不僅指代“數(shù)字”。就詩詞而言,還包括反映詩詞某類屬性的文本或信息,稱之為屬性數(shù)據(jù)。一首詩詞的作者、標題、詩體、詞體、題材、意象、時間、空間,一個作家的姓名、字號、郡望、籍貫、出生地、生卒年、家庭成員、朋友同僚、社會身份,甚至一首格律詩的韻字、對仗,一闋詞的詞牌、詞格,都是詩詞的屬性數(shù)據(jù)。
屬性數(shù)據(jù)可為量化數(shù)據(jù)提供計量基礎(chǔ)。前文所述各類統(tǒng)計數(shù)值,如某種詩體的數(shù)量、某地作家的數(shù)量、某個詞牌的使用次數(shù)等,都基于相關(guān)屬性的先行標注。屬性數(shù)據(jù)更大的價值在于,可以支撐主題豐富的學習或研究,拓寬詩詞認知的邊界。
以空間屬性為例,詩詞中存在各種各樣的地名,包括詩詞文本中的行政地名、景觀地名、意象地名,以及作品的創(chuàng)作地、流傳地,還有作家的籍貫地、出生地、任職地、行經(jīng)地、謫居地、埋葬地等。比如杜甫《聞官軍收河南河北》一詩,標題中的“河南”“河北”、詩句中的“劍外”“薊北”“巴峽”“巫峽”“襄陽”“洛陽”、原詩自注“余家園在東京”中的“東京”等地名,加上這首詩的寫作地點“四川省綿陽市三臺縣”,這些地名指示的地理位置,攜帶的歷史信息,是理解這首作品詩意和作者情感的關(guān)鍵。
詩詞中的地名信息,有的比較顯而易見,有的需要深度挖掘,有的涉及到懸而未決的學術(shù)問題。但長期以來,文學研究中空間觀念相對單薄,導致作家年譜的編撰和作品的編年箋注工作,大多重視時序的編排,比較忽略地點的落實。在文學審美中,地名也常被當作專有名詞對待,而沒有釋放出蘊含的能量,發(fā)揮應有的作用。這與歷史研究中的時空一體觀,很不相稱?;谶@種狀況,近年來王兆鵬教授主持的“唐宋文學編年地圖”,將空間屬性提高到和時間屬性同等重要的地位,大量挖掘并標記作家及作品中的各類空間屬性數(shù)據(jù),并融合歷史地理數(shù)據(jù),運用GIS技術(shù)繪制了唐宋詩人的軌跡地圖,實現(xiàn)了年譜的地圖化、作品的空間化。
▲“唐宋文學編年地圖”之“蘇軾行跡圖”。
一串串地名,將蘇軾從出生、科舉、仕宦、貶謫到去世的人生連接成線,將他的詩詞文賦、書畫創(chuàng)作、平生交游、宦海沉浮,在地圖上劃出一條獨特的東坡印跡。通過這條印跡,讀者不僅可以瀏覽蘇軾一生所有編年作品、大事小事,也能清楚指出“黃州惠州儋州”,更會對蘇軾“身行萬里半天下”、“九死南荒吾不恨”、“一蓑煙雨任平生”的詩句詞句,產(chǎn)生別樣體會。關(guān)注詩詞中的空間信息和地名數(shù)據(jù),可幫助讀者充分了解作家、解讀作品,讀出背后的信息、情感、美感。
詩詞中的地名隱藏著許多歷史地理信息,了解這些信息既能輔助詩歌編年系地,還可鍛煉讀者嚴謹?shù)目茖W思維和問題意識。例如,詩詞中的古今地名問題。以李白《陪宋中丞武昌夜飲懷古》為例,標題中的“武昌”是個歷史地名,想知道其確切所指,要查閱地理文獻中“武昌”的地名演變。根據(jù)唐代李吉甫《元和郡縣圖志》和清代顧祖禹《讀史方輿紀要》等文獻可知,盛唐時期的“武昌”,仍指三國時期孫權(quán)改鄂縣立武昌郡之“古武昌”,即今天湖北省鄂州市地區(qū)。而被今天武漢三鎮(zhèn)之“武昌”所用,始于中唐元和年間設立“武昌軍”。李白筆下的“武昌”,只能是今天湖北省鄂州市,而不是武漢市。那么盛唐詩人如何指稱武漢呢?答案是“江夏”或者“夏口”。李白《江夏送友人》,王維《送康太守》中的“鐃吹發(fā)夏口”,所指皆武漢。中唐以后,武昌地名兩用,如詩人劉長卿的詩句“上下武昌城,長江竟何有”。宋人為作區(qū)分,有時仍以“夏口”古地名指稱上游的“武昌”,如蘇軾《赤壁賦》中“西望夏口,東望武昌”。關(guān)注詩詞中的古今地名,可以拓展思維。
除了地名數(shù)據(jù),詩詞中的意象、物象、天象、氣象、語典、事典、格律、音韻等數(shù)據(jù),每一類都有獨特內(nèi)涵和意蘊,都可衍生出相關(guān)話題或研究。數(shù)據(jù)創(chuàng)新可以激發(fā)思維創(chuàng)新,這正是屬性數(shù)據(jù)的巨大魅力。
詩詞中的大數(shù)據(jù)
人們常用大容量、多類型、獲取速度快、真實性、非結(jié)構(gòu)化等特點來描述大數(shù)據(jù)。但這些特點并不適用于所有領(lǐng)域,各個領(lǐng)域?qū)Α按蟆钡亩x并不相同。
詩詞中的大數(shù)據(jù),首先反映在數(shù)據(jù)的體量或容量上。以搜韻網(wǎng)所收古典詩詞為例,目前已收錄先秦以來古典詩詞107萬余首,如果完善明清兩朝的作品,數(shù)量當突破兩百萬。僅從目前一百多萬詩詞作品中,就可提取出時間數(shù)據(jù)58萬多條、地名數(shù)據(jù)近80萬條、植物數(shù)據(jù)近40萬條、官職數(shù)據(jù)約35萬條、景觀數(shù)據(jù)54萬條、人物數(shù)據(jù)117萬條,合計約四百萬,這還不包括句例數(shù)據(jù)、詞匯數(shù)據(jù)和字數(shù)據(jù)。盡管這些數(shù)據(jù)的體量與互聯(lián)網(wǎng)經(jīng)濟領(lǐng)域動輒以“太字節(jié)”(240)計量的數(shù)據(jù)不可同日而語,但早已超出人的閱讀極限和腦力手工的邊界。
除了表面的“大容量”,詩詞中的大數(shù)據(jù),更體現(xiàn)在“大價值”上。詩詞中的數(shù)據(jù)價值,一方面來自數(shù)據(jù)本身,包括數(shù)據(jù)精度高、粒度細。從前文所述類型豐富指稱具體的地名數(shù)據(jù)可見一斑。再舉對仗數(shù)據(jù)為例。由于律詩要求中間兩聯(lián)對仗,所以包含大量對仗詞匯。計算機從39.3萬首律詩和1.5萬首排律中,可以獲取單字、雙字和三字對仗詞匯約265萬對。從這些數(shù)據(jù)中篩選出頻率高的對仗詞匯,并根據(jù)對仗的遞推特點,可以從任何一個對仗詞匯開始,逐級逐詞呈現(xiàn)出一張縱橫衍伸的對語鏈。下圖是以“清風”為詞根的對語鏈示意。這樣的對語鏈,既能輔助古典詩詞創(chuàng)作者參考古人詩句選取對仗詞匯,也能輔助語言學者的相關(guān)研究。
▲搜韻網(wǎng)對語鏈。
詩詞中的數(shù)據(jù)價值,另一方面來自于數(shù)據(jù)的交換、整合和分析。以唐宋詩人生平數(shù)據(jù)為例,其數(shù)據(jù)精度高、粒度小,但體量不算大,屬于小而精的數(shù)據(jù)。但當這小數(shù)據(jù)與其他數(shù)據(jù)整合時卻能產(chǎn)生大價值。比如與作品數(shù)據(jù)整合,能清晰呈現(xiàn)作家人生經(jīng)歷和文學創(chuàng)作的關(guān)系;與歷史地理數(shù)據(jù)整合,能將作家的一生行蹤在地圖上加以呈現(xiàn);與古代山川驛路等交通數(shù)據(jù)整合,則有雙向的效果,既能為古代交通線路的考察提供重要信息,又能更加細化作家行跡路線;當作家的個人行跡數(shù)據(jù)在縱向上日益修訂而完善,在橫向上突破唐宋不斷積累形成古今詩人行跡數(shù)據(jù),疊加這些行跡還可折射不同時期中心文化城市的變遷現(xiàn)象。
▲唐宋各時期328位文人移動軌跡圖。(圖片來源:應申等《基于唐宋文人足跡集聚性分析的中心文化城市變遷》,《地球信息科學學報》,2020年第5期)
無論是量化數(shù)據(jù),還是屬性數(shù)據(jù),數(shù)據(jù)的本質(zhì)都是信息。當用數(shù)據(jù)思維認知古典詩詞,會發(fā)現(xiàn)數(shù)據(jù)存在之廣、傳達信息之多,遠超想象。培養(yǎng)詩詞閱讀和詩詞研究時的數(shù)據(jù)思維,鍛煉數(shù)據(jù)敏感度,會讀出更多的詩詞風景。
作者簡介:
邵大為,中南民族大學文學與新聞傳播學院青年教師、數(shù)字人文資源研究中心主任助理、黃鶴樓文化顧問。主要研究領(lǐng)域為古代文學、文學景觀、數(shù)字人文。主持教育部人文社科青年項目《宋代方志中的文學景觀研究與數(shù)據(jù)庫建設》。在《中國社會科學》《光明日報》《中南民族大學學報》《江漢論壇》等報刊發(fā)表論文多篇。
來源:“道中華”微信公眾號
作者:邵大為
編輯:劉雅
流程·制作:韓東峻
訂閱下載:2025年《中國民族》雜志訂閱單