發(fā)布時間:2021-03-04所屬分類:文史論文瀏覽:1次
摘 要: 摘要:地名凝結(jié)了區(qū)域文化及歷史過程,蘊涵豐富的文化信息。如何挖掘地名文化信息是一個有趣又重要的問題。結(jié)合文本知識、專業(yè)知識、先驗知識、專家知識與第二次全國地名普查成果數(shù)據(jù),通過建立知識庫及提取規(guī)則,采用數(shù)據(jù)制圖、模型制圖、知識制圖等制圖方
摘要:地名凝結(jié)了區(qū)域文化及歷史過程,蘊涵豐富的文化信息。如何挖掘地名文化信息是一個有趣又重要的問題。結(jié)合文本知識、專業(yè)知識、先驗知識、專家知識與第二次全國地名普查成果數(shù)據(jù),通過建立知識庫及提取規(guī)則,采用數(shù)據(jù)制圖、模型制圖、知識制圖等制圖方法實現(xiàn)中國大陸方言地名、地名通名制圖。結(jié)果表明,制圖結(jié)果可以得到相關(guān)地名的空間分布范圍,揭示區(qū)域地名通名的高頻詞匯特征,可以為區(qū)域地名管理、規(guī)劃、保護與利用提供知識支撐。
關(guān)鍵詞:地名;地名普查;數(shù)據(jù)制圖;模型制圖;知識制圖
地名是人們賦予某一特定空間位置上自然或人文地理實體的專有名稱。它記載著民族興衰、社會變遷、經(jīng)濟生產(chǎn)、軍事活動和地理環(huán)境變化等多維度信息[1,2],具有承載、積淀和傳播文化信息的功能,是歷史的見證者和“活化石”[3]。人們可以從地名中分析和挖掘諸多直接或間接的豐富的自然和文化知識[4,5]。地名的基本屬性包含“音、形、意、位、類”,分別指地名的讀音、字形、含義、位置及類型[6,7]。地名既具有個體屬性,也具有群體屬性。地名的形成和發(fā)展與語言、地理、社會、政治、歷史、經(jīng)濟、軍事、交通、民族、文化和風俗等要素有著密切關(guān)聯(lián)。因此,長期以來,國內(nèi)外地名個體的含義及文化價值研究較為活躍,主要包括地名的來歷、內(nèi)涵、演變、通名考證、區(qū)域特征等。例如,Mailhammer[8]以歐洲和澳大利亞為例,通過地名中保存的語言元素痕跡對特定地區(qū)的語言進行歷史推斷;Buharova[9]探究了地方方言在研究區(qū)域地名形成和演變過程中所起的重要作用。然而,地名作為蘊含類別的知識集合體,其群體屬性(如空間聚集特征和空間分布特征)的研究較為沉寂。盡管近年來陸續(xù)出現(xiàn)了相關(guān)研究,如壯語地名空間分布[10,11]、區(qū)域地名分布等[12,13],但受限于數(shù)據(jù)與方法,中國全國范圍內(nèi)的相關(guān)研究較少。
地圖是地理學的第二語言,具有感知功能、載體功能和認知功能[14]。隨著科技進步和社會需求變化,地圖的功能也發(fā)生漂移,最重要的是地圖的空間分析功能[15]。基于地圖認知,目前地圖制圖方法主要包含意念制圖、經(jīng)驗制圖、數(shù)據(jù)制圖、模型制圖和知識制圖等[16-18]。其中,數(shù)據(jù)制圖是指根據(jù)所得數(shù)據(jù)(測繪數(shù)據(jù)或統(tǒng)計數(shù)據(jù))直接編制地圖;模型制圖是指針對專題,利用專業(yè)數(shù)學模型計算得到專題圖;知識制圖是指將通過知識推理或數(shù)據(jù)分析得到的新的結(jié)論、空間格局、地理界線等反映到地圖上。借助地圖的功能和對地名的認知,人們可以利用地圖制圖方法和技術(shù)深入挖掘和分析地名的群體屬性特征,及其所蘊含的自然和人文地理實體的時空演化特征和規(guī)律。比如,開展地名數(shù)據(jù)制圖(統(tǒng)計制圖和空間統(tǒng)計制圖)、地名模型制圖和地名知識制圖等的研究和應用。近年來,相關(guān)學者基于地學信息圖譜理論開展了系列地名信息圖譜方面的研究和應用[7,19]。Frajer等[20]使用地名地理信息系統(tǒng)制圖探索了地名的空間分布和相互關(guān)系,并將其應用于退化水體的識別。
第二次全國地名普查共獲得1300萬余條數(shù)據(jù),內(nèi)容不僅包括地名含義、來歷、位置、讀音等文本信息,還包含聲音、圖像等多媒體信息,這些信息構(gòu)成了內(nèi)涵豐富的地名大數(shù)據(jù)。本文以第二次全國地名普查成果數(shù)據(jù)庫為基礎(chǔ),構(gòu)建地名知識庫與關(guān)聯(lián)規(guī)則,提取專題地名集合,開展了地名數(shù)據(jù)制圖、地名模型制圖和地名知識制圖的應用研究,進一步揭示了隱含在地名背后的規(guī)律與知識,挖掘地名數(shù)據(jù)并進行地名制圖,為地名學研究提供了新方法。其成果既可以為歷史地理學、社會學、政治學等研究提供知識支撐,也可以為地名保護、規(guī)劃與利用提供決策支持,對促進區(qū)域地方認同、增進民族文化自信具有重要意義。
1地名制圖的流程和方法
1.1地名制圖流程
地名制圖技術(shù)流程如圖1所示。地名數(shù)據(jù)層主要包含原始的地名數(shù)據(jù)庫、文獻典籍、專家知識、先驗知識等。其中地名數(shù)據(jù)庫包含地名、歷史沿革、來歷含義等幾十個字段;專家知識是地名專家對地名知識的總結(jié);先驗知識為已經(jīng)發(fā)布的各類與地名相關(guān)的知識。對地名數(shù)據(jù)按規(guī)則抽取,實現(xiàn)地名數(shù)據(jù)到地名信息的轉(zhuǎn)換。對地名大數(shù)據(jù)進行統(tǒng)計,得到通名、專名高頻詞;從相關(guān)先驗知識、專家知識中提取地名文化特征字詞,形成地名文化特征庫,并建立簡易提取規(guī)則,開發(fā)提取工具,結(jié)合配置文件,實現(xiàn)專題地名信息數(shù)據(jù)集抽取。然后,將得到的地名信息集合進行關(guān)聯(lián)規(guī)則驗證,進一步更新地名基礎(chǔ)信息庫或進行地名制圖。
地名制圖主要包括數(shù)據(jù)制圖、模型制圖與知識制圖。地名數(shù)據(jù)制圖直接提取地名數(shù)據(jù),按統(tǒng)計單元進行統(tǒng)計,將相應結(jié)果進行制圖,如通名、專名統(tǒng)計頻次圖和地名詞云圖等。地名模型制圖是對相應數(shù)據(jù)進行空間分布分析及數(shù)學建模后實現(xiàn)制圖。地名知識制圖是通過知識推理,或基于空間統(tǒng)計分析模型(如空間聚集分析)的地名知識發(fā)現(xiàn),將所獲得的地名空間分布的新知識繪制于地圖上。
1.2地名知識庫的構(gòu)建
地名知識庫包含了某類地名知識的關(guān)鍵特征字詞。基于知識庫,結(jié)合提取規(guī)則,可以提取能夠表達特定知識的地名數(shù)據(jù)集合。例如,以“厝”結(jié)尾的地名在閩方言區(qū)大量存在,通過考察含有該關(guān)鍵字的地名分布特征,同時結(jié)合方言地理分區(qū)知識,綜合推斷得到閩方言分布的大致范圍。閩方言地名部分特征字見表1。
本文依據(jù)專家知識、先驗知識等,先后建立了6種方言(客家方言、閩方言、粵方言、吳方言、湘方言、贛方言)和4種少數(shù)民族語(壯語、藏語、維吾爾語、蒙古語)地名知識庫,限于篇幅,其他地名知識庫不再一一列出。
1.3提取規(guī)則和關(guān)聯(lián)規(guī)則驗證
1)提取規(guī)則。提取特定類別的地名信息需要遵循一定的規(guī)則。地名所反映的文化知識不僅局限于地名自身,也同地名背后的歷史沿革、來歷、含義及重大事件等屬性信息密切相關(guān)。可以通過地名提取文化信息,也可以通過挖掘地名屬性獲得隱含文化信息[21]。例如,紅色地名是指與革命事件相關(guān)的地名,此類地名信息大部分只能在地名相關(guān)的歷史沿革、重大事件等地名屬性中提取。因此,需要依賴提取規(guī)則才能自動化獲取完整專題地名。
規(guī)則通常根據(jù)先驗知識、專家知識進行制定。常見提取規(guī)則包括“前置匹配”“后置匹配”“包含”3種。“前置匹配”是指將地名特征字進行前置匹配,“后置匹配”是指將地名特征字進行后置匹配,“包含”則表示特征字包含在地名或地名來歷、地名含義等字段中。例如,壯侗語系地名一般含有“那”“羅”“老”等特征字,如“那溝”“那谷”“羅浮山”“老唐”等,特征字位置一般位于地名的頭部,屬于“前置匹配”。此外,有些特征字詞要與其他字詞組合才能表達某類信息,如姓氏地名要考慮姓氏同某些特征詞的結(jié)合情況,如“李家”“李家莊”“李家村”等,以及來歷含義中是否有相關(guān)姓氏。設(shè)置提取規(guī)則后,還需要進一步經(jīng)過關(guān)聯(lián)規(guī)則驗證,通過置信度檢驗,才能進行下一步分析并進行制圖。
2)關(guān)聯(lián)規(guī)則驗證。關(guān)聯(lián)規(guī)則的目的是發(fā)現(xiàn)數(shù)據(jù)項集之間的關(guān)聯(lián)關(guān)系或相關(guān)關(guān)系[22]。地名特征詞關(guān)聯(lián)規(guī)則挖掘,就是挖掘出某類“地名特征字詞”與相應“地名知識”之間的關(guān)聯(lián),如前文所述的“厝”字同閩方言的關(guān)聯(lián),這種關(guān)聯(lián)規(guī)則源自地名基礎(chǔ)知識庫中引入的先驗知識及專家知識,在驗證時只需考察置信度即可。例如,考察含有“王”字的居民點有多少與姓氏相關(guān)時,通過隨機抽樣人工檢驗發(fā)現(xiàn)提取的含有“王”字的居民點地名中有95%與王姓相關(guān),即認為通過該方法提取的數(shù)據(jù)的置信度為95%。本文設(shè)定的置信度為90%。相關(guān)地名數(shù)據(jù)置信度通過檢驗后,可進一步豐富地名基礎(chǔ)知識庫。
2地名制圖案例
2.1地名高效數(shù)據(jù)制圖地名數(shù)據(jù)制圖是根據(jù)提取到的地名數(shù)據(jù)直接進行地圖制圖或進行簡單統(tǒng)計后再進行制圖。地名數(shù)據(jù)制圖能夠反映地名群體的空間分布及結(jié)構(gòu)特征。受數(shù)據(jù)獲取限制,本文暫不包含香港特別行政區(qū)、澳門特別行政區(qū)和臺灣省。
詞云圖主要用于文本大數(shù)據(jù)的高效視覺表達,它是由豐富的字詞組成的彩色圖形,能充分突出文本中的高頻詞和關(guān)鍵信息。本文將詞云圖與行政邊界結(jié)合起來,表示行政區(qū)域內(nèi)某類地名中某字詞的使用頻次。圖2為全國人文地理實體地名通名詞云圖。從圖2中可以看出,地名中“橋”“路”“水庫”“站”“街”等居前列,反映了中國經(jīng)濟社會發(fā)展的建設(shè)成就。圖3為全國自然地理實體通名詞云圖。“山”“嶺”“溝”“河”“坡”等居前列,反映了中國山區(qū)分布廣、地形地貌復雜多樣的特點。
相關(guān)知識推薦:現(xiàn)代測繪期刊投稿怎么樣
比例圖通過計算某類地名在統(tǒng)計單元上的使用比例來反映該類地名的分布范圍、優(yōu)勢區(qū)域。通過比例圖可以直觀看出該類地名在相關(guān)區(qū)域的比例優(yōu)勢。圖4為按普查單元統(tǒng)計的閩方言地名比例圖。通過圖4可以看出閩方言地名的空間分布范圍、優(yōu)勢區(qū)域。
密度圖通過計算提取的某類地名數(shù)量與統(tǒng)計區(qū)域面積之比來反映某類地名在統(tǒng)計區(qū)域的密度特征。圖5為閩方言地名密度圖,可以看出閩方言的分布范圍及相關(guān)界線,且在閩北存在明顯的方言島。
2.2地名模型制圖
地名模型制圖可以針對某專題構(gòu)建數(shù)學模型來解析成因,得到相應的專題圖。以全國熱點地名通名分布影響因素探究為例進行說明。
本文將在全國地名通名中使用頻次排名前十位的10個通名作為全國熱點地名通名。對全國熱點通名進行分析,得到全國層面上的通名使用的主要特征。本文在對全國熱點地名通名空間格局分析的基礎(chǔ)上,進一步構(gòu)建數(shù)學模型,探究其空間分布格局的影響因素。以全國熱點地名通名使用頻次排名第一的“橋”字為例,圖6和圖7分別為對“橋”進行地名通名密度空間分布制圖和影響因素建模分析的結(jié)果。
由圖6可知,地名中“橋”在中國東部、南部地區(qū)的密度較高。由此推測,此分布格局的形成原因可能是這些地區(qū)人口密度大、河流相對較多、經(jīng)濟發(fā)達、交通便利等。
本文選擇人口密度和公路橋梁密度這兩個影響因素,通過構(gòu)建數(shù)學模型,探究了“橋”密度與兩者的定量關(guān)系,擬合結(jié)果如圖7所示。由圖7可知,“橋”密度與人口密度呈指數(shù)關(guān)系,擬合程度R2為0.9031;“橋”密度與公路橋梁密度呈二項式關(guān)系,擬合程度R2達0.9663。這說明“橋”的使用與人口密度和公路橋梁密度密切相關(guān),且所選擇的數(shù)學模型可以較準確地表達出“橋”密度與影響因素之間的函數(shù)關(guān)系。
2.3地名知識制圖
地名知識制圖是將經(jīng)過知識推理和知識發(fā)現(xiàn)獲得的地名空間分布的新知識和新結(jié)論展示在地圖上的一種地名研究方法。本文以自然地理實體類和人文地理實體類地名通名知識制圖為例,研究全國各省(自治區(qū)、直轄市)首位通名的空間分布規(guī)律。首位通名是指各省(自治區(qū)、直轄市)地名通名排行榜中使用頻次最多的通名,高度濃縮了各地區(qū)通名使用特征的知識。繪制首位通名知識地圖,有助于地名研究和管理部門理解通名使用區(qū)域差異規(guī)律。
圖8和圖9直觀展示了自然地理實體類和人文地理實體類首位通名空間分布知識。對于自然地理實體類首位地名,全國主要有兩個聚集區(qū),分別位于“胡煥庸線”東西兩側(cè)。位于“胡煥庸線”西側(cè)的聚集區(qū)主要以“溝”為自然地理實體類首位通名,主要包括內(nèi)蒙古自治區(qū)、山西省、陜西省、寧夏回族自治區(qū)、甘肅省、青海省、新疆維吾爾自治區(qū)及吉林省;位于“胡煥庸線”東側(cè)的聚集區(qū)主要以“山”為自然地理實體類首位通名,主要包括遼寧省、北京市、河北省、山東省、河南省、安徽省、浙江省、福建省、江西省、湖北省、湖南省、重慶市、四川省、貴州省、云南省、廣西壯族自治區(qū)、廣東省。總體來看,全國共有9個省級行政區(qū)以“溝”為自然地理實體類首位通名,18個省級行政區(qū)以“山”為自然地理實體類首位通名。
人文地理實體類首位通名的空間分布格局比自然地理實體類首位通名的復雜,總體可分為兩個聚集區(qū)和若干個單獨的首位通名省級行政區(qū)。第一個聚集區(qū)以“橋”為人文地理實體類首位通名,主要包括黑龍江省、吉林省、遼寧省、山東省、河南省、陜西省、湖北省、安徽省、江蘇省、浙江省、福建省、江西省、貴州省、廣西壯族自治區(qū);第二個聚集區(qū)以“路”為人文地理實體類首位通名,主要包括北京市、天津市、河北省、重慶市、四川省、云南省。總體來看,全國共有16個省級行政區(qū)以“橋”為人文地理實體類首位通名,10個省級行政區(qū)以“路”為人文地理實體類首位通名。
3結(jié)束語
本文對地名制圖進行應用研究,具體總結(jié)如下。
1)結(jié)合先驗知識、專家知識及地名大數(shù)據(jù)挖掘的知識等,建立地名知識庫及提取規(guī)則,能夠有效提取具有某類群體特征的專題地名數(shù)據(jù)集。
2)地名數(shù)據(jù)制圖能夠有效表達地名群體的分布特征、密度、分布邊界等。對地名群體數(shù)據(jù)集按統(tǒng)計單元進行統(tǒng)計分析,以地名詞云圖、比例圖、密度圖等方式表達地名的高頻信息,識別方言地名的分布范圍、比例、密度等,能夠為方言地名的保護及利用提供決策支持。
3)地名模型制圖能夠表達地名同其他影響因素之間的定量關(guān)系,如“橋”的使用與人口密度和公路橋梁密度的關(guān)系。它還能進一步挖掘地名同其他自然、人文因子之間的定量關(guān)系。
4)地名知識制圖可從不同視角(如語言、民族、歷史等)對某地名群體進行知識推理與知識發(fā)現(xiàn)。
由于地名蘊涵了豐富的地理、歷史、政治、經(jīng)濟、交通等信息,地名制圖研究還有待進一步挖掘。下一步可以結(jié)合歷史沿革、地名啟用時間等動態(tài)表達地名的時空過程,也可以將地名數(shù)據(jù)集作為一種基礎(chǔ)數(shù)據(jù)集,耦合其他人文地理、自然地理數(shù)據(jù)集進行分析,揭示地名群體隱含的文化密碼,增強地名文化認同與文化自信,更好地服務于地名保護、管理和規(guī)劃。——論文作者:葛詠1滿旺2任周鵬1張夕寧1周令泉1