發(fā)布時間:2020-01-14所屬分類:管理論文瀏覽:1次
摘 要: 摘 要: 文章以中國知網(wǎng)的中文學術(shù)文獻數(shù)據(jù)庫為基礎(chǔ),利用詞頻統(tǒng)計,結(jié)合時間參數(shù),對中文科技新詞做了探討。文章認為,高被引論文的關(guān)鍵詞包含了專業(yè)領(lǐng)域的重要中文科技名詞。統(tǒng)計結(jié)果表明,大部分高被引論文為基金論文。由于基金論文在全部論文中所占比例較
摘 要: 文章以中國知網(wǎng)的中文學術(shù)文獻數(shù)據(jù)庫為基礎(chǔ),利用詞頻統(tǒng)計,結(jié)合時間參數(shù),對中文科技新詞做了探討。文章認為,高被引論文的關(guān)鍵詞包含了專業(yè)領(lǐng)域的重要中文科技名詞。統(tǒng)計結(jié)果表明,大部分高被引論文為基金論文。由于基金論文在全部論文中所占比例較低,因此,不需要考慮全部新論文,只要對其中基金論文的關(guān)鍵詞做詞頻統(tǒng)計,就有助于發(fā)現(xiàn)大部分重要中文科技新詞。這樣,既減少了工作量,也減少了盲目性。此項工作對科研工作者和術(shù)語工作者有一定幫助。
關(guān)鍵詞: 大數(shù)據(jù); 文獻計量學; 基金論文; 詞頻統(tǒng)計; 中文科技新詞
引 言
首先說明,本文所指的科技新詞,是指在所考察時段才出現(xiàn),而在該時段之前沒有出現(xiàn)過的科技名詞。科技新詞發(fā)現(xiàn)越早,越可以及早規(guī)范定名,就可以盡量避免因定名過晚,多名并存導致的混亂。
從中國知網(wǎng)( CNKI) 來看,關(guān)于這方面的文獻,主要有 3 篇: 才磊的《科技新詞工作初探》[1],張暉的《科技新詞工作實踐探索》[2]和余恒、崔辰州、張暉的《天文學英語新詞自動提取系統(tǒng)》[3]。《科技新詞工作初探》主要就科技新詞的概念、科技新詞的界定、科技新詞的來源及其構(gòu)成著手,探討了如何開展科技新詞的命名及審定工作,但未討論具體如何操作。《科技新詞工作實踐探索》在操作層面做了探討,提出自動抽取與專家推薦相結(jié)合的辦法,但實際效果與期望有一定差距,未能持續(xù)開展工作。在中文名出現(xiàn)之前就及早發(fā)現(xiàn)英文科技新詞并為之確定中文名是最理想的。因此,《天文學英語新詞自動提取系統(tǒng)》就提出了一套全新的天文學英語新詞自動提取系統(tǒng)。該系統(tǒng)綜合使用腳本過濾、術(shù)語識別、正則表達匹配等多種方法,能夠自動追蹤 Ar Xiv 論文數(shù)據(jù)庫的更新,分析天文學論文的內(nèi)容,生成推薦術(shù)語列表。但一個問題是 Ar Xiv 論文數(shù)據(jù)庫雖然可以免費獲取,但覆蓋的學科及論文數(shù)量都太少,大部分學科都缺乏可免費獲取的系統(tǒng)、全面的論文資源,因此作用有限; 另一個問題是該系統(tǒng)雖然按照詞頻統(tǒng)計生成了新詞列表,但并不是每個科技新詞都值得為之定名———很多科技新詞沒什么價值,往往過段時間就會被淘汰或很少使用。所以,如果對每個科技新詞都要關(guān)注,都要定名,就會做很多無用功。對科技新詞而言,更重要的是確定其重要性,只有重要的科技新詞才需要及早定名。
術(shù)語學工作者或不熟悉某專業(yè)領(lǐng)域的科研工作者,雖然對相關(guān)專業(yè)也有一定了解,但畢竟不了解該領(lǐng)域發(fā)展的前沿,所以能首先認識到一個科技新詞 ( 包括中文或英文新詞) 重要性的,更多的可能還是一線專家。一個科技新詞的定名,需由相關(guān)領(lǐng)域的眾多專家經(jīng)過一定時間的討論,按照一定的程序才能審定公布。而了解一個科技新詞的重要性,并在該領(lǐng)域從事科研工作的專家,出于學術(shù)競爭及創(chuàng)新性的考慮,往往會盡快使用該詞發(fā)表論文,而不會等到許多專家都知道,再經(jīng)過較長時間討論并給出規(guī)范名稱再使用該詞。他使用該科技新詞時,要么自己為該詞命名,要么沿用別人用過的名稱。所以,大多數(shù)科技新詞,在規(guī)范的中文名稱審定公布之前,就已經(jīng)有其他中文名稱存在了。因此,要想由術(shù)語學工作者、名詞審定工作者,在其他人命名之前就首先為一個重要的科技新詞確定中文名,是一項比較困難的工作。更可行、更容易的是及早發(fā)現(xiàn)一個重要的已有中文名的科技新詞。
鑒于英文科技期刊的國際影響力,目前大家對英文科技新詞及其中文譯名都比較重視。但實際上,除了英文科技新詞之外,探討原創(chuàng)的中文科技新詞也很重要: 首先,中國已成為具有重要影響的科技大國,有很多重要科技成果是首先用中文發(fā)表的,因此,中文科技論文里有很多原創(chuàng)的重要的科技新詞。其次,在世界歷史的長河中,中國曾經(jīng)在很長一段時間里遙遙領(lǐng)先西方,目前中國正處于民族偉大復興的征途中。許多有識之士認為,按照目前的發(fā)展趨勢,中國將來有望再度領(lǐng)先世界。中國的科技、文化、中文也將有望像現(xiàn)在的美國的科技、文化和英文一樣,成為世界的主流,越來越多的重要的科技新詞也將首先在中文科技論文里出現(xiàn)。因此,不管是立足現(xiàn)實,還是面向長遠,探討中文科技新詞都具有重要意義。所以,筆者在此主要探討及早發(fā)現(xiàn)重要中文科技新詞的問題。
關(guān)于發(fā)現(xiàn)中文科技新詞,要考慮兩個問題,一是來源,二是如何篩選。
關(guān)于來源,筆者認為,科技名詞畢竟屬于專業(yè)領(lǐng)域,要從專業(yè)文獻數(shù)據(jù)庫中篩選,否則選用良莠不齊的非專業(yè)文獻,從數(shù)量上求多求全,會做很多無用功。考慮到科技新詞反映了科技發(fā)展動態(tài),筆者以中國知網(wǎng)的期刊論文數(shù)據(jù)庫為數(shù)據(jù)源,選擇論文的關(guān)鍵詞篩選科技新詞。選擇論文關(guān)鍵詞的原因在于方便中文分詞。對選擇論文的關(guān)鍵詞篩選科技新詞,有人提出異議,認為在實踐中存在科技新詞可能首先不在論文的關(guān)鍵詞中出現(xiàn),而在正文中出現(xiàn)的情況。但筆者認為,一個重要的科技新詞,不可能在該領(lǐng)域所有時段、所有論文的關(guān)鍵詞中都不出現(xiàn),它總會在某些時段、某些論文的關(guān)鍵詞中出現(xiàn),否則該詞就無足輕重。因此,即使在出現(xiàn)該新詞的時段的論文的關(guān)鍵詞中沒有發(fā)現(xiàn)該詞———這意味著該詞在該時段雖然是新詞,但并未得到大家關(guān)注; 也能在其后的某些時段、某些論文的關(guān)鍵詞中發(fā)現(xiàn)該詞———這意味著該詞的重要性在這些時段才逐漸得到了大家的認可,該詞也成為這些時段的重要科技名詞。所以對關(guān)鍵詞做詞頻統(tǒng)計,在原則上可以發(fā)現(xiàn)所有重要的科技新詞。
相關(guān)期刊推薦:《中國科技術(shù)語》致力于建設(shè)有中國特色的術(shù)語學理論、促進全球華語圈科技術(shù)語的規(guī)范和統(tǒng)一。是由科技專家和語言專家合力打造的集科技與人文于一體的綜合性刊物。主要介紹國內(nèi)外術(shù)語理論研究成果,公布規(guī)范科技名詞,發(fā)布試用科技新詞,組織重點、難點科技名詞的定名討論,探究科技術(shù)語的歷史文化內(nèi)涵,報道科技名詞規(guī)范工作動態(tài),是促進術(shù)語學在我國發(fā)展的權(quán)威雜志,是及時發(fā)布規(guī)范漢語科技名詞的媒體,是集中展現(xiàn)我國科技名詞術(shù)語審定工作情況的窗口。
關(guān)于篩選方式,利用大數(shù)據(jù)做詞頻統(tǒng)計是發(fā)展方向,但需要改進。實際上,現(xiàn)代科技發(fā)展越來越快,各學科越來越趨向縱深與融合,專家精通的領(lǐng)域也越來越狹窄,很難對所在領(lǐng)域的最新進展有全面系統(tǒng)的了解,所以僅依靠少數(shù)專家提供科技名詞的傳統(tǒng)模式已經(jīng)難以適應(yīng)現(xiàn)代科技快速發(fā)展的需求,需與時俱進,探索新的模式。利用大數(shù)據(jù)統(tǒng)計選詞就可以從宏觀量化上彌補這個不足。改進的思路是建立一個可盡早判斷科技名詞是否重要的大概原則,以便盡量縮小篩選范圍,當然還要保證是新詞,不是以前出現(xiàn)過的舊詞。
一 重要名詞與重要論文
科技新詞的定名不能等太久,否則其使用就會越來越混亂。而新詞剛出現(xiàn)的時候,其所代表的概念的內(nèi)涵和外延都不太穩(wěn)定,與所在領(lǐng)域的其他科技名詞的關(guān)系也不太清晰,因此,即使該領(lǐng)域?qū)<乙残枰纫欢螘r間才能發(fā)現(xiàn)其是否重要,不可能一蹴而就。這就是一對矛盾。這里所說的判斷科技新詞重要性的原則,不是從科技新詞的科學意義上來判斷的,而是從術(shù)語學的角度,為了減少工作量,縮小篩選范圍而發(fā)現(xiàn)的形式特征。但這些形式特征足以保證大多數(shù)具有重要科學意義的科技新詞,在設(shè)定的較小的范圍內(nèi),在其出現(xiàn)的早期就被發(fā)現(xiàn),因而可以盡量減小這個矛盾。
對術(shù)語學工作者或不熟悉某領(lǐng)域的科研工作者來說,從一個科技名詞的名稱上來判斷該詞是否重要并不容易。但如果有很多論文和不同的作者研究、使用的名詞,即高頻詞應(yīng)該很重要。顯然,這種判斷對舊詞來說是成立的。但對新論文、新名詞來說,這樣判斷就行不通了,因為研究、使用新詞的論文和作者都很少,該詞詞頻不可能很高。所以,不能從詞頻角度來判斷新詞是否重要。
另一方面,如果一篇重要論文把該詞作為關(guān)鍵詞,就能判斷出這個科技名詞可能很重要,即重要論文的關(guān)鍵詞就包含重要名詞。這就把判斷科技名詞重要性的問題轉(zhuǎn)化為判斷論文重要性的問題。對舊論文舊名詞來說,判斷其重要性還是很容易的: 一篇論文是否重要,一般來說,目前的判斷標準還是以被引頻次為主,即高被引論文就是重要論文。高被引論文的關(guān)鍵詞就包含重要科技名詞。所以,可以用高被引論文關(guān)鍵詞詞頻統(tǒng)計的方法來發(fā)現(xiàn)重要名詞。但對新論文新名詞來說,從論文被引頻次判斷就行不通了。因為新論文剛出現(xiàn)不久,人們不能立刻判斷出其是否重要,還需要有一過程,因而被引頻次可能不高。所以,對于新論文新名詞,就需要尋找其他特征。如果找到了與高被引論文有關(guān)的其他特征,就可以根據(jù)這些特征預(yù)判新論文、科技新詞的重要性。
二 與重要論文有關(guān)的特征
中國知網(wǎng)的檢索條件有: 支持基金、來源類別、來源期刊 3 個選項,另外檢索結(jié)果的分類瀏覽還有研究層次,這幾項與論文的重要性有關(guān),需要仔細分析。
1.基金論文
一篇論文是作者一個研究項目的成果,是否重要是從結(jié)果來判斷的,但這個研究項目還是一個過程,我們還可以從整個研究過程來看。可以認為,一篇重要的論文來自于一個重要的研究項目。而一個重要的研究項目在源頭上一般是需要有資金資助的,而有資金資助的研究成果當然就是基金論文了。所以,是否有基金資助有可能作為論文重要性預(yù)判的一個重要依據(jù),基金論文很可能會成為重要論文,或者說大部分基金論文比非基金論文重要。
由此可以想到: 基金論文的被引頻次一般比非基金論文的被引頻次要高。實際上,已經(jīng)有多篇文獻發(fā)現(xiàn)了這個規(guī)律,如董建軍通過對中國知網(wǎng)中國學術(shù)文獻出版總庫中收錄的各類基金論文的文獻量和篇均被引頻次的研究,發(fā)現(xiàn)基金論文從整體上來看能夠獲得比一般論文較高的被引用[4]; 戚爾鵬,葉鷹用 Web of Science 數(shù)據(jù)庫收錄的 2010— 2012 年基礎(chǔ)學科論文數(shù)據(jù)進行實證研究,結(jié)果揭示除邏輯學外所有基礎(chǔ)學科的基金資助引用優(yōu)勢為正,表明基金論文的被引頻次和影響力普遍高于非基金論文。討論分析了基金論文獲得較高引用的原因,揭示基金論文更易獲得引用是因其具有相對較高的品質(zhì)[5]。
以上是從文獻的質(zhì)量來比較,從數(shù)量來看,又是如何呢? 即高被引論文中的基金論文能占多大比例呢? 關(guān)于這方面的統(tǒng)計數(shù)據(jù),目前還沒有查到相關(guān)文獻。為此,筆者分別以數(shù)學、物理學、化學、力學和生物學為文獻檢索目錄,檢索了中國知網(wǎng) 2010— 2012 年歷年的期刊論文、高被引期刊論文( 這里指被引頻次≥5,檢索時間為 2018 年 8 月中下旬) ,并篩選出高被引論文中的基金論文。統(tǒng)計結(jié)果見表 1。
從表 1 可見,這些學科的大部分高被引論文是基金論文。除數(shù)學略高于 64%以外,其他 4 個學科的高被引論文中的基金論文所占比例都高達 70% 以上,有些甚至超過 80%。顯然,數(shù)學研究主要依靠研究人員自身的理論思維,而其他學科則還與客觀世界的實踐、實驗有關(guān),需要具備一定的物質(zhì)條件,沒有資金支持,研究工作很難開展,而有更多資金支持就可能做出更好的研究成果,這是科技領(lǐng)域大部分高被引論文是基金論文的重要原因。
既然統(tǒng)計數(shù)據(jù)表明大部分高被引論文是基金論文,而高被引基金論文又只是全部基金論文的子集,那么某時段期刊論文中的全部基金論文就包含了該時段大部分高被引論文,即重要論文。這些論文之間的集合關(guān)系可用圖 1 表示。其中,A 代表期刊論文,B 代表高被引論文,C 代表基金論文,B∩C 代表高被引基金論文,B∩C 占了 B 的大部分。
顯然,從宏觀比例上看,論文越多,其所包含的關(guān)鍵詞也越多。因此,對該時段全部基金論文( C) 的關(guān)鍵詞做詞頻統(tǒng)計,就可以發(fā)現(xiàn)該時段大部分高被引論文( B∩C) 的關(guān)鍵詞,這些關(guān)鍵詞就包含了該時段大部分重要論文( B) 的關(guān)鍵詞,即該時段大部分重要的關(guān)鍵詞。實際上,科研工作者在申請科研基金的時候,需對所在領(lǐng)域文獻有充分了解,因此基金論文會引用之前的高被引論文,所以,基金論文的關(guān)鍵詞會包含所在學科的一些重要科技名詞。對新時段而言,對該時段全部基金論文的關(guān)鍵詞做詞頻統(tǒng)計,就可能提前找到將來被發(fā)現(xiàn)具有重要意義的大部分科技名詞。
2.來源類別與來源
期刊對來源類別來說,顯然,SCI 來源期刊、EI 來源期刊、核心期刊、CSSCI、CSCD 都是比較重要的期刊,在這些期刊上發(fā)表的論文一般來講比其他期刊論文重要。檢索時,文獻分類目錄選擇對應(yīng)的學科,來源類別可以選擇以上那些重要的分類,當然也可以是全部期刊。選擇來源類別主要是為了包含綜合性期刊里的專業(yè)論文。
對來源期刊來說,檢索每個學科的專業(yè)期刊時,如果文獻分類目錄選擇對應(yīng)的學科,則檢索出的文獻就會比不選擇學科的檢索結(jié)果少很多。如檢索《力學進展》2010—2012 年的文獻時,文獻分類目錄選擇“力學”時,找到 135 條結(jié)果; 但不做任何選擇時,找到 240 條結(jié)果。這是因為,現(xiàn)在各學科都是互相交叉、融合發(fā)展,而不僅僅局限于本學科本專業(yè)。所以,在檢索某學科的專業(yè)期刊時,不能選擇文獻分類目錄中的學科選項,而是要不做任何選擇,就包含了專業(yè)期刊里的全部論文。
以上選擇期刊來源類別并對應(yīng)學科目錄的檢索結(jié)果,和選擇全部專業(yè)期刊并不對應(yīng)學科目錄的結(jié)果有重復,需要查重并刪除重復的內(nèi)容。
3.研究層次
檢索結(jié)果的分組瀏覽下有個“研究層次”選項,顯然,重要的科技新詞與“研究層次”下的“基礎(chǔ)與應(yīng)用基礎(chǔ)研究( 自科) ”及“工程技術(shù)( 自科) ” 關(guān)系密切,其他層次可不用考慮。
三 如何查新
檢索到了需要的重要論文之后,要對這些論文的關(guān)鍵詞做詞頻統(tǒng)計,才能發(fā)現(xiàn)重要的科技名詞。但詞頻統(tǒng)計發(fā)現(xiàn)的不同名詞很多,而且大部分都是之前很早就出現(xiàn)過的舊名詞,新名詞很少。如果一一檢驗,既費時又費力,會做很多無用功。那么怎樣才能盡快發(fā)現(xiàn)新名詞呢? 為行文方便,以下舉例說明。
前文曾說過本文所指的新名詞,是指在所考察時段才出現(xiàn),而在該時段之前沒有出現(xiàn)的名詞。例如,在 t1—t2期間才出現(xiàn)的新名詞,在 t1之前( 包括 t0—t1期間) 就沒有出現(xiàn)。我們可以考察延拓的時段 t0—t2。知網(wǎng)的文獻檢索結(jié)果有“PubTime-發(fā)表時間”這一項。顯然,如果在做詞頻統(tǒng)計的時候,同時統(tǒng)計關(guān)鍵詞在 t0—t2期間最早出現(xiàn)的時間,就會發(fā)現(xiàn)在 t1—t2 期間出現(xiàn)過的很多關(guān)鍵詞,最早在 t0—t1期間就已出現(xiàn),這些關(guān)鍵詞就肯定不是 t1—t2 期間才出現(xiàn)的新名詞,這就可以篩掉很多舊名詞,只剩下少數(shù)最早出現(xiàn)時間在 t1—t2之間的術(shù)語才需要檢驗是否新名詞,這就可以減少很多工作量。
顯然,時段 t0—t1越長,篩掉的舊名詞就越多,需要人工一一檢驗 t1—t2 之間的新詞就越少。當 t0—t1足夠長之后,就會篩掉該專業(yè)發(fā)展歷史上幾乎所有的舊名詞,這時候基本上只需要統(tǒng)計關(guān)鍵詞的詞頻和最早出現(xiàn)的時間,不用人工一一檢驗,就可發(fā)現(xiàn) t1—t2之間的新詞。而時段 t0—t1足夠長的情況,實際上相當于一個包含該專業(yè)發(fā)展歷史上所有常用和重要術(shù)語的語料庫和術(shù)語庫,由此也可見建設(shè)完備的語料庫和術(shù)語庫對發(fā)現(xiàn)科技新詞的重要性。另外,如果所考察的時段較長或該時段距離現(xiàn)在時間較早,就不能以基金論文為考察對象,而應(yīng)以該時段的高被引論文做時段延拓和詞頻統(tǒng)計。