發(fā)布時(shí)間:所屬分類:文史論文瀏覽:1次
摘 要: 摘要:語義可以簡單地看作是數(shù)據(jù)所對(duì)應(yīng)的現(xiàn)實(shí)世界中的事物所代表的概念的含義,以及這些含義之間的關(guān)系,是數(shù)據(jù)在某個(gè)領(lǐng)域上的解釋和邏輯表示。語義具有領(lǐng)域性特征,不屬于任何領(lǐng)域的語義是不存在的。而語義異構(gòu)則是指對(duì)同一事物在解釋上所存在差異,也就體
摘要:語義可以簡單地看作是數(shù)據(jù)所對(duì)應(yīng)的現(xiàn)實(shí)世界中的事物所代表的概念的含義,以及這些含義之間的關(guān)系,是數(shù)據(jù)在某個(gè)領(lǐng)域上的解釋和邏輯表示。語義具有領(lǐng)域性特征,不屬于任何領(lǐng)域的語義是不存在的。而語義異構(gòu)則是指對(duì)同一事物在解釋上所存在差異,也就體現(xiàn)為同一事物在不同領(lǐng)域中理解的不同。對(duì)于計(jì)算機(jī)科學(xué)來說,語義一般是指用戶對(duì)于那些用來描述現(xiàn)實(shí)世界的計(jì)算機(jī)表示(即符號(hào))的解釋,也就是用戶用來聯(lián)系計(jì)算機(jī)表示和現(xiàn)實(shí)世界的途徑。
關(guān)鍵詞:語義,文學(xué)制度,論文發(fā)表
語義是對(duì)數(shù)據(jù)符號(hào)的解釋,而語法則是對(duì)于這些符號(hào)之間的組織規(guī)則和結(jié)構(gòu)關(guān)系的定義。對(duì)于信息集成領(lǐng)域來說,數(shù)據(jù)往往是通過模式(對(duì)于模式不存在或者隱含的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),往往需要在集成前定義出它們的模式)來組織的,數(shù)據(jù)的訪問也是通過作用于模式來獲得的,這時(shí)語義就是指模式元素(例如類、屬性、約束等等)的含義,而語法則是模式元素的結(jié)構(gòu)。
盡管大多數(shù)人都承認(rèn)語言能力的遺傳性,但是這種機(jī)制的存在并沒有解決shepard所提出的概括(在母語習(xí)得里,更成為“過度概括”)和相似性的問題。這個(gè)歸納性難題經(jīng)常被看成是范疇化的問題,那就是說我們必須找出的這樣一個(gè)機(jī)制,足以把一系列刺激、語詞或概念(例如獵豹和老虎)看成是一類的(相似的)事物。但是相似性以什么為基礎(chǔ)卻眾說紛紜,有特征論、原型論,范式論、心理本質(zhì)論、心理語境論,等等,不一而足(桂詩春2000)。這些理論模型都旨在提出一些制約,以縮小歸納(也就是說學(xué)習(xí))所要解決的問題空間。就兒童詞匯習(xí)得而言,一些心理語言學(xué)家假設(shè)存在一些對(duì)詞語賦予意義的制約,兒童在早期習(xí)得詞匯時(shí)都假定:多數(shù)詞語在感知上都是對(duì)應(yīng)物體的名稱;兩個(gè)詞通常都有兩個(gè)不同的意義;享有共同聲音的詞語通常都是意義上相關(guān)的;一個(gè)不熟悉的言語聲音可能指一些兒童還未能掌握其對(duì)應(yīng)詞的東西。但是這也不是沒有問題,landauer與dumais(1997)指出,一個(gè)問題是我們不知道某一個(gè)制約是否真正存在;少年兒童雖然假定相同的物體只有一個(gè)名稱,但是他們所接觸的語言是否也是這樣呢?又如某一種制約的產(chǎn)生是逐步進(jìn)化的,還是通過認(rèn)知而起作用的一種普遍性制約?還有一個(gè)問題是,某些制約的存在和產(chǎn)生出于邏輯的需要,但這又是不夠的,可以從3方面看:1)某一套制約是否邏輯上和語用上充分,也就是說使用了它們以后是否就能解決問題?例如兒童認(rèn)為沒有同義詞,這在多大程度上能幫助他們學(xué)習(xí)詞匯?2)和方法論有關(guān),怎樣才能獲得前一個(gè)問題的答案?怎樣知道某一些特定制約的組合應(yīng)用到自然環(huán)境的輸入時(shí)才能解決問題?3)怎樣決定一個(gè)提出來的模型是否具有心理現(xiàn)實(shí)性?landauer認(rèn)為要解決這些問題必須使用模擬的模型。而他和其他幾個(gè)研究人員foltz、dumais、deerwester、furnas等人(deerwester et.al.1990)所提出的,而又得到著名語篇研究者kintsch支持的模型就是潛伏語義分析(latent semantic analysis,lsa)。這是一個(gè)多維數(shù)的線性組合模型,“這個(gè)模型只是一個(gè)普遍的學(xué)習(xí)機(jī)制,本身并不體現(xiàn)人類知識(shí),但是它通過分析一個(gè)很大的自然語言文本語料庫來生成一個(gè)足以體現(xiàn)詞語和文本片段的相似性的表征。”
2.lsa的理據(jù)
從潛伏性語義分析的角度看來,歸納就是減少維數(shù)(reduction of dimensionality)。landauer舉了一個(gè)形象的例子,一個(gè)人站在高原上打電話告訴他的朋友三間房子的位置,a和b、a和c的距離都是5個(gè)單位,而b和c的距離則是8個(gè)單位。在他的朋友腦海里就形成一個(gè)兩個(gè)維數(shù)的三角形。如果他繼續(xù)補(bǔ)充說,這三間房子是在一條直線上,他的朋友就會(huì)說,他一定是看錯(cuò)了這三個(gè)房子的距離。a和b、c的距離應(yīng)該是4.5個(gè)單位,而b和c的距離應(yīng)該是9個(gè)單位。因?yàn)樵谝粋(gè)兩維數(shù)的三角形里,其底邊應(yīng)該是其他兩個(gè)邊的和。這說明,減少維數(shù)可改善估算。在研究工作中,研究人員往往通過減少維數(shù)來降低計(jì)算的復(fù)雜性,即把數(shù)據(jù)作平滑化處理:簡化數(shù)據(jù)并填補(bǔ)所缺的節(jié)點(diǎn)。在東京召開的聯(lián)合國大學(xué)主持的混沌對(duì)科學(xué)和社會(huì)的沖擊學(xué)術(shù)會(huì)議上,兩個(gè)著名的混沌學(xué)專家feigenbaun和aihara就一致認(rèn)為,人腦由100億個(gè)神經(jīng)元組成,而我們要對(duì)它的相互作用進(jìn)行觀察只能選取一個(gè)極低的維數(shù)。(注:這次大會(huì)的文集我國已由楊立、劉巨彬等譯,劉式達(dá)、杜先之等校,湖南科學(xué)技術(shù)出版社出版,題為《混沌:對(duì)和社會(huì)的沖擊》,兩人的對(duì)話見該書394-395頁。)在統(tǒng)計(jì)學(xué)中,這種減少維數(shù)的方法,例如因子分析、多維數(shù)量表也經(jīng)常被采用,osgood(1971)在70年代所做的語義微分分析就用過因子分析。同樣地,我們也可以把兩個(gè)詞的語義相似性表示為距離:距離越近,相似性就越強(qiáng)。假定兩個(gè)詞在一個(gè)語篇單位(短語、句子或段落)中出現(xiàn)的頻率和它們的語義距離成反比例(頻率越多,距離越近),那它們就和語義相似性直接相關(guān)。我們可以通過觀察兩個(gè)詞在同一單位中出現(xiàn)的相對(duì)頻率來估算出其語義相似性。因?yàn)槿藗冞M(jìn)行交際時(shí),都會(huì)使用一些基本成分(如詞),使兩個(gè)詞語中存在某種相對(duì)的相似性。發(fā)送者會(huì)選擇同一語義空間彼此相近的詞,它們就會(huì)有不同的語義距離;而接收者則會(huì)按照它們?cè)谕簧舷挛闹械南鄬?duì)頻率來估算這些距離。但是自然語言中的詞語數(shù)量極為龐大,而接收到的詞語卻數(shù)量極少,例如兩個(gè)詞的頻率都是百萬分之一,它們雖然有相關(guān)的意義,也不大可能會(huì)一起發(fā)生。可是如果我們的接收機(jī)制按照統(tǒng)計(jì)知識(shí)把接受到的詞語表示為相似的語義空間,即同一個(gè)維數(shù)的各個(gè)節(jié)點(diǎn),情況就會(huì)大大改善。
基于上述的假設(shè),潛伏性語義分析可以用來比較不同語篇的語義相似性。研究語篇理解的首要目標(biāo)是:了解有哪些足以影響讀者從文本材料中抽取和保存信息的能力的因素,例如讓受試寫一篇文本材料的摘要,然后再看他們從文本中獲取了什么信息。這意味著把讀者的文本表征(認(rèn)知模型)和原來的文本表征加以比較,即把摘要中每一個(gè)句子的信息和文本中的句子信息加以比較。但是要對(duì)信息進(jìn)行比較并非易事,它要求掃描原文,找出信息的所在。而且受試所寫的摘要往往并不全都采用原文中的詞語。所以光比較詞語也不成。研究人員要比較的是摘要和原來文本的語義內(nèi)容。kintsch(1988,1998)所提出的構(gòu)建整合模型(construction-integration model)就是一個(gè)觀察讀者對(duì)文本表征的認(rèn)知模型,它把讀者摘要的語義表示為一些語義成分組合,稱之為命題(prepositions)。文本中的每一個(gè)子句是一個(gè)命題(如the red rose和the rose is red,都屬于一個(gè)命題)。這些命題根據(jù)各種范疇連接起來,例如看它們是否共享中項(xiàng)(arguments)和指稱(referents)。一個(gè)文本的所有命題組合起來就成為文本結(jié)構(gòu)。不少實(shí)驗(yàn)都證明命題是人們的心理處理單位(如graesser1981)。對(duì)文本和受試對(duì)它回述進(jìn)行命題分析可以對(duì)一系列語義基本元素加以比較,其好處是這種比較并非表層結(jié)構(gòu)的比較。但問題是,目前還沒有生成命題的自動(dòng)化程序,因?yàn)橛?jì)算機(jī)必須對(duì)文本進(jìn)行正確的語法分析,并且了解詞語的正確意義。于是可以利用計(jì)算機(jī)來對(duì)語義相似性進(jìn)行比較的潛伏性語義分析就應(yīng)運(yùn)而生了。
lsa原來是建筑在以語義內(nèi)容的基礎(chǔ)上以改善提取的一種設(shè)計(jì),稱為潛伏性語義索引(latent semantic indexing,lsi)。在現(xiàn)實(shí)生活里,往往同一個(gè)語義概念表示為不同的詞語,如果以原詞作為檢索單位,就費(fèi)時(shí)失事。例如“電子計(jì)算機(jī)”往往又可以簡稱為“計(jì)算機(jī)”或“電腦”,甚至“服務(wù)器”和“機(jī)器”。如果在檢索中只鍵入任何一種說法就能查出“電子計(jì)算機(jī)”,不是方便得多嗎?這種方法還可以避免同義性的問題。lsa的基本假設(shè)是不同文件(文件可大可小,可以是詞語所出現(xiàn)的整個(gè)語境,也可以是某些文本、段落和句子)的詞語使用型式存在著某種“潛伏的”結(jié)構(gòu),而使用一些統(tǒng)計(jì)的方法可以估量出這種潛伏性結(jié)構(gòu)。這些方法通過分析詞語和文件之間的聯(lián)系,產(chǎn)生一個(gè)在相同語境中使用的詞語將會(huì)在語義上更為密切聯(lián)系的表征。例如:
(1)the u.s.s.nashville arrived in colon harbor with 42 marines
(2)with the warship in colon harbor,the colombian troops withdrew.
"warship"所出現(xiàn)的語境(lsa稱之為“向量”,vector)和"nashville"所出現(xiàn)的語境相似,兩者的上下文都有"colon"和"harbor"。lsa所使用的技巧可以自動(dòng)找出這些更深層的聯(lián)系的結(jié)構(gòu)。