發(fā)布時(shí)間:2020-04-11所屬分類(lèi):教育論文瀏覽:1次
摘 要: 摘要:針對(duì)基于關(guān)鍵詞字符匹配和粗粒度情感分析方法的傳統(tǒng)不良信息檢測(cè)方法準(zhǔn)確率低的問(wèn)題,提出一種基于短語(yǔ)級(jí)情感分析的不良信息檢測(cè)方法.該方法制定語(yǔ)法規(guī)則來(lái)提取敏感詞所在短語(yǔ),結(jié)合二次分類(lèi)的情感詞典,通過(guò)分析短語(yǔ)的情感傾向來(lái)判斷表達(dá)者對(duì)敏感關(guān)鍵
摘要:針對(duì)基于關(guān)鍵詞字符匹配和粗粒度情感分析方法的傳統(tǒng)不良信息檢測(cè)方法準(zhǔn)確率低的問(wèn)題,提出一種基于短語(yǔ)級(jí)情感分析的不良信息檢測(cè)方法.該方法制定語(yǔ)法規(guī)則來(lái)提取敏感詞所在短語(yǔ),結(jié)合二次分類(lèi)的情感詞典,通過(guò)分析短語(yǔ)的情感傾向來(lái)判斷表達(dá)者對(duì)敏感關(guān)鍵詞的情感傾向,從而判定內(nèi)容的敏感性.本文方法克服了字符串匹配方法的缺點(diǎn),如:傳統(tǒng)的字符串匹配方法忽視敏感詞上下文,從而導(dǎo)致大量誤報(bào)的缺點(diǎn),及粗粒度情感分析方法由于無(wú)法準(zhǔn)確定位情感對(duì)象,只能以文本整體情感傾向代表表達(dá)者主觀情感,導(dǎo)致不能精準(zhǔn)分析與敏感詞相關(guān)的情感傾向及敏感性.實(shí)驗(yàn)表明,本文方法與傳統(tǒng)方法相比,準(zhǔn)確率有較大的提升.
關(guān)鍵詞:不良信息;語(yǔ)法規(guī)則;短語(yǔ)提取;情感詞典;情感分析
1引言.
我國(guó)網(wǎng)民數(shù)量眾多,互聯(lián)網(wǎng)環(huán)境復(fù)雜,存在少部分人員利用網(wǎng)絡(luò)傳播暴力、反動(dòng)、色情及邪教等不良信息,如何檢出這些信息是一個(gè)重要問(wèn)題.當(dāng)前,對(duì)不良信息的檢測(cè)研究主要集中在對(duì)敏感詞的檢測(cè)上,即基于敏感詞庫(kù),如何高效、準(zhǔn)確地檢出敏感詞本身或其變體形式.目前廣泛采用的方法是基于字符串匹配通過(guò)建立敏感詞庫(kù),對(duì)待檢測(cè)文本進(jìn)行檢索,若其中含有敏感詞,則標(biāo)記為不良信息.這種方法實(shí)現(xiàn)簡(jiǎn)單,但僅能識(shí)別敏感詞庫(kù)中的詞.對(duì)此,文獻(xiàn)[1]提出一種基于決策樹(shù)的過(guò)濾算法,該算法通過(guò)將敏感詞按照拼音首字母分類(lèi),最終形成一個(gè)前綴樹(shù)結(jié)構(gòu)的決策樹(shù),將待檢測(cè)文本視作信息流,查找決策樹(shù),最終輸出文本中所含敏感詞.文獻(xiàn)[2]提出了一種識(shí)別敏感詞變形體的方法,該方法結(jié)合了漢字的發(fā)音結(jié)構(gòu)與特征,能夠識(shí)別出中文敏感詞的拼音、簡(jiǎn)稱(chēng)和拆分三種變形體形式.文獻(xiàn)[1-2]的方法拓展了檢測(cè)的范圍,可以識(shí)別敏感詞的部分變形形式,但由于仍是基于字符串匹配,檢出對(duì)象都為“詞”,缺少上下文信息的考慮,因此準(zhǔn)確率較低.
相關(guān)期刊推薦:《四川大學(xué)學(xué)報(bào)(自然科學(xué)版)》(雙月刊)曾用刊名:四川聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版),1955年創(chuàng)刊,是自然科學(xué)綜合性學(xué)術(shù)期刊,國(guó)內(nèi)外公開(kāi)發(fā)行,主要刊登四川大學(xué)理科基礎(chǔ)研究和應(yīng)用研究方面的、具有創(chuàng)造性?xún)r(jià)值的研究論文、快報(bào)和綜合評(píng)述,包括數(shù)學(xué),物理學(xué),化學(xué)和生物學(xué)等基礎(chǔ)學(xué)科以及無(wú)線電電子學(xué),計(jì)算機(jī)科學(xué),核科學(xué)與技術(shù),生物工程,光電技術(shù)及材料科學(xué)等新興學(xué)科和高新技術(shù)學(xué)科的內(nèi)容。
為了將文本上下文納入考慮,文獻(xiàn)[3]使用情感分析來(lái)識(shí)別微博中的敏感信息.作者對(duì)微博的情感極性進(jìn)行了度量,通過(guò)計(jì)算文本情感得分將文本情感傾向分為正向情感和負(fù)向情感兩類(lèi),通過(guò)分析發(fā)現(xiàn)負(fù)向情感的微博內(nèi)容具有較高的敏感性,由此建立了含有情感極性因素的敏感度模型,通過(guò)情感傾向計(jì)算敏感度,使用敏感度來(lái)判別微博的敏感性.文獻(xiàn)[4]提出了一種Laplace平滑情感判定算法,通過(guò)細(xì)化文本語(yǔ)義分析規(guī)則計(jì)算文本情感值.文獻(xiàn)[5]通過(guò)結(jié)合情感詞典和卡方模型,將情感詞的情感極性值與句中的否定詞納入考慮,提升了判定的準(zhǔn)確率.以上通過(guò)計(jì)算文本情感得分或極性值來(lái)判斷文本情感傾向方法的問(wèn)題在于一段文本通常包含多個(gè)情感詞語(yǔ),這些情感詞所修飾的對(duì)象互不相同,因此整段文本所展現(xiàn)的整體情感不一定代表表達(dá)者對(duì)敏感詞的情感傾向,以文本為粒度進(jìn)行的情感分析得出的情感傾向十分籠統(tǒng),因此無(wú)法制定通用的告警策略,導(dǎo)致其準(zhǔn)確率仍然較低.如:
例句1)支持法輪功學(xué)員研習(xí)法輪功;
例句2)譴責(zé)公安機(jī)關(guān)迫害法輪功.
在以上兩個(gè)例句中,敏感詞都為“法輪功”,從“支持”和“迫害”可以看出表達(dá)者對(duì)其情感傾向是正面的.但如果采用文獻(xiàn)[3]和文獻(xiàn)[4]的方句法,例句1)的輸出將是正面情感,例句2)的輸出將是負(fù)面情感,然而兩句包含的內(nèi)容顯然都應(yīng)屬于不良信息.粗粒度情感分析不能正確地提取表達(dá)者對(duì)“法輪功”的情感傾向,因此需要細(xì)化情感分析的粒度.細(xì)粒度情感分析的關(guān)鍵是對(duì)評(píng)論對(duì)象及其對(duì)應(yīng)情感詞進(jìn)行識(shí)別[6].例如,在例句2)中,如果能提取出“迫害法輪功”,就可以?xún)H對(duì)這一短語(yǔ)進(jìn)行情感分析,從而得出表達(dá)者對(duì)“法輪功”的情感.目前廣泛使用的從文本中提取短語(yǔ)的統(tǒng)計(jì)方法是PMI(pointwisemutualinformation,點(diǎn)互信息)[7]。
基于上述問(wèn)題,本文提出一種基于短語(yǔ)級(jí)情感分析的不良信息檢測(cè)方法,該方法考慮了敏感詞上下文信息,在基于詞典的情感分析方法的基礎(chǔ)上,將情感詞典細(xì)分為主體正向、主體負(fù)向、受體正向、受體負(fù)向、褒義詞和貶義詞6類(lèi)而不僅是正面情感和負(fù)面情感兩類(lèi),同時(shí)將敏感詞按照其性質(zhì)歸為正向敏感詞、負(fù)向敏感詞和超級(jí)敏感詞三類(lèi),使用一種基于語(yǔ)法規(guī)則的短語(yǔ)提取策略,通過(guò)提取敏感詞所在短語(yǔ),分析其情感傾向,結(jié)合敏感詞的歸類(lèi)作出告警決策.該方法將分析的粒度由文本細(xì)化到包含敏感詞的上下文短語(yǔ),檢出對(duì)象由“敏感詞”擴(kuò)展到“不良信息”,有效地提高了準(zhǔn)確率.最后通過(guò)在真實(shí)數(shù)據(jù)上的實(shí)驗(yàn)驗(yàn)證了該方法的正確性.
2基于短語(yǔ)級(jí)情感分析的不良信息檢測(cè)
在情感分析中,“情感”的概念被認(rèn)為是表達(dá)者的主觀觀點(diǎn)、態(tài)度和情緒等,所以情感分析也被成為觀點(diǎn)挖掘、評(píng)價(jià)抽取和主觀分析[9].按照分析粒度的不同,情感分析可分為粗粒度情感分析和細(xì)粒度情感分析,粗粒度情感分析只能判斷文本的整體情感傾向,對(duì)于某產(chǎn)品來(lái)說(shuō),產(chǎn)品評(píng)論文本的整體情感傾向并不一定能和產(chǎn)品各個(gè)屬性的情感傾向保持一致[10].本文使用的短語(yǔ)級(jí)情感分析屬于細(xì)粒度情感分析,目的是分析表達(dá)者對(duì)某敏感詞的主觀情感,而不是表達(dá)者的整體情感傾向.
由于PMI方法不適用于小規(guī)模文檔,本文提出一種基于語(yǔ)法規(guī)則的短語(yǔ)提取策略來(lái)提取短語(yǔ),并與二次分類(lèi)后的情感詞典結(jié)合,提出一種短語(yǔ)級(jí)情感分析的方法.方法總體流程如圖1.
目前廣泛使用的情感詞典有知網(wǎng)情感詞典、臺(tái)灣大學(xué)情感詞典等.這類(lèi)情感詞典僅簡(jiǎn)單地將情感詞分為正面情感、負(fù)面情感兩類(lèi),但在中文中,同一個(gè)詞表達(dá)的情感可能因其使用方式不同而不同.如“迫害”一詞,在情感詞典中屬于負(fù)面情感,但在句子“A迫害B”中,表達(dá)者對(duì)A的主觀情感是負(fù)面的,而對(duì)B的主觀情感是正面的(包含一種同情的感情),因此不能簡(jiǎn)單地將“迫害”分為負(fù)面情感詞,而應(yīng)視實(shí)際情況分類(lèi).對(duì)此,本文將情感詞典進(jìn)行了二次分類(lèi),進(jìn)一步細(xì)化了情感詞的情感傾向,然后使用二次分類(lèi)后的情感詞典,制定了語(yǔ)法規(guī)則集用于提取短語(yǔ),同時(shí)將敏感詞按照其性質(zhì)歸類(lèi).在檢測(cè)階段,首先進(jìn)行文本預(yù)處理,將文本按標(biāo)點(diǎn)符號(hào)分句后,對(duì)每個(gè)短句進(jìn)行分詞、去除停用詞處理.然后對(duì)每個(gè)詞進(jìn)行標(biāo)注,標(biāo)明該詞屬于情感詞,敏感詞,還是其他詞.若屬于情感詞,同時(shí)標(biāo)注其所屬類(lèi)別.接下來(lái)逐一對(duì)分詞后的短句進(jìn)行短語(yǔ)級(jí)情感分析,使用語(yǔ)法規(guī)則提取敏感詞所在短語(yǔ)并輸出其情感傾向,最后結(jié)合敏感詞所歸類(lèi)別進(jìn)行告警決策.
3情感詞典的二次分類(lèi)
本文使用的情感詞典衍生自知網(wǎng)情感詞典和臺(tái)灣大學(xué)情感詞典,將兩個(gè)情感詞典合并、去重后,從結(jié)果中人工挑選出具有明顯情感傾向的詞語(yǔ),將其二次分類(lèi)為6大類(lèi):主體正向、主體負(fù)向、受體正向、受體負(fù)向、褒義和貶義.前四類(lèi)主要包含動(dòng)詞,后兩類(lèi)主要包含形容詞,“主體”、“客體”泛指動(dòng)詞的主語(yǔ)和賓語(yǔ),“正向”、“負(fù)向”表示該詞的情感傾向,如“主體正向”代表該詞對(duì)主體的情感是正面的.其中.(1)主體正向(負(fù)向)類(lèi)包括動(dòng)作的主語(yǔ)一般為正面(反面)形象的詞語(yǔ),或表達(dá)者對(duì)動(dòng)作的主語(yǔ)帶有明顯正面(負(fù)面)情感的詞語(yǔ);(2)受體正向(負(fù)向)類(lèi)包括動(dòng)作一般表達(dá)了對(duì)賓語(yǔ)正面(負(fù)面)情感的詞語(yǔ),或表達(dá)者對(duì)動(dòng)作的賓語(yǔ)帶有明顯正面(負(fù)面)情感的詞語(yǔ);(3)褒義、貶義分別包含褒義詞和貶義詞.
分類(lèi)后得到的情感詞典數(shù)量如表1和表2列出了部分例詞.除褒義、貶義外,其余四類(lèi)所包含的詞語(yǔ)允許交叉,如“迫害”、“殲滅”二詞都屬于兩個(gè)不同的類(lèi)別.
4短語(yǔ)級(jí)情感分析
4.1基于語(yǔ)法規(guī)則的短語(yǔ)提取
在二次分類(lèi)情感詞典的基礎(chǔ)上,可以根據(jù)其中的情感詞類(lèi)別組合出人們習(xí)慣使用的表達(dá)不同情感的詞語(yǔ)搭配.如在例句2)中,“迫害”一詞屬于受體正向類(lèi),“法輪功”是其受體且為待檢測(cè)敏感詞對(duì)象,則二者可以組成“受體正向+敏感詞”短語(yǔ),該短語(yǔ)明顯地表達(dá)了對(duì)敏感詞的情感傾向.
結(jié)論
針對(duì)使用字符串匹配方法和粗粒度情感分析方法來(lái)檢測(cè)不良信息時(shí)出現(xiàn)的準(zhǔn)確率低的問(wèn)題,本文綜合考慮了敏感詞與其所在上下文表現(xiàn)的情感極性,提出了一種基于語(yǔ)法規(guī)則的短語(yǔ)級(jí)細(xì)粒度情感分析方法,結(jié)合二次分類(lèi)的情感詞典判定短語(yǔ)情感傾向進(jìn)行告警決策.實(shí)驗(yàn)表明,本文方法在準(zhǔn)確率上較傳統(tǒng)方法有較大的提升.
從實(shí)驗(yàn)結(jié)果來(lái)看,該方法的召回率和準(zhǔn)確率依賴(lài)于情感詞典與語(yǔ)法規(guī)則的完整性.本文使用的情感詞典數(shù)量偏少,還應(yīng)進(jìn)行擴(kuò)充;目前的規(guī)則集由經(jīng)驗(yàn)產(chǎn)生,由于中文語(yǔ)法的多樣性,該規(guī)則集不能完全覆蓋所有句型,在以后的工作中將持續(xù)更新規(guī)則集提高其覆蓋率.