從話語學(xué)角度看詞嵌入模型
本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :
Moving beyond the distributional model for word representation.
作家 | Tanay Gahlot
翻譯 | 喬叔叔
校對 | 醬番梨 整理 | 菠蘿妹
原文鏈接:
https://towardsdatascience.com/https-medium-com-tanaygahlot-moving-beyond-the-distributional-model-for-word-representation-b0823f1769f8
從話語學(xué)角度看詞嵌入模型
在任意1個基于機(jī)械學(xué)習(xí)的自然話語解決(NLP)流水線中,詞的向量化是此中典型的1個方法,由于咱們不可直接給計算機(jī)“喂單詞”。在詞的向量化流程中,咱們?yōu)?個單詞指定1個N維的向量,拿來表示它的詞義。結(jié)果,這成了解決流程中最為首要的1個方法之一,由于1個“壞的”表示會造成落敗并且為接下來的NLP任務(wù)帶來不愿看見的牽連。
在詞向量化的最常用的技術(shù)之一就是詞的散布式表示模型。它基于的1個如果是1個詞的意義可以從它所在的高低文中推理出去。大部份深度學(xué)習(xí)論文應(yīng)用基于該散布式理論而來的詞向量,由于它們是“任務(wù)普適”(它們不是對于特定任務(wù))況且“話語普適”(它們不是對于特定話語)。不幸的是,散布式方式并非是詞向量化任務(wù)的魔效兵器。在本博文中,咱們會指出這個方式的許多問題并供應(yīng)許多潛在的處理計劃,以改進(jìn)詞向量化的流程。
散布式表示模型有下列的問題,讓人感覺十分苦痛:
稀有詞:針對在語料中顯現(xiàn)頻率過低的詞,它們不能通過度布式表示學(xué)習(xí)獲得1個較好的表示。
多義混雜:它們將1個詞的一切詞義混成1個表示。比如,單詞“bank”,在英文中能夠指“河岸”或者是“金融機(jī)構(gòu)(銀行)”。散布式模型卻將一切的這類詞義混合在1個表示中。
形式缺失:在表示學(xué)習(xí)的時候,它們并沒有參考1個單詞多種形式。例如,“evaluate”和“evaluates”擁有類似的意義,可是散布式表示模型卻將它們視為2個不同的單詞。(譯者注:在英語中,1個單詞也許有多種形式,特別是動詞,偶爾態(tài)、人稱、被動主動等相應(yīng)的不同形式。在本例中evaluates是evaluate的第三人稱雙數(shù)的通常如今時的形式。)
幸運的是,為了解決這類問題,大家進(jìn)行了十分全面的研發(fā)。大抵上,這類處理方法能夠劃為3個首要類型。咱們將會根據(jù)以下的次序一一簡介:
形式敏感嵌入
在詞嵌入中,將話語或性能束縛進(jìn)行加強(qiáng)。
多詞義解決
形式敏感嵌入
這類技術(shù)在學(xué)習(xí)詞嵌入的時候,將詞的形式進(jìn)行了參考。Fasttext就是這類技術(shù)的1個典型代表。它將1個單詞表示成了n-grams(n元模子)字符的匯總。比如單詞where就能夠表示成
在應(yīng)用這類方式(下表的sisg)對許多詞匯形式充足的話語,例如德語(De)、法語(FR)、西班牙語(ES),俄語(RU)和捷克語(Cs),進(jìn)行話語建模的時候,經(jīng)評價,相較于沒有應(yīng)用預(yù)訓(xùn)練詞向量的LSTM,并且應(yīng)用了預(yù)訓(xùn)練詞向量卻沒有有關(guān)詞根數(shù)據(jù)的LSTM模型(下表的sg),成效都有了改進(jìn)。
況且,既然fasttext將單詞表示為n元字符(n-gram)的組合,因而它就能為那些語料庫中從來沒有顯現(xiàn)過的詞供應(yīng)嵌入。在許多行業(yè)如生命科學(xué)行業(yè),因為詞匯表十分有限(長尾情況),語料中大部份的單詞都納入到未知類型中,該技術(shù)就顯得特別有用。
Morphfitting供應(yīng)了此外1個技術(shù)選項拿來將詞的形式填寫到詞嵌入模型中。在這項工作中,他們用“相吸相斥”(Attract-Repel)方式來“后解決”(post-process)詞嵌入,該方式“聚焦”波折形式(通過詞的形態(tài)改變來表示有意思的句法數(shù)據(jù),例如動詞時態(tài),卻不變化詞義),而“排擠”派生形式(新形態(tài)的單詞顯現(xiàn)同時詞義也產(chǎn)生遷移改變)。在下一部份咱們會全面研討“相吸相斥”方式。
通過注入話語形式學(xué)的束縛,Morphfitting在SimLex和SimVerb2個信息集上的有關(guān)系數(shù)評價中都超越了下表給出的10個規(guī)范嵌入模型。
在詞嵌入中,將話語或性能束縛進(jìn)行加強(qiáng)
此外一種詞空間定論的方式是在詞嵌入的后解決中進(jìn)行話語/性能束縛。在上一節(jié)中咱們已然看見這種方式的1個例子—Morphfitting。在這一節(jié),咱們將會開拓一下Morphfitting中應(yīng)用的定論詞嵌入的方式—相吸相斥法(Attract-Repel)。
相吸相斥法(Attract-Repel)是一類后解決技術(shù),它依據(jù)話語束縛將預(yù)訓(xùn)練的詞嵌入進(jìn)行進(jìn)一步定論。比如,在Morphfitting中,話語束縛是以兩類合集的形態(tài)來表示,再次給出表格2如下:
表格的上半部份是“相吸合集”(譯者注:由多個詞義相近的單詞對構(gòu)成的合集),下半部份是“相斥合集”(譯者注:由多個詞義不同的單詞對構(gòu)成的合集)。借用這類合集,1個迷你批次就生成了,它能夠拿來優(yōu)化以下的損失函數(shù):
損失函數(shù)中的第一項相應(yīng)的是相吸合集,第二項相應(yīng)的是相斥合集。第三項則保留了散布式表示。況且,前面兩項也會引入負(fù)樣例,這是采取了PARAGRAM模型的主意。損失函數(shù)(又:本錢函數(shù))的前兩項由下式給出:
第三項由下式給出:
人們能夠用“相吸相斥”法注入用相吸相斥集來表示的話語束縛,例如“同義與反義”或者“波折形式與派生形式”。而對應(yīng)地,那些不能借用話語束縛來表示的“類似性”或者“非類似性”,人們就不可進(jìn)行詞嵌入定論了。比如,不同“治愈”型號的聯(lián)系,就不能用相吸相斥法來捕捉。為了順應(yīng)如此的性能聯(lián)系,咱們簡介此外一類方式叫做“性能改裝”(Functional Retrofitting)。
在性能改裝方式中,聯(lián)系的語義學(xué)習(xí)與詞空間的學(xué)習(xí)是同步進(jìn)行的。而獲取這一點的方式,首要是將相吸相斥法中的點積更換成1個優(yōu)化學(xué)習(xí)流程得來的函數(shù)。
上式中的第一項保留了散布式嵌入,第二項和第三項則引入了常識圖譜中的正向聯(lián)系空間(E+)與負(fù)向聯(lián)系空間(E-)(譯者注:負(fù)向聯(lián)系空間是沒有在常識圖譜中表明的聯(lián)系的合集),最終一項在學(xué)習(xí)函數(shù)中施行正則化性能。
通過在國際體系醫(yī)學(xué)術(shù)語集(SNOMED-CT)之上預(yù)判2個實體(i,j)之間的聯(lián)系(r)而做的鏈路預(yù)判,性能改裝方式的語義學(xué)習(xí)成效獲得了驗證。四種不同型號的性能改裝方式分別對四種聯(lián)系( “擁有發(fā)掘部位Has Finding Site”、 “擁有病理流程Has Pathological Process”、 “誘因Due to”、 “病癥Cause of”)進(jìn)行了預(yù)判,其結(jié)果如下表所示:
更多對于性能改裝的數(shù)據(jù),你能夠考慮一篇由Christopher Potts寫的優(yōu)質(zhì)blog。假設(shè)你須要性能或話語束縛來進(jìn)一步定論你的詞嵌入,請試用Linked Open Data Cloud上優(yōu)質(zhì)的、擁有互聯(lián)聯(lián)系的本體匯編。
上述的方式刷新了各次匯報的詞嵌入。假設(shè)你對定論全部詞空間感興致,你能夠用反向傳遞來如此做,正如Ivan Vuli?和Nikola Mrk?i?在EMNLP 2018論文中倡議的那樣(Adversarial Propagation and Zero-Shot Cross-Lingual Transfer of Word Vector Specialization)。
多詞義解決
最終一種詞嵌入定論技術(shù)是參考詞的多義性,或者是參考詞的高低文,或者是借用詞義庫。讓咱們先以前一種方式開啟 – ELMO。
在ELMO中,詞是基于高低文而被向量化的。因而為了可以用向量表示1個詞,人們也須要指定某個詞顯現(xiàn)的高低文。與那些沒有參考高低文的向量化技術(shù)相較為,這個方式已然證實是十分有效的。下例較為了ELMO(biLM)和Glove的較近鄰。
ELMO背后的根本意識是得出雙向話語模型(BiLM)逐個旁邊層的內(nèi)部狀況加權(quán)匯總并且最終一層的字符卷積網(wǎng)絡(luò)表示。
ELMO的詞嵌入在3個下游任務(wù)SQuAD、SNLI和SRL中進(jìn)行了測驗,相較于基準(zhǔn)它有了明顯的改善。
更多對于ELMO的數(shù)據(jù),請考慮這篇AllenNLP寫的博文。假設(shè)你想從散布式詞表示中應(yīng)用詞匯資源來壓縮語義,你能夠用DECONF。在這個方式中,Mohammad Taher Pilehvar提出了一類體制來應(yīng)用以下的優(yōu)化規(guī)范,進(jìn)而從散布式嵌入中壓縮語義嵌入:
上式中,第一項保留了語義散布表示的近似,第二項會將詞義嵌入向產(chǎn)生偏移的詞義推得愈加挨近許多。這個流程能夠很清楚地用下圖來描繪。
偏移詞集是用1個定制的Page Rank算法基于1個詞匯術(shù)語(借用詞匯資源創(chuàng)立而來)的語義網(wǎng)絡(luò)計算而來的。
咱們應(yīng)用4個單詞類似度基準(zhǔn)方式分別做了皮爾森有關(guān)有關(guān)性和斯皮爾曼有關(guān)性評價,DECONF在絕大多數(shù)任務(wù)中都獲得了最超前的結(jié)果,如下表所示:
論斷
假設(shè)如處在沒有充足訓(xùn)練信息來重新學(xué)習(xí)詞嵌入的景況,我高度舉薦應(yīng)用上面提及的詞表示的方式來獲得許多百分比的改進(jìn)。對于本話題更深入的研討,我高度舉薦Ivan Vuli?在ESSLLI 2018中Word vector specialisation的課程。
要想持續(xù)查閱該篇文章有關(guān)鏈接和考慮文獻(xiàn)?
長按鏈接點擊翻開或點擊【從話語學(xué)角度看詞嵌入模型】:
https://ai.yanxishe.com/page/TextTranslation/1181
AI研習(xí)社每天刷新精彩內(nèi)容,觀看更多精彩內(nèi)容:
這5種計算機(jī)視覺技術(shù),更新你的世界觀遷移學(xué)習(xí):怎樣將預(yù)訓(xùn)練CNN當(dāng)做特點提煉器新人必讀:深度學(xué)習(xí)是什么?它的工作原理是什么?Python頂級方法:用一行代碼減小一半內(nèi)存占用
等你來譯:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
預(yù)訓(xùn)練模型及其運用 一文帶你讀懂線性分類器 (Python)3D人臉解決工具face3d 讓你的電腦具有“視力”,用卷積神經(jīng)網(wǎng)絡(luò)就能夠!