上下文窗口中的單詞共現可能攜帶豐富的語義信息。例如,在大型語料庫中,“固體”一詞與“冰”比“蒸汽”更可能同時出現,但“氣體”一詞與“蒸汽”一起出現的頻率可能高于“冰”。此外,可以預先計算此類共現的全球語料庫統計數據:這可以提高培訓效率。為了利用整個語料庫中的統計信息進行詞嵌入,讓我們首先重新審視第 15.1.3 節中的 skip-gram 模型,但使用全局語料庫統計信息(例如共現計數)來解釋它。
15.5.1。Skip-Gram 與全球語料庫統計
表示為qij條件概率 P(wj∣wi)詞的wj給定的詞wi在 skip-gram 模型中,我們有
任何索引在哪里i載體vi和 ui代表詞wi分別作為中心詞和上下文詞,并且 V={0,1,…,|V|?1}是詞匯表的索引集。
考慮詞wi可能在語料庫中多次出現。在整個語料庫中,所有上下文詞無論在哪里wi被作為他們的中心詞形成一個多重集 Ci允許同一元素的多個實例的單詞索引。對于任何元素,其實例數稱為其多重性。為了舉例說明,假設這個詞wi在語料庫和上下文詞的索引中出現兩次 wi作為他們在兩個上下文窗口中的中心詞是 k,j,m,k和k,l,k,j. 因此,多重集 Ci={j,j,k,k,k,k,l,m},其中元素的多樣性j,k,l,m分別為 2、4、1、1。
現在讓我們表示元素的多重性j在多重集中 Ci作為xij. 這是單詞的全局共現計數wj(作為上下文詞)和詞 wi(作為中心詞)在整個語料庫中的同一上下文窗口中。使用這樣的全局語料庫統計,skip-gram 模型的損失函數相當于
我們進一步表示xi上下文窗口中所有上下文詞的數量wi作為他們的中心詞出現,相當于|Ci|. 出租pij是條件概率xij/xi用于生成上下文詞 wj給定的中心詞wi
評論
查看更多