更新時間:2022年11月28日12時21分 來源:傳智教育 瀏覽次數(shù):
分詞是指將由連續(xù)字符組成的語句,按照一定的規(guī)則劃分成一個個獨立詞語的過程。不同的語言具有不同的語法結(jié)構(gòu),以常見的英文和中文為例,英文的句子中是以空格為分隔符的,所以可以指定空格為分詞的標(biāo)記,而中文并沒有一個形式上的分界符,它只有字、句和段能通過明顯的分界符來簡單地劃分。因此,中文分詞要比英文分詞困難很多。
根據(jù)中文的結(jié)構(gòu)特點,可以把分詞算法分為以下三類:
基于規(guī)則的分詞方法,又稱為機械分詞方法,它是按照一定的策略將待分析的中文句子與一個“充分大的”機器詞典中的詞條進(jìn)行匹配。如果在詞典中找到了某個字或詞語,則表示匹配成功。
基于規(guī)則的分詞方法,其優(yōu)點是簡單且易于實現(xiàn),缺點是匹配速度慢,而且不同的詞典產(chǎn)生的歧義也那你慢慢弄,,,嗎會不同。
基于統(tǒng)計的分詞方法,它的基本思想是常用的詞語是比較穩(wěn)定的組合。在上下文中,相鄰的字同時出現(xiàn)的次數(shù)多,就越有可能構(gòu)成一個詞,所以字與字相鄰出現(xiàn)的頻率能夠較好地反映成詞的可信度。當(dāng)訓(xùn)練文本中相鄰出現(xiàn)的緊密程度高于某個閾值時,便可以認(rèn)為此字組可能構(gòu)成了一個詞。
基于統(tǒng)計的分詞方法所應(yīng)用的主要統(tǒng)計模型有:N元文法模型(N-gram)、隱馬爾可夫模型(Hiden Markov Model,HMM)、最大熵模型(ME)、條件隨機場模型(Conditional Random Fields,CRF)等。
基于理解的分詞方法是通過計算機模擬人對句子的理解,達(dá)到識別詞的效果,它的基本思想就是在分詞的同時進(jìn)行句法、語義分析,利用句法信息和語義信息處理歧義對象。這種分詞方法需要使用大量的語言知識和信息。
由于漢語語言知識的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。