亚洲国产精品第一区二区_操操操av_国产欧美日本_成人在线影视_一区二区中文字幕_国产精品二区一区

您當前的位置主頁 > SEO優化 > 瀏覽文章

Python無監督抽詞

來源:SEO優化 2012-10-13

快速提升網站銷量,使用365webcall網站客服系統

如何快速正確分詞,對于SEO來說,是提取tags聚合,信息關聯的好幫手。

目前很多分詞工具都是基于一元的分詞法,需要詞庫來輔助。

通過對Google黑板報第一章的學習,如何利用統計模型進行分詞。

本方法考慮了3個維度:

凝聚程度:兩個字連續出現的概率并不是各自獨立的程度。例如“上”出現的概率是1×10^-5,”床”出現的概率是1×10^-10,如果這兩個字的凝聚程度低,則”上床”出現的概率應該和1×10^-15接近,但是事實上”上床”出現的概率在1×10^-11次方,遠高于各自獨立概率之積。所以我們可以認為“上床”是一個詞。

左鄰字聚合熵:分出的詞左邊一個字的信息量,比如”巴掌”,基本只能用于”打巴掌”,“一巴掌”,“拍巴掌”,反之”過去”這個詞,前面可以用“走過去”,“跑過去”,“爬過去”,“打過去”,“混過去”,“睡過去”,“死過去”,“飛過去”等等,信息熵就非常高。

右鄰字聚合熵:分出的詞右邊一個詞的信息量,同上。

下面是一個利用Python實現的demo(轉自:/?p=682

收藏本文

文章編輯: 365webcall在線客服系統(www.365webcall.com)

我的評論

登錄賬號: 密碼: 快速注冊 | 找回密碼

主站蜘蛛池模板: 精品视频久久 | 91国内产香蕉 | 在线观看国产wwwa级羞羞视频 | 精品久久久久久久久久久久久久 | 国产精品综合一区二区 | 国产精品久久久一区二区 | 午夜黄色影院 | 久久首页 | 国产精品久久久久久久久岛 | 欧美精品一区二区在线观看 | 国产第一页在线播放 | 国产欧美精品 | 成人h动漫免费观看网站 | 91中文字幕在线观看 | 国产精品一级在线观看 | 国产偷录视频叫床高潮对白 | 国产成人av在线 | 男女啪网站 | 在线观看黄色av | av一区二区三区在线观看 | 久久韩剧 | 欧美午夜精品久久久久久浪潮 | 七龙珠z普通话国语版在线观看 | 久久精品一 | 久久国产精品99久久久久久老狼 | 欧美精品三区 | 天堂精品一区 | 国产精品一区在线观看 | 狠狠干夜夜操 | 久久99国产一区二区三区 | 午夜精品一区二区三区在线播放 | 免费不卡视频 | 日本xxxxxxx| 欧美日韩免费一区 | aaaaaa毛片| 久草视| 亚洲精品一区二区三区四区高清 | 国产精品美女在线观看直播 | 美足av| 国产成人一区二区三区 | 亚洲日韩欧美一区二区在线 |