分词技术




分词又叫切词,是将连续的字序列按照一定的规范重新组合成此序列的过程。原理是怎么样的那?无非就是三种,基于字符串匹配(机械分词法);基于理解;基于统计;

基于字符串匹配(机械分词法):

正向最大匹配,逆向最大匹配,最少切方法。

基于理解

在分句的同时进行句法,语义分析,利用句法信息和语义信息来处理歧义现象。

基于统计

根据汉子共同出现的频率来分词。

百度搜索引擎有一个专有词典,分词时首先会查询专有词典(人名,部分地名等等),将专有名词切出,剩下的部分采取双向分词策略,如果切出的词相同,说明没有歧义,直接输出分词结果。如果不一致,则输出路径最短的那个结果。如果长度相同,则选择单字词少的那组切分结果。如果单字也相同,则选择正向分词结果。

百度会同时做出多种分词方式,首先不拆分进行找,然后先识别专有名词和新词,再对其余部分拆分,采取双向最大匹配方式拆分。

做seo时要充分利用分词技术,来撰写标题和描述

河北秦皇岛微信seo

发表评论

电子邮件地址不会被公开。 必填项已用*标注