分词又叫切词,是将连续的字序列按照一定的规范重新组合成此序列的过程。原理是怎么样的那?无非就是三种,基于字符串匹配(机械分词法);基于理解;基于统计;
基于字符串匹配(机械分词法):
正向最大匹配,逆向最大匹配,最少切方法。
基于理解
在分句的同时进行句法,语义分析,利用句法信息和语义信息来处理歧义现象。
基于统计
根据汉子共同出现的频率来分词。
百度搜索引擎有一个专有词典,分词时首先会查询专有词典(人名,部分地名等等),将专有名词切出,剩下的部分采取双向分词策略,如果切出的词相同,说明没有歧义,直接输出分词结果。如果不一致,则输出路径最短的那个结果。如果长度相同,则选择单字词少的那组切分结果。如果单字也相同,则选择正向分词结果。
百度会同时做出多种分词方式,首先不拆分进行找,然后先识别专有名词和新词,再对其余部分拆分,采取双向最大匹配方式拆分。
做seo时要充分利用分词技术,来撰写标题和描述。
文章评论