【雁北笑】
  • 首页
  • 免费办公软件
  • 免费营销软件
  • 免费办公软件使用方法
  • 经验分享
    • 河北秦皇岛SEO
    • 河北秦皇岛SEM竞价
    • 电商运营
    • 自媒体新媒体营销
    • 网站搭建源码
  • 联系站长
Kratos
一款专注于用户阅读体验的响应式博客主题
  1. 首页
  2. 河北秦皇岛seo优化
  3. 正文

分词技术

2015年05月31日 202点热度 0人点赞 0条评论

分词又叫切词,是将连续的字序列按照一定的规范重新组合成此序列的过程。原理是怎么样的那?无非就是三种,基于字符串匹配(机械分词法);基于理解;基于统计;

基于字符串匹配(机械分词法):

正向最大匹配,逆向最大匹配,最少切方法。

基于理解

在分句的同时进行句法,语义分析,利用句法信息和语义信息来处理歧义现象。

基于统计

根据汉子共同出现的频率来分词。

百度搜索引擎有一个专有词典,分词时首先会查询专有词典(人名,部分地名等等),将专有名词切出,剩下的部分采取双向分词策略,如果切出的词相同,说明没有歧义,直接输出分词结果。如果不一致,则输出路径最短的那个结果。如果长度相同,则选择单字词少的那组切分结果。如果单字也相同,则选择正向分词结果。

百度会同时做出多种分词方式,首先不拆分进行找,然后先识别专有名词和新词,再对其余部分拆分,采取双向最大匹配方式拆分。

做seo时要充分利用分词技术,来撰写标题和描述。

河北秦皇岛微信seo



标签: 暂无
最后更新:2015年05月31日

Kratos

保持饥渴的专注,追求最佳的品质

点赞
< 上一篇
下一篇 >

文章评论

取消回复

雁北笑微信公众号:HBWX2015
秦皇岛微信SEO
友情链接
  • seo培训
  • 北京网站优化
  • 廊坊网站优化
  • 微信营销
  • 河北SEO
百度统计
换链神器
卢松松博客大全

COPYRIGHT © 2020 【雁北笑】. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS