搜索官方的一篇相关性文章分享




议程概述检索词用户的信息需求网页的自有信息网页的附属信息相关性的计算框架概述相关性的表象检索词与被检索网页的相关联程度相关性的真实意义用户信息需求与结果网页所提供的信息的重合度相关性涉及的因素检索词用户信息需求网页自有信息网页附属信息检索结果的显示方式网页与普通文本的不同:异质性来源不单一新闻记者研究人员商业人士个人用途不单一新闻商业及产品信息个人爱好娱乐信息研究及学术信息产生方式多样化手工及发布系统动态与静态时效性:不同时间产生动态性:可随时间变化欺骗与造假检索词语义实体名人名地名公司及机构名商品及服务名其他专有名词名普通名词其他类别名其他信息格式语种结构化,非结构化信息类别研究信息商品及服务信息宗教文化娱乐信息新闻个人信息检索词格式数值布尔运算(AND, OR, NOT)特殊语法(网站检索,类别检索,filetype,linkto)Rank Query检索词 - 相关性处理实体名的判定用于网站首页加权检索词分类用于与网站网页分类结合加权信息类别的分类与统计行业与地域的分类与统计检索格式的分析单语素与多语素AND检索的研究网页分类两种体系按网页结构信息分类(主页,频道页,检索页,错误页,租用页…)按网页内容主题分类(体育,保健,娱乐,教育..)用户的信息需求检索任务的多样性确定的特定信息的查询知识获取式的浏览目的不明确的浏览:在过程中形成目的检索词的语义多样性检索范围的不确定性信息种类行业,地域,等等检索成功的标准不一实体名,有特定网站,- 导航型查询实体名,无特定网站,有相关网站 - 事务型查询一般信息,无网站信息,许多网页提及 - 信息型查询一般信息,无网站信息,很少网页提及 - 信息型查询个人知识结构与兴趣个人的信息精确性和多样性要求程度用户的信息需求- 相关性设计结果首页尽量显示多个类型的网页功能,多分类和垂直搜索结果整合设计个性化排序设计检索日志的后台分析用户行为数据挖掘网页的自有信息(属性)文本信息:字,词,短语,句子,段落,篇章文本特征信息标题正文文章长度知识量其他特征:黑体,链接,等等结构信息导航(一级导航,二级导航。。。)广告(文字链,banner)图片引用(博客,论坛),版权说明等等语义信息文章类型:综述/细节,新闻,科技与研究,个人,特种文件链接地域信息行业信息语种信息网页的自有信息 - 相关性设计切词一致性与准确性正文内容的歧义消解,未登录词识别查询词切分和正文切分的一致性问题处理文本特征提取与权重指定标题的准确性标题提取规则:URL,标题等实际标题标题的真实性标题长度截取标题验证去除人工错误标题作弊判别无正文的标题处理正文的准确性广告文字网页模板文字iframe处理js 内容处理正文的真实性语义tag的引入特征tag的权重和调整文章长度的调整系数对超长文章的修正DOC,PPT,PDF处理网页的自有信息 - 相关性设计结构信息提取与处理首页和频道首页的识别和标记,将使用网站PR导航区的统计,识别和标记用于首页识别,链接将不参与PR及外部锚文本的计算网站附属页的统计,识别和标记赋予网站相关的PR, 链接将不参与PR及外部锚文本的计算广告链接的统计,识别和标记,将不参与PR及外部锚文本的计算内容分析通过特征统计结合手工方式进行网站分类文章类型信息:新闻页的特殊标记地域信息行业及其他分类信息中英文比例调整网页的附属信息(属性)网页本身的附属信息URL:长度与级数,动态与静态产生时间网页文件大小可连接程度连通率死链情况内容的稳定性:更新周期生命周期所属域名及网站特性类别权威性网页由环境所产生的附属信息在网站内的重要性:首页,频道,外部被链接数量全局权威性:被别人的认可程度时效性:距今时间真实性:实际内容信息与文本和附属信息的吻合度重复性:与其他网页内容的重合度信息内容和质量:别人对内容的认可程度用户的评价深度和广度网页的附属信息-相关性处理时间信息参与排序新闻页的倒排: 强影响网页的时间因素:弱影响不影响首页和频道首页连通率与更新率参与排序弱连通的减权死链的减权更新频度参与减权网站特性网站分类与检索词的吻合提高相关性网站真实性参与相关性计算:作弊连接网站的黑名单(Link Farm)TrickRank网站重要性:网站DR(Domain Rank)Block PR计算站内PR,网站分别计算计算站外PR,不考虑站内链接排重和保留镜像列表: PR和外部锚文本的传递首页排重规则内容排重规则跳转的类型和规则: PR和外部锚文本的传递外部锚文本的真实性链接交换网站黑名单正文验证去躁相关性的计算框架主要设计模式有公式-相关性排序无公式人工神经网络(MLR)针对检索词和用户信息需求综合分析确定策略人工和程序结合提高网页自有信息的提取和处理能力提高锚文本包含的词质量,防止作弊PR,DR,TR结合,提高网页权威性判定质量,保证首页,索引页靠前增加网页附属信息参与排序增加各因素之间的交叉验证对部分高频词做手工调整(homony)相关性排序的周边技术下载正文分析切词手工与程序分类PR,DR,TR计算锚文本词处理遗传算法训练排序因子

发表评论

电子邮件地址不会被公开。 必填项已用*标注