百度SEO搜索引擎核心技术之中文分词

百度SEO搜索引擎核心技术之中文分词

百度中文分词对于SEO工作人员来说是一定懂的,属于新手必须部分,但是网上很多SEO培训课程里面是没有这个章节,大多还属于浅层的操作思路,而没有重视搜索引擎原理。

百度中文分词是搜索引擎的核心技术之一,SEO人员需要了解中文分词是什么?如何利用中文分词做SEO?下面博客之家就这几个问题展开详细介绍。

中文分词有三种方法:字符串匹配分词法、词义分词法以及统计分词法。

一、 字符串匹配分词法,百度常用的中文分词技术
简单来说就是把长尾词按照规则拆分,了解一篇文章的主题内容等。每个搜索引擎会有一个类似字符串做基础的机械词典,每个机械词典之间还会有优先级。

字符串匹配分词法最常用的有以下四种:

1、正向最大匹配法(由左到右的方向)

就是把一个词从左至右来分词。

举个例子:”不知道你在说什么”这句话采用正向最大匹配法是如何分的呢?“不知道,你,在,说什么”。

2、逆向最大匹配法(由右到左的方向)

举例说明:“我想去马尔代夫旅游”,逆向最大匹配分词:我想,想去,马尔代夫,旅游

3、最少切分(使每一句中切出的词数最小)

还是拿“我想去马尔代夫旅游”做案例,最少切分:我把上面哪句话分成的词要是最少的“我想去,马尔代夫旅游”这就是最短路径分词法,分出来就只有2个词了。

4、向最大匹配法

而有一种特殊的情况,就是关键词前后组合内容被认为粘性相差不大,而搜索结果中也同时包含这两组词的话,百度会进行正反向同时进行分词匹配。

博客之家提醒:各种搜索引擎的机械词典不同,分出来的词也不同。

二、语义词义分词法,理解层面的分词,尚不成熟。
语义词义分词不依托机械词典。通过让计算机模拟人对句子的理解,达到识别词的效果,主要是进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,现在还不成熟,但是也在使用中。

举例说明:“长沙网站建设”词义分词是“长沙网站”“网站建设”

三、统计分词法。
统计分词法是根据词组的统计,发现那些相邻的字出现的频率高,那么这个词就很重要。可以作为用户提供字符串中的分隔符。比如还是拿“长沙网站建设”举例:统计分词是“长沙”“网站”“建设”

博客之家:个人认为百度中文分词大多数使用的是正向最大匹配分词。几种分词中统计分词法得到的词或句子的权重略高于字符串匹配的,简单理解就是完全匹配高于分开匹配,当然这也要看具体情况,本人写文章主要是为了分享以及探讨。

百度分词中一般会去掉一些无用的关键词,如的、啊、是等等。

 

未经允许不得转载:杂烩网 » 百度SEO搜索引擎核心技术之中文分词

评论 0

#快捷签到点我#

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

置顶文章