常见的百度中文分词技术有哪些?
什么叫百度中文分词技术
百度中文分词技术就是将一段句子分成多个单独的词语,对用户提交的关键词串进行处理后,再根据用户关键词串进行匹配一种技术,虽然分词技术是谷歌搜索创作出来的,但在中文分词技术方面还是百度比较领先。
我们作为SEO从业者,中文分词技术是必须要掌握的,因为只有掌握了搜索引擎的分词思维技术,才可以定位出搜索引擎和用户喜欢的关键词,下面大兵给大家简单介绍下百度搜索引擎中文分词技术。
常见的百度中文分词技术有哪些?
常见的百度中文分词技术主要有:字符串匹配分词法、词义分词法及统计分词法。
1、字符串匹配方法
在百度搜索“我喜欢玩宠物连连看”,排在百度搜索第一名一般都是与标题内容吻合度最高的内容,说明在一般情况下,百度搜索都是先匹配与搜索内容完全符合的内容,而我们查看第二页百度快照内容,“我喜欢玩宠物连连看”就被分成了“我喜欢、玩、宠物连连看”,再往后面看,被分成了“我、喜欢玩、宠物、连连看”,这种匹配关键词的方法是最少切分方式。
2、理解分词方法
搜索≤3个中文字符,百度分词技术会直接接到数据库索引词汇,而当搜索》4个中文字符时,百度分词会把这个关键词分成若干个字符,例如搜索“拖拉机”。
3、统计分词方法
相邻的字符出现的次数越多,百度中文分词技术就有可能会将相邻的字符当成一个词,例如百度搜索“网”,在搜索结果中,百度将“网站“这两个字符都标红了,因此就可以得知“网”与“站”是相邻字符出现次数较多的,百度统计分词技术已经将“网站”纳入了词库。
百度中文分词技术案例分析
下面我们以搜索“长沙网站建设”为例,假如这个关键词就是你搜索的关键词,用字符串匹配分词技术分词是“长沙网站建设”,用理解分词技术分词是“长沙网站”和“网站建设”,用统计分词技术分词的“长沙”、“网站”、“建设”。
一个关键词被分成这么多个词,百度搜索依然还会按照这些分词词语的匹配、词义的匹配、词语出现的频率,最后决定根据哪些关键词捕捉网页内容。
不啰嗦了,直接讲实例,百度搜索“长沙网站建设”,我们可从搜索结果中得知,除了竞价广告外,排在前几名的大多是“长沙网站建设“及其它分词的内容。
在搜索结果中,也许有些人会有疑问,有些词义不相近的内容为什么排名也很靠前,例如:
出现这个问题主要是因为关键词排序除了匹配度以外,内容的被关注率、外链及网站权重都是会影响排序。影响网站关键词排序的因素有哪些,这里大兵就不做详细地讲解了,大家可以参考《浅谈影响网站关键词排名的因素》这篇文章。
接着我们再来看下百度快照内容:
以上“长沙网站建设”被标的颜色为黄色,这也是百度搜索给的网页关键词的权重分值,颜色排序顺序为黄色>蓝色>绿色,以上关键词标的全部是黄色,这也是网站为什么排在前面的原因。
上面我们讲的这个实例,优先考虑的排序的内容应当是“长沙网站建设”及与“长沙网站建设”相关的内容,接着考虑才的是“长沙网站”,再考虑才是“网站建设”,因为“建设“这个关键词太泛了,因此就不考虑了。
通过了解百度中文分词技术,熟悉网民的搜索习惯,可帮助我们更容易定位关键词,也可帮助我们更容易提升网站关键词排名。
对于百度中文分词的理解:
关于百度中文分词技术,大兵需要强调一点的就是“按照关键词长度优先匹配的情况,可分为最大(最长)匹配和最小(最短)匹配”,文章内容中长尾关键词分布的间距也是决定的文章排名的因素,例如上面我们搜索的“我喜欢玩宠物连连看”,百度13页就被分成了“我、喜欢、玩、宠物、连连、看”,由此可以可看完全匹配的内容排序是高于分开的词的权重,根据观察得知,百度搜索大部分搜索结果匹配方式都是使用正向匹配,百度分词对于一句话分词以后,还会去掉一句话中没有意义的词语。