SEO优化与搜索引擎自然语言处理关系

自然语言处理包括文本朗读、语音识别、分词、词性标注、句法分析、文本分类、自动摘要等技术范畴。在中文搜索领域,  自然语言处理可以帮助搜索引擎深入认知中文语言表达的含义和意图。


自然语言处理作为搜索引擎的技术之本、核心技术之一,几乎搜索引擎的每个技术环节都需要自然语言处理技术,也没有其他领域比搜索引擎更依赖于自然语言处理技术。所以学习SEO务必要学习搜索引擎的自然语言处理原理。





 
 
英文分词
 
分词是自然语言处理过程中对文本处理的最基本工作,是自然语言理解的基础。从语言学的角度讲,分词技术是将语句拆分成语句的习的各个组成的单元;从搜索引擎角度讲,分词技术是将长文本拆分为可理解的短文本信息,目的是更好地进行文本分析。在中文搜索引擎领域,分词主要包含英文分词和中文分词。



 
英文分词作为中文搜索领域中非常重要的一部分,它的分词效果也会对结果产生非常重要的影响。然而英文分词相对中文分词算法比较简单,首先只需要通过指定分隔符进行英文单词切分;其次是对切分好的单词进行单词还原(lemmatization),例如,将“got”还原为“get”;最后,可以选择是否移除用词即可。

 
seo原理
 


 
(1)单词还原。

单词还原涉及两个问题,一个是词形还原:把一个单词还原为单词的一般形式;另外一个是词干提取,并不是指利用词形还原词典对英文单词进行词形还原。


通过波特词干算法( Porter Stemmer)进行词干提取,词干提取是还原词语的修饰形式,得到单词最一般的写法形式,并不完全是词形还原,而是将词转换为词根,例如“fishing”“fished”“fish”和“fisher”为同一个词根“fish”通过转变而来,因此只需要将前四个单词还原为“fish”即可。



 
 
波特词干算法可以利用词库实现,也可以利用规则实现。在工程应用中,一般采用基于规则实现,首先处理单词复数形式及“ed”和“ing”结束的单词,例如,将“meetings”转换为“meet”;


其次是如果单词中包含元音并且以“y”结尾,将“y”改为“i”;然后将双后缀的单词映射为单后缀;最后再处理类似“-ic-”“-full”“-ness”“-ant"‘-ence”等后缀;波特词干算法中提取到的词干并不一定正确,但可以保证用户的输入和后台的处理是一致的。
 
 


 
(2)停用词处理。

在搜索引擎的搜索及数据分析过程中,为节省存储空间和提高效率,对被处理的自然语言数据(或文本)执行分析之前,会自动过滤掉一些字符或单词,这些词又称为停用词。

原因在于停用词对于搜索引擎无法产生具体价值,对搜索结果也无法做到区分,与句子中的关键词恰好相反。
 

 
停用词并非自动生成,而是手动创建。这些停用词包括“is”“on”“at”等词汇,主要包括广泛无意词和无明确限定词。广泛无意词是表示被广泛使用的词汇,但是在实际搜索中不会产生实际意义的词。


从词性角度讲,停用词是一些无明确限定词,涵盖语气助词、副词、介词、连接词等词语,这些词语对于句子的重要性需要在具体的语义环境中才能足够体现。


过滤掉停用词,有助于搜索引擎减小搜索范围,减少搜索索引量和文档量,对于提升搜索整体性能,有着积极效果和作用。
 

 
对于英文分词,除按照空格正常分词的方法之外,还可以采用N-Gram分词方法。N-Gram是一种基于前后词语关系的语言模型,该模型表示当前词语仅与前面第N-l个词语相关,而与其他词汇均不相关。
 





 
中文分词

 
不言而喻,中文中最小白是字,但具有语义的最小单位是词,这是区分中文分词技术和英文分词技术中最重要的理论基础,也是导致切分方式不同的原因。


中文分词技术是一项关键的技术,尽管目前的中文分词技术已经比较成熟,但是它依然在语义分析方向上有很大的发展空间,需要尽可能以自然语言的理解方式去分词。


 
中文分词概述

 
中文分词过程中不仅要做到语义分析,还包括多重性分词。多重性分词是指分词结果尽可能多种多样。如果不能很好的理解,可以做下SEO笔记 。


例如,句子“中国科学技术大学在哪?”这样一个简单的语句却包含了搜索中非常难处理的问题,正常情况下分词结果为:“SEO培训优化公司\在哪\?”


看似很完美的分词效果,但是对于大数据时代的搜索引擎来说,并不是理想的分词效果,为了提供更好的搜索结果,会做到如下分词:“SEO培训公司\在哪\SEO\外包\公司\SEO培训\”



这是分词的原子化,不仅描述全局,更深入到细节,这为搜索结果提供了很好的技术支持。另一方面,为了得到很好的结果,最好在进行语义分析的同时,分析用户搜索意图,判断出原本用户最期待的答案是“乐天西乡”,但是这对自然语言处理的要求相对较高。


 
 
中文分词的方式有很多种,最常用的是基于词库的分词方式。但是对于搜索引擎使用的自然语言处理框架,仅仅采用基于词库的分词还是不够的,还需要利用机器学习的方式,采用基于上下文信息的分词技术,  目前公认的机器学习方式能够达到的较好效果是基于条件随机场模型( Conditional RandomFields)的中文分词技术。




 

 
基于词库的分词技术
 
在词典的分词方法中,逆向最大匹配分词是常用的方式之一,在一般情况下,匹配效果较为满意,准确程度也在一定程度上依赖于词库。


同理也存在正向最大匹配分词,这里的逆向最大和正向最大表示分词时允许每一次读取的最大文本长度。

 
 
seo与分词
 



正向最大匹配实质是在每次从头开始读取最大文本长度之后,去词库中查询该词是否存在,如果不存在,则减少一个字,再去词库中查询该词是否存在,依次类推,直到找到一个词为止。


例如,假定某词库中包含“乐天SEO培训公司”“SEO培训公司”“SEO培训”“SEO培训公司‘SEO”等词。对于句子“乐天SEO培训公司”的正向最大匹配顺序。



乐天SEO培训 公 司
 0  1  2  3  4  5  6


 
设定最大匹配长度为5,则首先从字符串的开始位置依次取5个长度的词语“乐天SEO培训”,将其与词库比较,若词库不存在“乐天SEO培训”,则将“SEO培训公司”与词库比较,结果命中词库,则意味着可以将“SEO培训公司”视为一个词。依次将剩余字符串按照相同方法进行词库比较,最终分词结果为“SEO培训公司/外包/公司”。




逆向最大匹配计算过程同正向最大匹配一致,唯一不同的是对匹配顺序的改变,匹配顺序如下。




 
同样设定最大匹配长度为5的情况下,则从字符串的尾部位置向前依次取5个长度的词语“SEO培训公司”与词库进行比较,若不能匹配上词库则减少一个字符,将“SEO培训”与词库进行比较,依次类推。最终分词结果与采用用正向最大匹配分词方法的结果一致。



 
搜索引擎分词


 
逆向最大匹配与正向最大匹配都各自拥有自己的优势,但是基于相同词典的情况下,工程应用表明,逆向最大匹配分词方式优于正向最大匹配分词方式。



例如,针对句子“发展中国家领导人正在开会”设定正向最大匹配长度为5,则按照正向最大匹配思想分词结果为:“/发展/中国/家/领导人/正在/开会”。


然而按照逆向最大匹配分词结果为:“/发展/中/国家/领导人/正在/开会”。


 
 
当然并不是逆向最大分词方法时时刻刻都是最优的,逆向最大分词方法也存存效果差于正向最大匹配的情况,例如,“庞大数据”按照逆向最大分词方式会被分词为“庞/大数据”,而实际上“庞大/数据”略好。
 
 
在工程应用中,会将正向最大匹配分词方式与逆向最大匹配分词方式结合,俗称“双向匹配分词”。


对于被分词的句子采用两种方法分别进行分词处理,然后将两者的分词结巢讲行比较,如果分词结果两者一致,则盲梧输出即可。如果不一致则按照如下原则优先输出。



 
(1)分词结果中词越少越优先输出。例如,“三角形和平行四边形”,正向最大匹配分为“三角形/和平/行/四边形”,而逆向最大匹配分词结果为“三角形/和/平行四边形”,分别产生四个词语与三个词语,因此优先输出“三角形/和/平行四边形”。



 
 
(2)分词结果在词库中能够找到的越完排价出恩示。例如,“售后和服务”,按照最大正向匹配为“售后/和服/务”,词典中能够找到“售后”“和服”,而“务”不存在单独的词;按照逆向最大匹配为“售后/和/服务”,在词典中三者均能够找到。因此,优先选用逆向最大匹配结果“售后/和/服务”。



 
正向最大匹配与逆向最大匹配在无法通过上述两项原则区分优先输出结果时,则优先输出逆向最大匹配分词结果。

TAG标签: 搜索引擎 SEO优化

文章标题:SEO优化与搜索引擎自然语言处理关系

转载注明出处:http://www.iltyx.com/peixun/20180703697.html

说点什么吧
  • 全部评论(0
    还没有评论,快来抢沙发吧!