磁力锁厂家
免费服务热线

Free service

hotline

010-00000000
磁力锁厂家
热门搜索:
技术资讯
当前位置:首页 > 技术资讯

站长从九个方面浅析搜索引擎预处理1

发布时间:2020-07-24 10:34:56 阅读: 来源:磁力锁厂家

预处理相信大家都不会陌生,很多站长或其它SEO资料中被称作索引。对搜索引擎来讲,索引是最重要的一个步骤,和网页的爬行抓取和排名都有着直接的关系。搜索引擎抓取的页面并不能被用于排名,由于互联网上的数据是巨大的,所以当用户在搜索的时候不可能实时地从所有网页中进行检索并返回,而是从搜索引擎自己的数据库中返回给用户结果。这个数据库是事前经过处理的,所以就有预处理的说法。

预处理是大家看不到的,都是搜索引擎的后台程序完成,本从从九个方面和大家浅析关于预处理的各个阶段,希望站长们看了有个大概的了解,由于篇幅有限,今天就从三个方面先进行分享,如果有不对的地方,还请大家多指正。

第一、提取文字:现在的互联网资讯还是以文字为主,所以搜索引擎的重点还是文字,平时我们从网页上看到的包括很多图片、视频和JS技术等都没法用户排名的内容。所以对搜索引擎而言,首先要做的就是提取网页中的文字。除一些body中常见的文字,还会提取包括Meta标签中的文字和图片的ALT标签等等。另外一个就是锚文字,锚文字在网页排名中的作用非常重要。

第二、中文分词:分词其实对Google而言也存在,不过通常讲的都是中文分词。对英文而言,只需要根据单词进行拆分就行,而中文的情况常常比英文要复杂的多,所以对中文搜索引擎,特别是百度,要斟酌中国用户的使用情况,所以对待分词上也有自己独特的地方。在网站优化上,我们对分词能做的很少,只能加粗或利用H标签等告知搜索引擎哪些字连在一起是属于一个词。

第三、消除停止词:现实生活中我们经常会带有一些感叹词或助词来表达语义,互联网上一样也是如此,无论是中文还是英文,都会存在一些出现频率很高,但对内容没有实质影响的词。常见的有的得地等助词,也有啊哈呀之类的感叹词,还会有却、以之类的副词和介词。在搜索引擎中,这些没有实质性的词语统称为停止词。搜索引擎在抓取网页时会去掉这些停止词,从而使主题更加突出,也会减少大量的计算。

第四、噪声消除:大家可能不理解甚么叫噪声,在互联网中,噪声指的是对网站的主题没有实质性帮助的页面元素,比如很多版权声明文字、导航条还有广告内容。很多博客中的文章分类页面、历史归档页面都属于噪声元素。互联网的内容是巨量的,所以,搜索引擎不可能把这些无实质性的内容都逐一抓取并且索引,会在抓取时先消噪,他会根据HTML页面中的标签来进行区域辨别,把剩下的主体内容进行抓取。从这一点上来看,我们应当尽可能展现足够多的文字内容提供给搜索引擎而不是其它因素。

到这里,通过提取文字、中文分词、消除停止词、噪声消除等四个方面和大家分享了搜索引擎的预处理,这里只是给大家简单的罗列了以下,其实情况要复杂的多,细节性的东西也更多。这里只是抛砖引玉,希望有更多的深入了解的朋友也进行分享,让大家共同进步。搜索引擎的预处理总共有九个阶段,本文先总结其中前四个,剩下的五个以后会继续和大家分享。

好了,本文就到这里,大家有好的想法欢迎和我交换,本文来自:深圳网站建设,网址:zijiren,如果有不对的地方,还欢迎指正,也欢迎大家转载,转载请保存链接,谢谢!

广州看癫痫病的医院

癫痫早期症状

贵州哪家医院治疗癫痫病最好

成都正规癫痫病医院

相关阅读