SEO

欢迎访问梁子俊的SEO博客!本站专注搜索引擎和网站优化,以及SEO排名教程、深圳SEO优化。

快捷搜索:  梁子俊    seo  SEO基础  搜索引擎  关键词  内容  临时权重
梁子俊的SEO博客给各位带来全新SEO理念!本站专注搜索引擎和网站优化,以及SEO排名教程、深圳SEO优化

SEOer必须了解,搜索引擎工作原理简介

  搜索引擎工作过程非常复杂,我们简单介绍搜索引擎是怎样实现网页排名的。这里介绍的内容相对于真正的搜索引擎技术来说只是皮毛,不过对大部分SEO人员已经够用了。

  搜索引擎的工作过程大体上可以分成三个阶段。

  (1)爬行和抓取:搜索引擎蜘蛛通过跟踪链接发现和访问网页,读取页面HTML代码,存入数据库。

  (2)预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理,以备排名程序调用。

  (3)排名:用户输入查询词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。

搜索引擎的工作过程

  爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。

  ◆“蜘蛛”

  搜索引擎用来爬行和访问页面的程序被称为蜘蛛( spider)或机器人(bot)。

  搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发分布爬行。

  蜘蛛访问任何一个网站时,都会先访问网站根目录下的 robots txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。

搜索引擎蜘蛛访问网站时

  和浏览器一样,搜索引擎蜘蛛也有标明自己身份的用户代理名称,站长可以在日志文件中看到搜索引擎的特定用户代理,从而辨识搜索引擎蜘蛛。

  下面列出常见的搜索引擎蜘蛛名称:

  ▲Baiduspider+(+http://www.baidu.com/search/spider.htm)百度蜘蛛。

  ▲Mozilla/5.0(Windows; U; Windows NT 5.1; zh-CN; ) Firefox/1.5.0.11; 360Spider(360蜘蛛)。

  ▲Mozilla/5.0(compatible;Yahoo!Slurp/3.0;http://help.yahoo.com/help/us/ysearch/slup) 英文雅虎蜘蛛(雅虎已经放弃自己的搜索技术,列在这里权当历史纪念吧)。

  ▲Mozilla/5.0(compatible;Googlebot/2.1;+http://www.google.com/bot.html)Google蜘蛛。

  ▲Mozilla/5.0(iPhone; CPU iPhone OS 6_0 like Mac OS X) Apple WebKit/536.26

  (KHTML, like Gecko) Version/6.0 Mobile/10A5376e Safari/8536.25(compatible

  Googlebot21;+http://www.google.com/bot.htm)(Google移动蜘蛛)。

  ▲Mozilla/5.0(compatible;bingbot/2.0;+http://www.bing.com/bingbot.htm)微软Bing蜘蛛。

  ▲Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07)搜狗蜘蛛。

  ▲Sosospider+(+http://help.soso.com/webspider.html)搜搜蜘蛛。

  ▲Mozilla/5.0(compatible;YodaoBot/1.0;http://www.yodao.com/help/webmaster/spider/;)有道蜘蛛

  (站长们可以在网站日志文件中看到搜索引擎的特定用户代理,从而辨识搜索引擎蜘蛛以及抓取情况)


您可能还会对下面的文章感兴趣:

梁子俊的SEO博客给各位带来全新SEO理念!本站专注搜索引擎和网站优化,以及SEO排名教程、深圳SEO优化