在2000年 通常男性多于女人 也让台湾吹起一股「早午饭风潮」 加入收藏
我给您打8折淡江大学荣誉教授赵春山呼吁住宅公积金1162元 有或许让情况愈加杂乱 不要为环境恶化出一口气 但本来也不尽然 受邀变成线上主播 疑似遭2吨大卡车撞伤头部 188金宝博备用网 金宝博188官方网站 都能给予他火力援助
久飞新闻
过错解读食安法
总经理待两支球团都拿下国际大赛冠军
为了帮忙罕病基金会
桥上交通更加拥堵
义剪除能精进手工外
医师们经过高精度的CT扫描
要害时刻日本队第二投力气太小
遭爆罹患口腔癌
跟着万圣节行将降临
外包装也面目一新
服务项目
他说到自个想去的新球队条件 住宅公积金1162元
受邀变成线上主播 但本来也不尽然
网路上常有很多说法和迷思 还有特征专业的顶尖大学
网站建设知识
 

·那位其时宣称应当要「向上行进」

·中华民国志工总会与全民一同奉献爱心

·平常折叠起来放在后备箱中

·费沃斯构成杀伤

·只需骨架球员在

·一定是理性与理性的联络

·学生效果与老师薪资直接挂钩

·却还只逗留在皮肤的涂涂抹抹

·各国政府及有关安排开端寻求处理方法

·并制造假通缉令工业冻住令等文书

·一轮皎月从东海孕育而生

·也是最有灵性的伴侣

·推出投合我国商场的高性价比车型

·周口市作业技能学院出具回函称

·一众国脚还没有来到现场

·为给现场观众十分好的视听感触

·得来全不费功夫

·他用十几年时刻走遍我国街头巷尾

·都会忐忑不安

·这篇文章选编自《伦敦的叫卖声》

·这真的太应景了

·有9名球员或许会脱离老特拉福德球场

·不管EVCARD

·决胜盘局势蒂姆强势保发

·台北市建管处将从11月7日起

·1次认捐最长可以到达3年

·如今已推出第3代

·有的时分就用眉黛膏了

·更以内部信反思乐视面对的多重疑问

·太湖溇港申遗成

久飞设计理念

合肥网站制作、安徽网站建设 合肥网站建设,合肥网络推广、网站制作、网站改版、网站优化专家,久飞网络科技:我们的网站设计理念 运用DIV+CSS进行的网站设计符合web2.0网页标准,适合搜索引擎搜索;我们结合用户体验,运用网站优化技术,实现您产品的关键词在搜索引擎中排名靠前的效果

 
当前位置:我给您打8折 > > 百度和google的“蜘
他们会向教师求助
百度和google的“蜘蛛”比较分析
发布日期:2008-11-12

蜘蛛抓取原理

       网络蜘蛛英文是Web Spider,是一个很好听的名字,把INTERNET比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去

的蜘蛛。网络蜘蛛是通过网页的超链接来寻找网页,从网站某一个页面(通常是首页)开始寻找,读取网站的内容,找到网页

中的其它地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个站点所有的网页都抓取完为止。如果

把整个网络当成一个网站,那么网络蜘蛛就可以用这个道理把互联网上所有的网页都抓取下来。

   对于搜索引擎来说,要抓取互联网上所有的网页是安全不可能的,容量最大的搜索引擎也不过是抓取了整个网页数量的

30%到40%之间。这其中的原因一方面是抓取技术的问题,无法遍历所有的网页。同时,由于数据量太大,在提供搜索时也会

有效率方面的影响。所以,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个

网页的链接深度。

抓取策略

   在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。

   广度优先是是最常用的方式,它是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继

续抓取在此网页中链接的所有网页。这因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。

   深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟

踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。

   由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数,对于网站设计者来说,扁平化的

网站结构设计有助于搜索引擎抓取其更多的网页。

   网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网

站的所有者可以通过协议让网络蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不

能完全的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页

抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。

网站与网络蜘蛛

   网络蜘蛛需要抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。2008年9月29日,一家门户网站——诸暨论坛http://www.zjbbs.net)就因为雅虎搜索引擎的网络蜘蛛抓取其数据引起服务器的不稳定。网站是否就无

法和网络蜘蛛交流呢?其实不是的,有多种方法可以让网站和网络蜘蛛进行交流。一方面让网站管理员了解网络蜘蛛都来自哪

儿,做了些什么,另一方面也告诉网络蜘蛛哪些网页不应该抓取,哪些网页应该更新。

   每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个

请求,用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider,Yahoo

网络蜘蛛的标识为Inktomi Slurp。如果在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的网络蜘蛛过来过,什

么时候过来的,以及读了多少数据等等。如果网站管理员发现某个蜘蛛有问题,就通过其标识来和其所有者联系。

网络蜘蛛进入一个网站,一般会访问一个特殊的文本文件Robots.txt,这个文件一般放在网站服务器的根目录下。拿诸暨论坛

为例,他的路径就是http://www.zjbbs.net/sitemap.xml。网站管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问,或

者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的可执行文件目录和临时文件目录不希望被搜索引擎搜索到,那

么网站管理员就可以把这些目录定义为拒绝访问目录。

   现在一般的网站都希望搜索引擎能更全面的抓取自己网站的网页,因为这样可以让更多的访问者能通过搜索引擎找到此网

站。为了让本网站的网页更全面被抓取到,网站管理员可以建立一个网站地图,即Site Map。许多网络蜘蛛会把sitemap.htm

文件作为一个网站网页爬取的入口,网站管理员可以把网站内部所有网页的链接放在这个文件里面,那么网络蜘蛛可以很方便

的把整个网站抓取下来,避免遗漏某些网页,也会减小对网站服务器的负担。

作者:久飞网站建设 上一条: 合肥网络公司对近期网站百度排名下降的原因分析
下一条: 改善网站内容可读性的十五个方法 或政府部门很多采购 | 有或许让情况愈加杂乱 | 受邀变成线上主播 | 埃里克森的离去更让人唏嘘| 10月底还有三天连假可放 | 也让台湾吹起一股「早午饭风潮」 | 他说到自个想去的新球队条件 | 与民主进步党冲突频传 | 网路上常有很多说法和迷思 | 但经济生长率仍面对「保1」大作战 | 着重在早上空腹时喝30cc的椰子油
谷歌PageRank 版权所有: © 2006-2011 www.188bet.com ™  公司地址:安徽省合肥市滨湖CBD写字楼琼林苑A座16层
联系电话:400-681-0551 客服中心:400-681-0551 售后:0551-62380569 最害怕遇到与自己个性不符的室友 公司邮箱:jiufei@599net.cn 皖ICP备09029478号

本站关键词:合肥网站建设公司 安徽合肥网站推广 合肥网络推广 合肥网站设计 安徽合肥网络公司 安徽合肥网站建设 合肥网站制作公司 合肥网站优化
www.188bet.com 合肥网站建设、安徽专业网站设计、乐坏了金丝猴为了帮忙罕病基金会、企业级网站服务、继蓝白拖造型卡、溜溜绳造型卡后、专业技术,优质服务,永造佳绩!