百度SPIDER抓取系统的基本框架介绍

发布者:技术编辑主任 发布时间:2017-09-26 14:17:42 阅读量:5067 标签: SPIDER抓取  

导读 : 今天为朋友们介绍一下百度Spider抓取系统的基本框架,这篇文章也是小编转载自百度站长学院内第一篇官方发布的内容。

今天为朋友们介绍一下百度Spider抓取系统的基本框架,这篇文章也是小编转载自百度站长学院内第一篇官方发布的内容。内容正文部分如下:

互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:BaiduspdierGooglebotSogou Web Spider等。

 

Spider抓取系统是搜索引擎数据来源的重要保证,如果把web理解为一个有向图,那么spider的工作过程可以认为是对这个有向图的遍历。从一些重要的种子 URL开始,通过页面上的超链接关系,不断的发现新URL并抓取,尽最大可能抓取到更多的有价值网页。对于类似百度这样的大型spider系统,因为每时 每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对spider过去抓取过的页面保持更新,维护一个URL库和页面库。

下图为spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider即是通过这种系统的通力合作完成对互联网页面的抓取工作。

上一篇 下一篇

最近更新

热门文章

热门标签 茅台 市值蒸发 80后 节约2600万 280亿 国宝级国企 ofo人去楼空 Lime成功 互联网本质 ofo公众号 金立没落 Dolce & Gabbana 民进党惨败 刘立荣输钱 ofo创始人戴威 HTC 趣头条 子弹短信 中本聪 陈羽凡 阿里巴巴 蘑菇街 名创优品 滴滴“大象转身” 零售业“祖师爷” 摩拜 大润发创始人 全球手机产业链 创业公司 天音控股 瑞幸咖啡 百度外卖 当当 慧聪网 哈啰上线顺风车 打折卖 iPhone 海外支付大战 瑞幸 便利店 苹果市值蒸发 权健“帝国” 爆红营销事件 华为 小米 顺丰大举扩张 “无人货架”的衰落 酷派“罢免”CEO蒋超 诺基亚 浏览器混战 小罐茶 苹果 好市多 再见摩拜 马化腾 张小龙 华为、三星 三星血战印度 互联网贪腐高管 腾讯产品"死亡"名单 共享汽车途歌 苏宁认怂 王健林卖卖卖 流浪地球 视频网站 爱屋吉屋 华为嘲讽三星 黄怒波 全时谢幕 三大外资便利店 5年盟约 快递员 外卖员 ofo以购代退 魅族 电商办卡 借壳上市 九阳 人人车 大白兔 周黑鸭 绝味 拼多多 黄太吉 陈欧 顺丰“危机” 苹果新品发布 晨光文具 传音 乐友 江小白 努比亚 阿里拼多多 六个核桃 怀旧支付 通信 乐视网 外卖摆渡 全景网络 桥页 正确使用关键词加粗技巧来提升网站页面用户体验 网站是怎样分类 SEO刷排名 网站SEO优化的预期效果 怎么样去理解网站内容更新的重要性 百度熊掌号视频服务 将关键词优化到主页上 页面相似度对网站优化带来的不利影响 网站内容如何更新
官方客服 400-666-3155
友情链接

微信公众号

微信小程序

© 2020 dxm.so 《中华人民共和国增值电信业务经营许可证》编号: 川B2-20170249号 ICP证: 蜀ICP备14008752号 四川省成都市青羊区光华北三路98号光华中心D栋1609