搜索引擎的Robots协议

发布者:技术编辑主任 发布时间:2017-04-28 14:08:33 阅读量:5230 标签: 网络爬虫  

导读 : obots.txt是一种存放于网站根目录下的文本文件,用于告诉搜索引擎的爬虫(spider),此网站中的哪些内容是不应被搜索引擎的索引,哪些是可以被索引。通常认为,robots.txt文件用来搜索引擎对目标网页的抓取。

obots.txt是一种存放于网站根目录下的文本文件,用于告诉搜索引擎的爬虫(spider),此网站中的哪些内容是不应被搜索引擎的索引,哪些是可以被索引。通常认为,robots.txt文件用来搜索引擎对目标网页的抓取。

robots.txt协议并不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个文件,但也有一些特殊情况。

对于Google来说,使用robots也未必能阻止Google将网址编入索引,如果有其他网站链接到该网页的话,Google依然有可能会对其进行索引。按照Google的说法,要想彻底阻止网页的内容在Google网页索引中(即使有其他网站链接到该网页)出现,需要使用noindex元标记或x-robots-tag。例如将下面的一行加入到网页的header部分。

如果Google看到某一页上有noindex的元标记,就会将此页从Google的搜索结果中完全丢弃,而不管是否还有其他页链接到此页。

1493359660409899.jpg

对于百度来说,情况和Google类似,如果有其他网站链接目标网页,也有可能会被百度收录,从百度的说明页面上看,百度并不支持像Google那样通过noindex完全将网页从索引上删除,只支持使用noarchive元标记来禁止百度显示网页快照。具体的语句如下。

上面这个标记只是禁止百度显示该网页的快照,百度会继续为网页建索引,并在搜索结果中显示网页摘要。

例如,淘宝网目前就通过robots.txt来屏蔽百度爬虫,但百度依旧收录了淘宝网的内容,百度搜索“淘宝网”,第一个结果也是淘宝网首页地址,只是该页面没有网页快照,因此看来,网站只能禁止百度的快照,而无法禁止百度为网页建索引。


上一篇 下一篇

最近更新

热门文章

热门标签 茅台 市值蒸发 80后 节约2600万 280亿 国宝级国企 ofo人去楼空 Lime成功 互联网本质 ofo公众号 金立没落 Dolce & Gabbana 民进党惨败 刘立荣输钱 ofo创始人戴威 HTC 趣头条 子弹短信 中本聪 陈羽凡 阿里巴巴 蘑菇街 名创优品 滴滴“大象转身” 零售业“祖师爷” 摩拜 大润发创始人 全球手机产业链 创业公司 天音控股 瑞幸咖啡 百度外卖 当当 慧聪网 哈啰上线顺风车 打折卖 iPhone 海外支付大战 瑞幸 便利店 苹果市值蒸发 权健“帝国” 爆红营销事件 华为 小米 顺丰大举扩张 “无人货架”的衰落 酷派“罢免”CEO蒋超 诺基亚 浏览器混战 小罐茶 苹果 好市多 再见摩拜 马化腾 张小龙 华为、三星 三星血战印度 互联网贪腐高管 腾讯产品"死亡"名单 共享汽车途歌 苏宁认怂 王健林卖卖卖 流浪地球 视频网站 爱屋吉屋 华为嘲讽三星 黄怒波 全时谢幕 三大外资便利店 5年盟约 快递员 外卖员 ofo以购代退 魅族 电商办卡 借壳上市 九阳 人人车 大白兔 周黑鸭 绝味 拼多多 黄太吉 陈欧 顺丰“危机” 苹果新品发布 晨光文具 传音 乐友 江小白 努比亚 阿里拼多多 六个核桃 怀旧支付 通信 乐视网 外卖摆渡 全景网络 桥页 正确使用关键词加粗技巧来提升网站页面用户体验 网站是怎样分类 SEO刷排名 网站SEO优化的预期效果 怎么样去理解网站内容更新的重要性 百度熊掌号视频服务 将关键词优化到主页上 页面相似度对网站优化带来的不利影响 网站内容如何更新
官方客服 400-666-3155
友情链接

微信公众号

微信小程序

© 2020 dxm.so 《中华人民共和国增值电信业务经营许可证》编号: 川B2-20170249号 ICP证: 蜀ICP备14008752号 四川省成都市青羊区光华北三路98号光华中心D栋1609