怎么辨别搜索引擎机器人身份

发布者:技术编辑主任 发布时间:2017-03-08 10:05:45 阅读量:3765 标签: 元搜索引擎  

导读 : 搜索引擎派出他们的搜索机器人去访问、索引网站内容,网站管理员也默认、欢迎它们来访

1488938659359856.jpg

1、搜索引擎派出他们的搜索机器人去访问、索引网站内容,网站管理员也默认、欢迎它们来访。但是由于搜索引擎派机器人来访会在一定程度上影响网站性能,因此并非所有的机器人都是无害的,有一些非法机器人伪装成主流搜索引擎漫游器对网站大量遍历,并且不遵循robots.txt规范,会严重拖垮网站性能而又无其它益处。因此,网站管理员需要验证每个机器人身份是否合法。

2、在你的服务器日志文件中,可见每次访问的路径和相应的IP地址,如果是机器人来访,则user-agent会显示Googlebot或MSNBot等搜索引擎漫游器名称,每个搜索引擎都有自己的user-agent,但仅有这个还不足以证明这个机器人的合法性,因为很多垃圾制造者可能将他们的机器人也命名为Googlebot,以伪装蒙混进入网站,大肆采掘内容。

3、目前,主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份:通过DNS反向查询找出搜索引擎机器人IP地址对应的主机名称;用主机名查找IP地址以确认该主机名与IP地址匹配。

首先,使用DNS反向查询(Reverse DNS Lookup),找出机器人IP地址对应的主机名称。

4、主流搜索引擎的主机名称通常情况下应是这样的:

Google : 主机名称应包含于googlebot.com 域名中, 如:crawl-66-249-66-1.googlebot.com;

MSN : 主机名称应包含于search.live.com 域名中, 如:livebot-207-46-98-149.search.live.com;

Yahoo:主机名称应包含于inktomisearch.com域名中,如:ab1164.inktomisearch.com。

5、最后,做一次DNS查询,用主机名查找IP地址(Forward DNS Lookup),以确认该主机名与IP地址匹配。由此证明该机器人是合法的。现在,如果发现一个机器人将自己伪装成合法搜索引擎漫游器,你就可以通过服务器上的设置以及网站robots.txt文件来阻止这个非法机器人。


上一篇 下一篇

最近更新

热门文章

热门标签 茅台 市值蒸发 80后 节约2600万 280亿 国宝级国企 ofo人去楼空 Lime成功 互联网本质 ofo公众号 金立没落 Dolce & Gabbana 民进党惨败 刘立荣输钱 ofo创始人戴威 HTC 趣头条 子弹短信 中本聪 陈羽凡 阿里巴巴 蘑菇街 名创优品 滴滴“大象转身” 零售业“祖师爷” 摩拜 大润发创始人 全球手机产业链 创业公司 天音控股 瑞幸咖啡 百度外卖 当当 慧聪网 哈啰上线顺风车 打折卖 iPhone 海外支付大战 瑞幸 便利店 苹果市值蒸发 权健“帝国” 爆红营销事件 华为 小米 顺丰大举扩张 “无人货架”的衰落 酷派“罢免”CEO蒋超 诺基亚 浏览器混战 小罐茶 苹果 好市多 再见摩拜 马化腾 张小龙 华为、三星 三星血战印度 互联网贪腐高管 腾讯产品"死亡"名单 共享汽车途歌 苏宁认怂 王健林卖卖卖 流浪地球 视频网站 爱屋吉屋 华为嘲讽三星 黄怒波 全时谢幕 三大外资便利店 5年盟约 快递员 外卖员 ofo以购代退 魅族 电商办卡 借壳上市 九阳 人人车 大白兔 周黑鸭 绝味 拼多多 黄太吉 陈欧 顺丰“危机” 苹果新品发布 晨光文具 传音 乐友 江小白 努比亚 阿里拼多多 六个核桃 怀旧支付 通信 乐视网 外卖摆渡 全景网络 桥页 正确使用关键词加粗技巧来提升网站页面用户体验 网站是怎样分类 SEO刷排名 网站SEO优化的预期效果 怎么样去理解网站内容更新的重要性 百度熊掌号视频服务 将关键词优化到主页上 页面相似度对网站优化带来的不利影响 网站内容如何更新
官方客服 028-61355202
友情链接

微信公众号

微信小程序

© 2020 dxm.so 《中华人民共和国增值电信业务经营许可证》编号: 川B2-20170249号 ICP证: 蜀ICP备14008752号-7 四川省成都市青羊区光华北三路98号光华中心D栋1609