日历归档 |
|
<< < 2024 - 11 > >> | Su | Mo | Tu | We | Th | Fr | Sa | | | | | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 |
|
|
|
About Me |
|
|
ZhangSichu |
|
Male |
|
32 |
|
ZhangSichu@gmail.com |
|
ZhangSichu@hotmail.com |
|
ZhangSichu.com |
|
weibo.com/zhangsichu |
|
|
|
个人推荐 |
|
|
|
|
分类归档 |
|
|
|
|
My Friends |
|
|
|
|
把浏览器修改成搜索引擎爬虫
|
在使用浏览器上网的时候,客户的浏览器在Http请求的Header中会带上User-Agent. IE的User-Agent. 一般为: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; POTU(RR:27091922:0:); .NET CLR 1.1.4322; .NET CLR 2.0.50727). FF的User-Agent. 一般为: Mozilla/5.0 (Windows; U; Windows NT 5.2; zh-CN; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11. User-Agent可以方便的被Javascript操作(navigator.userAgent)。但是User-Agent在Javascript中是一个只读属性。服务器端使用HttpRequest.UserAgent $_SERVER["HTTP_USER_AGENT"] 取得User-Agent来确定客户使用的是什么浏览器。当请求是由搜索引擎的爬虫发来的时候,User-Agent一般为搜索引擎的名字。如:google baidu等等。所以只要把自己浏览器的User-Agent改成 google 或者 baidu,服务器端就会认为这个请求是由搜索引擎发来的。
IE的修改方法: 参考自: http://xzyy004.blog.163.com/blog/static/282299052007497114215/ 这篇文章讲了如何把IE变为openware,没有提供如何变搜索引擎爬虫,这个方法只在本人自己的机器上实验成功了,请在操作前备份注册表。
Windows Registry Editor Version 5.00 [HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Internet Settings\5.0\User Agent] @="google" [HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Internet Settings\5.0\User Agent\Post Platform] " google "=""
|
FF的修改方法: FF下有个User Agent Switcher 插件 https://addons.mozilla.org/en-US/firefox/addon/59 可以方便的修改UserAgent。
但是这个插件好像没有办法把User-Agent变成指定的文字,如 google 或者 baidu。根据FF的设计架构,User-Agent应该是一个可以配置的属性。在FF的地址栏中输入:about:config,在filter中输入useragent马上就可以找到general.useragent.extra.firefox这个属性,双击打开就可以修改了。
修改好User-Agent浏览器就被伪装成搜索引擎的爬虫了。在最开始修改User-Agent的主要意图是:把自己的浏览器伪装成其它别的浏览器,因为有些网站只允许某些特定的浏览器访问,如果你一定要访问这些网站就需要修改User-Agent。如 http://xzyy004.blog.163.com/blog/static/282299052007497114215/ 中所解决的问题。
现在很多网站都在做SEO优化,让搜索引擎的爬虫尽可能的深入到网站内部,爬到更多的信息,从而在用户搜索的时候让你的网站更加容易被搜索到,在搜索结果中排名更靠前。最近发现有几个大型通用型的论坛,他们也做了SEO优化,为了SEO优化他们修改了一些验证性的代码。让搜索引擎的爬虫进入了某些需要特权级的板块,例如需要用户有金币或者有某些等级的板块,这些修改可能会产生安全漏洞。如果用户把自己的浏览器伪装成搜索引擎爬虫,完全可以通过这种方式,不用金币浏览到需要金币才可以浏览到的内容或者帖子,需要等级才可以浏览到的内容或者帖子。
|
|
|
|
|
|