There can be no Triumph without Loss,No Victory without Suffering,No Freedom without Sacrifice.
All you have to decide is what to do with the time that is given to you.
Get busy Living, or Get busy Dying?
  首页 | 留言给我 | 订阅 Rss | CLI | 黄白之恋 Posts:158   Hits: 5545888    Comments: 173    
 日历归档
<<  <  2024 - 11  >  >>
SuMoTuWeThFrSa
     12
3456789
10111213141516
17181920212223
24252627282930
 About Me
 Name: ZhangSichu
 Sex: Male
 Age: 32
 Email: ZhangSichu@gmail.com
 MSN: ZhangSichu@hotmail.com
 Home: ZhangSichu.com
 WeiBo: weibo.com/zhangsichu
 个人推荐
 分类归档
  ·C++/C(5)  RSS
  ·软件工程(1)  RSS
  ·杂事/随感(26)  RSS
  ·.Net/Java(30)  RSS
  ·面向对象程序设计(5)  RSS
  ·汇编/破解(0)  RSS
  ·平面设计(3)  RSS
  ·SQL(5)  RSS
  ·COM/COM+(2)  RSS
  ·Web开发(81)  RSS
 My Friends
Back Forward Refresh Home 2024年11月23日 星期六 RSS CLI Mine Sweeper. In Javascript.

  把浏览器修改成搜索引擎爬虫
字体大小 [ ]

在使用浏览器上网的时候,客户的浏览器在Http请求的Header中会带上User-Agent.
IE的User-Agent. 一般为: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; POTU(RR:27091922:0:); .NET CLR 1.1.4322; .NET CLR 2.0.50727).
FF的User-Agent. 一般为: Mozilla/5.0 (Windows; U; Windows NT 5.2; zh-CN; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11.
User-Agent可以方便的被Javascript操作(navigator.userAgent)。但是User-Agent在Javascript中是一个只读属性。服务器端使用HttpRequest.UserAgent $_SERVER["HTTP_USER_AGENT"] 取得User-Agent来确定客户使用的是什么浏览器。当请求是由搜索引擎的爬虫发来的时候,User-Agent一般为搜索引擎的名字。如:google baidu等等。所以只要把自己浏览器的User-Agent改成 google 或者 baidu,服务器端就会认为这个请求是由搜索引擎发来的。

IE的修改方法:
参考自: http://xzyy004.blog.163.com/blog/static/282299052007497114215/ 这篇文章讲了如何把IE变为openware,没有提供如何变搜索引擎爬虫,这个方法只在本人自己的机器上实验成功了,请在操作前备份注册表。

Windows Registry Editor Version 5.00
[HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Internet Settings\5.0\User Agent]
@="google"
[HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Internet Settings\5.0\User Agent\Post Platform]
" google "=""


FF的修改方法:
FF下有个User Agent Switcher 插件 https://addons.mozilla.org/en-US/firefox/addon/59 可以方便的修改UserAgent。

Click to Open in New Window

但是这个插件好像没有办法把User-Agent变成指定的文字,如 google 或者 baidu。根据FF的设计架构,User-Agent应该是一个可以配置的属性。在FF的地址栏中输入:about:config,在filter中输入useragent马上就可以找到general.useragent.extra.firefox这个属性,双击打开就可以修改了。

Click to Open in New Window

  修改好User-Agent浏览器就被伪装成搜索引擎的爬虫了。在最开始修改User-Agent的主要意图是:把自己的浏览器伪装成其它别的浏览器,因为有些网站只允许某些特定的浏览器访问,如果你一定要访问这些网站就需要修改User-Agent。如 http://xzyy004.blog.163.com/blog/static/282299052007497114215/ 中所解决的问题。

  现在很多网站都在做SEO优化,让搜索引擎的爬虫尽可能的深入到网站内部,爬到更多的信息,从而在用户搜索的时候让你的网站更加容易被搜索到,在搜索结果中排名更靠前。最近发现有几个大型通用型的论坛,他们也做了SEO优化,为了SEO优化他们修改了一些验证性的代码。让搜索引擎的爬虫进入了某些需要特权级的板块,例如需要用户有金币或者有某些等级的板块,这些修改可能会产生安全漏洞。如果用户把自己的浏览器伪装成搜索引擎爬虫,完全可以通过这种方式,不用金币浏览到需要金币才可以浏览到的内容或者帖子,需要等级才可以浏览到的内容或者帖子。
  Posted @ 1/13/2008 10:48:50 PM | Hits (26565) | Comment (0

  Post Comment
标题 *
作者 *
密码 记住我
评论 *
    


Stable in Firefox 1.5 2.0Stable in IE6 IE7Stable in MozillaStable in Netscape
ZhangSichu.com V0.1.7507
Powered By ZhangSichu
Copyright © ZhangSichu
Download ZhangSichu.com source code. Download source code