`
cowoo
  • 浏览: 48129 次
  • 性别: Icon_minigender_1
社区版块
存档分类

HTTP Header 存疑

阅读更多
今天帮师姐抓amazon的数据,有一个url用wget抓老是"301 Moved Permanently",猜想可能是根据客户端类型进行了跳转。于是在ruby里面给请求加上浏览器信息。 require ‘net/http’ require ‘uri’ uri = URI.parse(’http://www.amazon.com/review/product/081297543X/ref=cm_cr_pr_recent?_encoding=UTF8&showViewpoints=0&sortBy=bySubmissionDateAscending’) request = Net::HTTP::Get.new(uri.path) request["User-Agent"] = "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.3) Gecko/2008092417 Firefox/3.0.3" Net::HTTP.start(uri.host, uri.port) do |http|   response = http.request(request)   open(’output.htm’,'w’){|f| f << response.body} end 抓是能抓下来,发现抓下来的也是重定向后的,百思不得其解。无奈之下换成java来写,一样的工作,一样的加了浏览器信息: uc.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows; U; Windows NT [...]
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics