HTTP 代理啊,就是在浏览器和 web 服务器中间的一台服务器。你要是连了代理,浏览器就不直接从 web 服务器拿网页啦,而是给代理服务器发个请求信号,然后代理服务器再去跟 web 服务器要,等收到 web 服务器回传的数据,再转给浏览器。它的作用就是帮着用户去弄网络信息。
咱们用网络爬虫爬一个网站的时候,要是采集数据的速度太快,经常就会被网站那个反数据采集的机制给禁止了。为了对付被封禁代理这个事儿,就得用上代理 IP。好多人对用 HTTP 代理有误解,觉得只要有了代理池就能随便爬取。但其实不是这么回事儿,代理地址就是个工具,可不是啥都能行,用得不对照样会被封。
那 HTTP 代理咋用呢?
第一种,直接用。
把 Internet 打开,在局域网设置里选 “为 LAN 使用代理服务器”,把代理地址和对应的端口号填进去,保存好再刷新浏览器,在搜索栏搜地址,你就能发现浏览器的地址变了。这种办法挺适合给效果补量的,能突破网站对本机地址的限制。
第二种,数据采集工作的时候用。
要是数据采集想在短时间里采集好多数据,就得有 HTTP 代理帮忙。网络爬虫一般是程序化接入,直接用 API 对接。要是没有代理池帮忙,数据工作可就太难了,简直没法弄,相信好多做数据采集工作的人都有这体会。