发 帖  
原厂入驻New
[经验]

JSoup与代理IP的结合

2020-9-9 16:43:33  157 爬虫 网络爬虫 代理IP java JSoup
分享
0
Java 的jsoup 是标准的HTML解析器,可采集指定的网页网站数据。通过简洁易用的API,调用DOM、CSS实现jQuery的操作提取特定的数据。jsoup 的特性:
1.  HTML数据解析分析
2. DOM或CSS选择器定位直接获取数据
3.HTML元素、属性、文本的直接交互
     在数据采集的过程中,部分网站会限制爬虫访问,这种时候就需要使用代理IP,为每个http请求分配不同的IP地址,实现数据快速采集请求的目的。
     对于jsoup 下如何配置使用代理IP,下面的demo实现了简单的逻辑描述,可以直接参考使用:
import java.io.IOException;
import java.net.Authenticator;
import java.net.InetSocketAddress;
import java.net.PasswordAuthentication;
import java.net.Proxy;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

public class Demo
{
   // 代理验证信息
   final static String ProxyUser = "username";
   final static String ProxyPass = "password";

   // 代理服务器(产品官网 www.16yun.cn)
   final static String ProxyHost = "t.16yun.cn";
   final static Integer ProxyPort = 31111;

   // 设置IP切换头
   final static String ProxyHeadKey = "Proxy-Tunnel";


   public static String getUrlProxyContent(String url)
   {
       Authenticator.setDefault(new Authenticator() {
           public PasswordAuthentication getPasswordAuthentication()
           {
               return new PasswordAuthentication(ProxyUser, ProxyPass.toCharArray());
           }
       });
       // 设置Proxy-Tunnel
       Random random = new Random();
       int tunnel = random.nextInt(10000);
       String ProxyHeadVal = String.valueOf(tunnel);

       Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(ProxyHost, ProxyPort));

       try
       {
           // 处理异常、其他参数
           Document doc = Jsoup.connect(url).timeout(3000).header(ProxyHeadKey, ProxyHeadVal).proxy(proxy).get();

           if(doc != null) {
               System.out.println(doc.body().html());
           }
       }
       catch (IOException e)
       {
           e.printStackTrace();
       }
       return null;
   }
   public static void main(String[] args) throws Exception
   {
       // 要访问的目标页面
       String targetUrl = "http://httpbin.org/ip";
       getUrlProxyContent(targetUrl);
   }
}

评论

高级模式
您需要登录后才可以回帖 登录 | 注册

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容图片侵权或者其他问题,请联系本站作侵删。 侵权投诉
发经验
关闭

站长推荐 上一条 /9 下一条

快速回复 返回顶部 返回列表