博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
java Jsoup爬取静态网站
阅读量:7015 次
发布时间:2019-06-28

本文共 1230 字,大约阅读时间需要 4 分钟。

1    public static void configUrl() throws IOException { 2         setAgent("10.1.111.14", "1080"); 3         System.setProperty("https.protocols", "TLSv1.2,TLSv1.1,SSLv3"); 4         Document document = Jsoup.connect(url) 5                 .header("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8") 6                 .header("Accept-Encoding", "gzip, deflate, sdch") 7                 .header("Accept-Language", "zh-CN,zh;q=0.8") 8                 .header("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36") 9                 .get();10         urlElementList = new ArrayList
();11 Elements aSrcs = document.select("#News");12 for (Element aSrc : aSrcs) {13 Elements aes = aSrc.getElementsByTag("a");14 for (Element ac : aes) {15 urlElementList.add(ac);16 }17 18 }19 }

header()内是为了模拟请求头,setAgent(ip,port)是设置代理服务器(第一篇有介绍),用来爬取国外网站,国内的不用加。

加入jsoup的maven依赖

org.jsoup
jsoup
1.8.3

 

转载于:https://www.cnblogs.com/wmy10/p/8818659.html

你可能感兴趣的文章
Lesson 1#10 流程控制
查看>>
(二)从分布式一致性谈到CAP理论、BASE理论
查看>>
设计模式【15】| 迭代子模式
查看>>
linux系统性能监控--网络利用率
查看>>
cocos2d-x 使用UIWebView加载网页(顺便可以看到如何用OC调C++)
查看>>
飞凌百套OK335xS-2开发平台免费申请
查看>>
数据库系统原理,很赞的课程!
查看>>
iis站点内存泄漏问题分析
查看>>
win10 HTTP 错误 500.21 - Internal Server Error
查看>>
如何创建Vue3.0项目
查看>>
MongoDB 启动基于角色的登录认证功能
查看>>
数据库原理整理笔记1
查看>>
如果选错云服务商,后果很严重……
查看>>
c#备份MySQL数据库 --转载
查看>>
HDU - 1247 Hat’s Words 字典树
查看>>
从client(content="<p></p>")中检測到有潜在危急的 Request.Form 值。
查看>>
《Effective C++》笔记:I
查看>>
C语言 指针和指针变量
查看>>
经典类与新式类的区别
查看>>
JavaMail收发邮件的步骤
查看>>