1. 根据连接地址获取网页内容,解决中文乱码页面内容,请求失败后尝试3次
private static Document getPageContent(String urlStr) { for (int i = 1; i <= 3; i++) { try { URL url = new URL(urlStr); HttpURLConnection connection = (HttpURLConnection) url.openConnection(); // 默认就是Get,可以采用post,大小写都行,因为源码里都toUpperCase了。 connection.setRequestMethod("GET"); // 是否允许缓存,默认true。 connection.setUseCaches(Boolean.FALSE); // 是否开启输出输入,如果是post使用true。默认是false // connection.setDoOutput(Boolean.TRUE); // connection.setDoInput(Boolean.TRUE); // 设置请求头信息 connection.addRequestProperty("Connection", "close"); // 设置连接主机超时(单位:毫秒) connection.setConnectTimeout(8000); // 设置从主机读取数据超时(单位:毫秒) connection.setReadTimeout(8000); // 设置Cookie // connection.addRequestProperty("Cookie", "你的Cookies"); // 开始请求 int index = urlStr.indexOf("://") + 3; String baseUri = urlStr.substring(0, index) + url.getHost(); Document doc = Jsoup.parse(connection.getInputStream(), "GBK", baseUri); if (doc != null) { return doc; } Thread.sleep(3 * 1000); continue; } catch (Exception e) { e.printStackTrace(); } } return null; }
2. 解析网页数据,通过多种方式获取页面元素
public static void main(String[] args) { String urlStr = "http://test.cn/a.html";// 静态页面链接地址 Document doc = getPageContent(urlStr); if (doc != null) { // 1. 根据id查询元素 Element e1 = doc.getElementById("id"); // 2. 根据标签获取元素 Elements e2 = doc.getElementsByTag("p"); // 3. 根据class获取元素 Element e3 = doc.getElementsByClass("class_p").first(); // 4. 根据属性获取元素 Element e4 = doc.getElementsByAttributeValue("href", "http://test.cn").first(); // 5. 根据查询器获取元素(class 为writing的div下的p) Elements e5 = doc.select("div.writing>p"); Elements es = doc.select("div .writing p"); if (es != null && es.size() > 0) { for (Element p : es) { String pStr = p.text().trim(); System.out.println(pStr); } } } }
原文转载:http://www.shaoqun.com/a/492882.html
patpat:https://www.ikjzd.com/w/1079.html
网易考拉海购大促:https://www.ikjzd.com/w/1052
东西网:https://www.ikjzd.com/w/1238
1.根据连接地址获取网页内容,解决中文乱码页面内容,请求失败后尝试3次privatestaticDocumentgetPageContent(StringurlStr){for(inti=1;i<=3;i++){try{URLurl=newURL(urlStr);HttpURLConnectionconnection=(HttpURLConnection)url.openConnection
黄远:黄远
usps:usps
清远银盏温泉与清远新银盏温泉有何区别?:清远银盏温泉与清远新银盏温泉有何区别?
2020高中毕业旅行穷游去处 2020最省钱的毕业旅行路线:2020高中毕业旅行穷游去处 2020最省钱的毕业旅行路线
上海有哪些休憩之地?:上海有哪些休憩之地?