2020年11月23日星期一

Jsoup获取网页内容(并且解决中文乱码问题)

1. 根据连接地址获取网页内容,解决中文乱码页面内容,请求失败后尝试3次

private static Document getPageContent(String urlStr) {  for (int i = 1; i <= 3; i++) {   try {    URL url = new URL(urlStr);    HttpURLConnection connection = (HttpURLConnection) url.openConnection();    // 默认就是Get,可以采用post,大小写都行,因为源码里都toUpperCase了。    connection.setRequestMethod("GET");    // 是否允许缓存,默认true。    connection.setUseCaches(Boolean.FALSE);    // 是否开启输出输入,如果是post使用true。默认是false    // connection.setDoOutput(Boolean.TRUE);    // connection.setDoInput(Boolean.TRUE);    // 设置请求头信息    connection.addRequestProperty("Connection", "close");    // 设置连接主机超时(单位:毫秒)    connection.setConnectTimeout(8000);    // 设置从主机读取数据超时(单位:毫秒)    connection.setReadTimeout(8000);    // 设置Cookie    // connection.addRequestProperty("Cookie", "你的Cookies");    // 开始请求    int index = urlStr.indexOf("://") + 3;    String baseUri = urlStr.substring(0, index) + url.getHost();    Document doc = Jsoup.parse(connection.getInputStream(), "GBK", baseUri);    if (doc != null) {     return doc;    }    Thread.sleep(3 * 1000);    continue;   } catch (Exception e) {    e.printStackTrace();   }  }  return null; }

2. 解析网页数据,通过多种方式获取页面元素

 public static void main(String[] args) {  String urlStr = "http://test.cn/a.html";// 静态页面链接地址  Document doc = getPageContent(urlStr);  if (doc != null) {   // 1. 根据id查询元素   Element e1 = doc.getElementById("id");   // 2. 根据标签获取元素   Elements e2 = doc.getElementsByTag("p");   // 3. 根据class获取元素   Element e3 = doc.getElementsByClass("class_p").first();   // 4. 根据属性获取元素   Element e4 = doc.getElementsByAttributeValue("href", "http://test.cn").first();   // 5. 根据查询器获取元素(class 为writing的div下的p)   Elements e5 = doc.select("div.writing>p");   Elements es = doc.select("div .writing p");   if (es != null && es.size() > 0) {    for (Element p : es) {     String pStr = p.text().trim();     System.out.println(pStr);    }   }  } }

 









原文转载:http://www.shaoqun.com/a/492882.html

patpat:https://www.ikjzd.com/w/1079.html

网易考拉海购大促:https://www.ikjzd.com/w/1052

东西网:https://www.ikjzd.com/w/1238


1.根据连接地址获取网页内容,解决中文乱码页面内容,请求失败后尝试3次privatestaticDocumentgetPageContent(StringurlStr){for(inti=1;i<=3;i++){try{URLurl=newURL(urlStr);HttpURLConnectionconnection=(HttpURLConnection)url.openConnection
黄远:黄远
usps:usps
清远银盏温泉与清远新银盏温泉有何区别?:清远银盏温泉与清远新银盏温泉有何区别?
2020高中毕业旅行穷游去处 2020最省钱的毕业旅行路线:2020高中毕业旅行穷游去处 2020最省钱的毕业旅行路线
上海有哪些休憩之地?:上海有哪些休憩之地?