Java使用httpRequest+Jsoup爬取紅藍球號碼
1、Jsoup介紹
1.1、簡介
jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內容。它提供瞭一套非常省力的API,可通過DOM,CSS以及類似於jQuery的操作方法來取出和操作數據。
1.2、Jsoup的主要功能
1、從一個URL,文件或字符串中解析HTML
2、使用DOM或CSS選擇器來查找、取出數據
3、可操作HTML元素、屬性、文本
註意:jsoup是基於MIT協議發佈的,可放心使用於商業項目。
2、源網站及頁面元素分析
2.1、號碼源
首先,這裡我選擇近年來比較穩定的數據源地址【某網站】截圖如下
2.2、dom元素分析
2.2.1、開獎號碼主體分析
先打開開發者工具,找到每條開獎號碼對應的dom元素
可以看到每一期號碼信息主體在一個<tr>標簽中,其中第一個<td>是開獎日期,第二個<td>是開獎期號,第三個<td>是開獎號碼,每個獎號是單獨的標簽,紅球的class=rr,籃球沒有設置樣式
<tr> <td align="center">2021-06-13</td> <td align="center">2021065</td> <td align="center" style="padding-left:10px;"> <em class="rr">01</em> <em class="rr">04</em> <em class="rr">08</em> <em class="rr">19</em> <em class="rr">29</em> <em class="rr">33</em> <em>16</em></td> <td><strong>362,527,724</strong></td> <td align="left" style="color:#999;"><strong>3</strong></td> <td align="center"><strong class="rc">82</strong></td> <td align="center"> <a href="http://www.zhcw.com/ssq/kjgg/" rel="external nofollow" target="_blank"><img src="http://images.zhcw.com/zhcw2010/kaijiang/zhcw/ssqpd_42.jpg" width="16" height="16" align="absmiddle" title="詳細信息"></a> <a href="http://www.zhcw.com/video/kaijiangshipin/" rel="external nofollow" target="_blank"><img src="http://images.zhcw.com/zhcw2010/kaijiang/zhcw/ssqpd_43.jpg" width="16" height="16" align="absmiddle" title="開獎視頻"></a> </td> </tr>
2.2.2、頁碼區域分析
由於我們爬取數據的時候,需要進行翻頁操作,所以這裡還需要分析翻頁部分的內容,繼續在開發者工具中,定位頁碼區域
可以看到頁碼部分是<tbody>中的最後一個<tr>中,翻頁操作的內容再class=pg的 <p> 標簽中
可以拆分為多個<storage>標簽數組,可以分析得出翻頁鏈接的規律。
/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=頁碼
或
/zhcw/html/ssq/list_頁碼.html
元素 | 含義 |
---|---|
0 | 總頁數 |
1 | 總記錄數 |
2 | 第一頁的連接 |
3 | 上一頁的鏈接 |
4 | 下一頁的鏈接 |
5 | 最後一頁的連接 |
6 | 當前頁數 |
<tr> <td colspan="7" align="center" style="background:#fdf2e3;"> <p class="zhu"></p> <p class="pg"> 共<strong>136</strong> 頁 /<strong>2709 </strong>條記錄 <strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp" rel="external nofollow" >首頁</a></strong> <strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=1" rel="external nofollow" >上一頁</a></strong> <strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=2" rel="external nofollow" >下一頁</a></strong> <strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=136" rel="external nofollow" >末頁</a></strong> 當前第<strong> 1 </strong>頁</p> </td> </tr>
3、代碼實現
maven引用,這裡使用的是Jsoup1.13.1版本
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.13.1</version> </dependency>
這使用的是基於jeecg開發的Job,搭建過程不贅述瞭,直接看主體代碼。
public void execute(JobExecutionContext arg0) throws JobExecutionException { Integer maxPage=getMaxPage();//獲取總頁數 for(int pageNo=0;pageNo<maxPage;pageNo++){//循環處理每一頁的數據 String url = "http://kaijiang.zhcw.com/zhcw/html/ssq/list_"+(pageNo+1)+".html";//拼訪問地址 String strDateFormat = "yyyy-MM-dd"; SimpleDateFormat sdf = new SimpleDateFormat(strDateFormat); String html = JwtHttpUtil.httpRequest(url, "GET",null);//訪問對應的頁面 Document doc = Jsoup.parse(html);//用Jsoup解析頁面內容並且解析為Document Document doc1= Jsoup.parse(doc.getElementsByClass("wqhgt").toString());//wqhgt是table標簽的class,這裡獲取到開獎號碼的table的內容並且解析為Document Elements trs= doc1.getElementsByTag("tr");//根據tag獲取到所有的tr標簽,這裡獲取到的是一個Element數組 logger.info("當前頁碼---"+(pageNo+1)+"----"+trs.size()); for(int i=2;i<trs.size()-1;i++){//這裡是根據頁面內容確定開獎內容是從第三個tr開始到倒數第二個tr結束,最後一個tr是翻頁按鈕 try { Elements tds=trs.get(i).getElementsByTag("td"); String kjrq=tds.get(0).text(); String kjqh=tds.get(1).text(); //這裡是為瞭防止重復拉取,所以做瞭判斷,如果已存在當前期的獎號,就直接跳過 Long count=lotterySsqKjjlService.getCountForJdbc("select count(*) from lottery_ssq_kjjl where SSQ_KJQH='"+ kjqh + "'"); //下面的內容很容易理解,就是可以對照頁面分析部分內容看,就不贅述瞭 if(count>0)break; LotterySsqKjjlEntity kjhmEntiry=new LotterySsqKjjlEntity(); Elements kjhm=tds.get(2).getElementsByTag("em"); kjhmEntiry.setSsqKjrq(sdf.parse(kjrq)); kjhmEntiry.setSsqKjqh(kjqh); kjhmEntiry.setSsqR1(Integer.parseInt(kjhm.get(0).text())); kjhmEntiry.setSsqR2(Integer.parseInt(kjhm.get(1).text())); kjhmEntiry.setSsqR3(Integer.parseInt(kjhm.get(2).text())); kjhmEntiry.setSsqR4(Integer.parseInt(kjhm.get(3).text())); kjhmEntiry.setSsqR5(Integer.parseInt(kjhm.get(4).text())); kjhmEntiry.setSsqR6(Integer.parseInt(kjhm.get(5).text())); kjhmEntiry.setSsqB1(Integer.parseInt(kjhm.get(6).text())); lotterySsqKjjlService.save(kjhmEntiry); } catch (ParseException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (Exception e) { // TODO Auto-generated catch block e.printStackTrace(); } } } } private Integer getMaxPage(){ String url = "http://kaijiang.zhcw.com/zhcw/html/ssq/list.html"; String html = JwtHttpUtil.httpRequest(url, "GET",null); Document doc = Jsoup.parse(html); Document docPageBar= Jsoup.parse(doc.getElementsByClass("pg").toString()); Elements elePageBar = docPageBar.getElementsByTag("strong"); Integer maxPageNo=Integer.parseInt(elePageBar.get(0).text()); return maxPageNo; }
以下是執行完成的部分數據截圖
拉取到基礎數據後,我們可以再寫一個job,去計算出每期開獎號碼的指標,可以進行獎號分析,預測等。
這裡簡單實現瞭部分分析指標的計算,以下是主體代碼。
public void run(){ List<LotterySsqKjjlEntity> list= lotterySsqKjjlService.findByQueryString("from LotterySsqKjjlEntity t"); for(int i=0;i<list.size();i++){ LotterySsqKjjlEntity kjjg=list.get(i); logger.info("正在處理:"+kjjg.getSsqKjqh()); kjjg.setSsqMin(kjjg.getSsqR1());//最小號 kjjg.setSsqMax(kjjg.getSsqR6());//最大號 kjjg.setSsqKd(kjjg.getSsqR6()-kjjg.getSsqR1());//號碼跨度 kjjg.setSsqJsCnt(ssqKjjgUtils(kjjg, "jsCnt"));//奇數個數 kjjg.setSsqOsCnt(ssqKjjgUtils(kjjg, "osCnt"));//偶數個數 kjjg.setSsqSum(ssqKjjgUtils(kjjg, "sum"));//號碼和 lotterySsqKjjlService.updateEntitie(kjjg); } logger.info("結果數據條數"+list.size()); } /** * * @param kjjg * @param opType jsgs=奇數個數 * @return */ private Integer ssqKjjgUtils(LotterySsqKjjlEntity kjjg,String opType){ List<Integer> t =new ArrayList<Integer>(); t.add(kjjg.getSsqR1()); t.add(kjjg.getSsqR2()); t.add(kjjg.getSsqR3()); t.add(kjjg.getSsqR4()); t.add(kjjg.getSsqR5()); t.add(kjjg.getSsqR6()); Integer result=0; switch (opType) { case "jsCnt": case "osCnt": int jsgs=0; int osgs=0; for(int i=0;i<t.size();i++){ if(t.get(i)%2==0){ osgs++; }else{ jsgs++; } } if("jsCnt".equals(opType)){ result=jsgs; }else{ result=osgs; } break; case "sum": int sum=0; for(int i=0;i<t.size();i++){ sum+=t.get(i); } result=sum; break; default: break; } return result; }
至此,這個簡單的爬蟲就寫完瞭,可以利用爬過來的這些基礎數據,進行一些數據分析,預測。
到此這篇關於Java使用httpRequest+Jsoup爬取紅藍球號碼的文章就介紹到這瞭,更多相關Java 爬取紅藍球號碼內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- Java爬蟲實現Jsoup利用dom方法遍歷Document對象
- Python BautifulSoup 節點信息
- java爬蟲Jsoup主要類及功能使用詳解
- java爬蟲jsoup解析HTML的工具學習
- 使用maven實現有關Jsoup簡單爬蟲的步驟