當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

实现PageProcessor

發布時間：2024/4/15 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了实现PageProcessor 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

4.1 實現PageProcessor這部分我們直接通過GithubRepoPageProcessor這個例子來介紹PageProcessor的編寫方式。我將PageProcessor的定制分為三個部分，分別是爬蟲的配置、頁面元素的抽取和鏈接的發現。
public?class?GithubRepoPageProcessor?implements?PageProcessor?{
?
????// 部分一：抓取網站的相關配置，包括編碼、抓取間隔、重試次數等
????private?Site site = Site.me().setRetryTimes(3).setSleepTime(1000);
?
????@Override
????// process是定制爬蟲邏輯的核心接口，在這里編寫抽取邏輯
????public?void?process(Page page) {
????????// 部分二：定義如何抽取頁面信息，并保存下來
????????page.putField("author", page.getUrl().regex("https://github\\.com/(\\w+)/.*").toString());
????????page.putField("name", page.getHtml().xpath("//h1[@class='entry-title public']/strong/a/text()").toString());
????????if?(page.getResultItems().get("name") == null) {
????????????//skip this page
????????????page.setSkip(true);
????????}
????????page.putField("readme", page.getHtml().xpath("//div[@id='readme']/tidyText()"));
?
????????// 部分三：從頁面發現后續的url地址來抓取
????????page.addTargetRequests(page.getHtml().links().regex("(https://github\\.com/\\w+/\\w+)").all());
????}
?
????@Override
????public?Site getSite() {
????????return?site;
????}
?
????public?static?void?main(String[] args) {
?
????????Spider.create(new?GithubRepoPageProcessor())
????????????????//從"https://github.com/code4craft"開始抓
????????????????.addUrl("https://github.com/code4craft")
????????????????//開啟5個線程抓取
????????????????.thread(5)
????????????????//啟動爬蟲
????????????????.run();
????}
}
轉載于:https://www.cnblogs.com/cnblog-long/p/5376495.html
總結
                                以上是生活随笔為你收集整理的实现PageProcessor的全部內容，希望文章能夠幫你解決所遇到的問題。
                            

                                如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。
                            

PageProcessor

上一篇：经常使用命令 echo、@、call、p
下一篇： TextKit简单示例

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

实现PageProcessor

4.1 實現PageProcessor

總結