日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

抓取网页工具querylist的使用简介

發(fā)布時間:2023/12/29 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 抓取网页工具querylist的使用简介 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?

querylist的使用

首先,querylist是時下php最先進的dom采集包之一,而且是國人寫的,中文文檔很好,如果想用好,應(yīng)該直接看一遍官方文檔

我這里簡單記錄下我對querylisty使用的理解。目標是用一篇文章解釋如何使用。方便我超過2個月后回憶....

操作流程

主要分為三步

  • 載入資源
  • 篩選目標
  • 讀取結(jié)果
  • 舉例:

    <?php require 'QueryList/vendor/autoload.php'; use QL\QueryList; $html = <<<STR <div id="one"><div class="two"><a href="http://querylist.cc">QueryList官網(wǎng)</a><img src="http://querylist.com/1.jpg" alt="這是圖片"><img src="http://querylist.com/2.jpg" alt="這是圖片2"></div><span>其它的<b>一些</b>文本</span> </div> STR; $rules = array('text' => array('#one','text'),'link' => array('.two>a','href'),'img' => array('.two>img:eq(1)','src'),'other' => array('span','html') );$data = QueryList::html($html) // 1.載入資源->rules($rules) // 2.篩選目標之輸入篩選規(guī)則->query() // 2.篩選目標之執(zhí)行篩選->getData(); // 3.讀取結(jié)果 print_r($data->all()); // 3.讀取結(jié)果之轉(zhuǎn)換格式

    我們需要了解的就是每一步具體有那些更細的方法?主要第二步篩選,怎么用?

    載入資源

    $html = file_get_contents('https://querylist.cc/');

    方法說明
    html()ql = QueryList::html($html);
    setHtml($html)作用同上
    ql->setHtml($html);
    getHtml()獲取設(shè)置的待采集的html源碼
    ql->getHtml();
    get()get插件,用來輕松獲取網(wǎng)頁。該插件基于GuzzleHttp,請求參數(shù)與它一致。

    篩選目標

    //html源碼 $html='';//采集規(guī)則 $rules = [];//設(shè)置規(guī)則和執(zhí)行篩選 $ql = QueryList::html($html)->rules($rules)->query();//讀取結(jié)果 $data = $ql->getData(); print_r($data->all()); 方法說明
    rules($arr)設(shè)置篩選規(guī)則,是一個數(shù)組,看下面詳細介紹和舉例
    range()這個是rules的補充,看文檔代碼就明白了
    removeHead()移除頁面頭部head區(qū)域,亂碼終極解決方案,采集出現(xiàn)不可解決的亂碼問題的時候,可以嘗試調(diào)用這個方法來解決亂碼問題。
    query()執(zhí)行采集規(guī)則rules,執(zhí)行完這個方法后才可以用getData()方法獲取到采集數(shù)據(jù)。

    rules單獨說明

    //采集規(guī)則 $rules = array('規(guī)則名' => array('jQuery選擇器','要采集的屬性'[,"標簽過濾列表"][,"回調(diào)函數(shù)"]),'規(guī)則名2' => array('jQuery選擇器','要采集的屬性'[,"標簽過濾列表"][,"回調(diào)函數(shù)"]),.......... ); rules字段說明
    規(guī)則名不要重復 隨便寫
    jQuery選擇器jq會不
    要采集的屬性- text:返回當前選中標簽下面的純文本
    - html:返回當前選中標簽下面的html片段
    - [HTML標簽屬性]:如src、href、name、data-src等任意HTML標簽屬性名
    標簽過濾列表設(shè)置此選項可用來過濾不想要的內(nèi)容,多個值之間用空格隔開,有如下2條規(guī)則:
    - 當標簽名前面添加減號(-)時(此時標簽可以為任意的jQuery選擇器),表示移除該標簽以及標簽內(nèi)容。
    - 當標簽名前面沒有減號(-)時,當 [要采集的屬性] 值為text時表示需要保留的HTML標簽以及內(nèi)容,為html時表示要過濾掉的HTML標簽但保留內(nèi)容。
    回調(diào)函數(shù)?

    舉例:

    $rules = ['link' => ['a','href'],'content' => ['.article','html','-.ad1 -.ad2'] ];

    讀取結(jié)果

    方法說明
    getData()返回值為Laravel中Collection集合對象,通過它的all()方法可轉(zhuǎn)為數(shù)組。

    轉(zhuǎn)載于:https://juejin.cn/post/6844903621558009870

    總結(jié)

    以上是生活随笔為你收集整理的抓取网页工具querylist的使用简介的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。