日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > php >内容正文

php

php采集规则,dedecms采集规则怎么编写

發布時間:2024/8/1 php 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 php采集规则,dedecms采集规则怎么编写 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

織夢系統作為一個比較常用的文章系統,相對來說操作比較容易。在眾多功能中,采集系統可能對于部分新手來說可能是比較頭疼,比如采集區域設置不對、采集規則具體編輯不正確、采集后空白等問題。今天我們就從比較容易遇到的幾個問題來詳細講解下。

首先我們先登錄后臺,分別點擊采集--采集節點管理,進入采集管理設置界面

這里有兩個可以選擇,一個是修改原先的節點(主要是之前設置錯誤導致采集不了或者其他設置),一個是直接新增節點,大部分以新增節點為主,點擊,然后下一步,選擇“普通文章”確認。

然后填寫節點名稱(建議是和欄目相關的名稱,避免導入的時候出錯),這個按實際填就可以了。然后第一個重點:目標頁面編碼 。這個是一定要填寫目標網頁的編碼,非自己網頁的。查看方法:打開目標網站隨便一個頁面,空白地方右鍵-查看源代碼(編碼一般在前幾行)

然后是填寫列表規則,一種是批量生成網址,一般適用于規律比較強的或者需要采集是從上到下的。比如我們是以這個欄目目標的:

第一頁列表:http://youqubu.cn/tansuo/list_5_1.html

第二頁列表:http://youqubu.cn/tansuo/list_5_2.html。

這個列表規則最重要的是找相同和不同點,相同點填上去,不同點用匹配符號補充,就是變量。其實這個一對比我們可以知道,http://youqubu.cn/tansuo/list_5_ .html這里都是一樣的,所以變量就是1.2.3.4.。。所以匹配的網址是:

http://youqubu.cn/tansuo/list_5_(*).html。

另一種是列表規則是手工指定列表網址,這個就比較通俗了。就是把你所有需要采集的列表頁填寫上去。(比較適合只采集某幾頁或者變量比較多的頁面)

注意:很多網站的欄目首頁是以http://xxx.xx/xxx/這樣的形式展示的,可以對比以上我們發現,少了后面的變量項。所以找到有變量項的方法是:點擊這個列表的下一頁,如果還弄不清楚就再點擊下一頁,對比列表的第二和第三頁,我們可以同樣發現步驟四的變量項。

這一步是獲取該列表下文章的全部地址,我們要從列表頁中獲取全部的文章頁地址。我們還是以:http://youqubu.cn/tansuo/list_5_1.html列表為例。復制該列表下第一篇文章的標題,然后列表頁空白處右鍵--查看源代碼,按ctrl+F查找,粘貼剛剛復制的標題,定位到該文字源代碼中的位置。其實這個是有一定規律的。然后我們查找源代碼中哪部分代碼是唯一的并且能夠包含列表所有文章地址的(注意:開始代碼查找應該從列表第一篇文章標題開始往上找,結束代碼查找應該從列表第一篇文章標題開始往下找)。通過這個源代碼可知。開始代碼:

  • 和結束代碼:
能夠包含所有的文章列表,并且代碼是唯一的

下一步的縮略圖我們可以選擇不采集,因為織夢本身是會把第一張圖片默認為縮略圖的,這個看實際情況。下面是對網址的篩選:包含的意思是:這個步驟六選擇的代碼區間的文章網址只有包含了這部分才會被采集(這里有兩種情況:1。譬如上面演示的地址,它是以超鏈接的形式,不是完整的網址,所以這種情況千萬不要填寫包含。2.就是列表涉及到多個鏈接的,比如標簽這樣的,最好填寫包含,填寫你想要的網址有的,不想要的網址沒有的部分)。然后下一步。這邊會列出因為上面填寫的規則所采集到的列表頁中文章的網址。如果是空白:我們可以先刪除必須包含和不能包含,點擊下一步測試,如果能采集到連接但是很亂,那就是你這步包含相關填錯了;如果這樣操作還是沒有采集到東西,那就是“包含文章網址區域”這步填寫錯了。

分頁規則也主要分兩種:一種是直接填寫默認代碼:{path}{file}_{p}{ext} 然后選擇分頁列表規則(如下圖)。 另一種是打開目標文章頁,找到有上下幾頁的文章,右鍵查看源碼,找到這部分代碼,填寫方式和文章頁網址區域的方法一樣,然后右邊選擇:全部列出的分頁列表。(第二種方法要注意,因為涉及到多頁,填寫首尾代碼的時候一定要多翻幾張,然后查看源代碼,把你認為共同的代碼在多個頁面查找下,因為可能出現你選擇的代碼在首頁是可以找到的,在2.3四頁后面就沒有了,那就說明這個不是公用代碼,你填上去也會導致采集不到分頁的)

分頁設置好后,我們主要設置標題規則和內容規則。時間規則和作者、來源規則這里不細說,這個不是所有人都需要的,這步談到的規則都可以獲取區間的方式得到內容或者填入固定的詞語。首先是標題規則:我們以:http://youqubu.cn/tansuo/362.html。這個文章頁來做說明。我們先復制標題名字,然后在源代碼中查找。示例中查找我們可以發現這里有五個相同的部分,而且沖對比中發現,這個其實是有兩種寫法的。1.完全包含這個文字的代碼區間,不帶其他文字:

世界神秘十大歷史遺跡。這個很容易就可以寫出規則:[內容]。2.另一種是代碼中包含了該文字,但是還有其他類似的文字混淆。如:世界神秘十大歷史遺跡_有趣獵奇網-知天下奇事 觀天下奇景 解未解之謎 -www.youqubu.cn 從這里很明顯就可以看出有一部分是唯一的,一部分是我們想要的,另一部分是通用的,所以簡單的就能寫出規則:[內容]_有趣獵奇網-知天下奇事 觀天下奇景 解未解之謎 -www.youqubu.cn 。為什么這里不選擇另外幾個呢,主要是另外幾個都是變量,這個是沒辦法獲取的。

下面的內容也是一樣的道理,這里要注意的是把廣告代碼或者不需要的東西屏蔽掉,這里就要用到“過濾規則”。一般情況下除了IMG這個,其他都可以過濾,如果你連圖片也不要的話,全選即可。

最后點擊保存,開始采集網頁,采集完成后,我們點擊采集-采集節點管理。我們進入后在剛才采集好的節點前面打鉤,然后點擊“導出數據”,選擇你需要導入的欄目,確認即可。(最后一步設置最好設置下重復標題)

更多DedeCMS相關技術文章,請訪問DedeCMS教程欄目進行學習!

總結

以上是生活随笔為你收集整理的php采集规则,dedecms采集规则怎么编写的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美亚洲日本国产 | h文在线观看 | 男人亚洲天堂 | 肉丝美足丝袜一区二区三区四 | 最新黄色网址在线观看 | 人人模人人干 | 熟妇高潮一区二区三区在线播放 | 久热在线视频 | 姐姐的秘密韩剧免费观看全集中文 | 狠狠干91| 深夜网站在线 | 亚洲视频区 | 国产精品久久久久9999 | 黄色大片aaa | 久久久久久av无码免费网站下载 | 欧美拍拍| 2021久久| 欧洲中文字幕日韩精品成人 | 午夜激情网站 | 天天久久综合网 | 碰碰久久| 韩毛片 | 老公吃小头头视频免费观看 | 蜜桃视频成人在线观看 | 国产一二三在线 | 亚洲国产精品尤物yw在线观看 | 中文字幕一区二区在线观看 | 亚洲精品另类 | 天天干天天插 | 秋霞免费av| 人体av | 亚洲国产成人精品一区二区三区 | 久久久久久99精品久久久 | 肉番在线观看 | 黄色小视频在线播放 | 午夜天堂视频 | 丰满熟妇人妻av无码区 | 欧美日韩一区二区三区不卡视频 | 一级做a免费视频 | 91精品一区二区三区四区 | 爱情岛论坛自拍亚洲品质极速最新章 | 久久精品电影网 | 国产精品网站在线观看 | 免费裸体美女网站 | 在线看的av网站 | 久久久夜色精品 | 精品美女一区二区三区 | 嫩草伊人 | 懂色av中文字幕 | 国产成人精品一区二区三 | 国产高清视频免费 | 国内久久精品视频 | 国产丝袜精品视频 | 一级视频毛片 | 久久激情小说 | 亚洲一区二区三区成人 | 亚洲视频在线观看 | 粉嫩av懂色av蜜臀av分享 | 青草成人免费视频 | 日韩激情毛片 | 亚洲特黄特色 | 激情综合网激情 | 亚洲av熟女一区 | www麻豆视频 | 久久国内 | 黄色国产精品 | 日韩不卡一区二区三区 | 久久影音 | 日本伦理一区 | 亚洲毛片精品 | 怡红院精品视频 | 超碰视屏 | 亚洲久草| 欧美比基尼 | 欧美日韩天堂 | 草莓巧克力香氛动漫的观看方法 | www.亚洲欧美 | 成年人免费在线看 | 欧美在线视频网 | 国产精品三级在线 | 色综合久久久无码中文字幕波多 | 奇米精品一区二区三区在线观看一 | 亲子伦视频一区二区三区 | 91香蕉视频污污 | 99国产在线播放 | 免费av中文字幕 | www.成人免费视频 | 欧洲国产精品 | 你懂的网站在线观看 | 国产一区二区三区在线观看视频 | 无码少妇精品一区二区免费动态 | 日本视频三区 | 天天操精品 | 亚洲码在线观看 | 国产在线极品 | 亚洲综合精品国产 | 亚洲综合精品国产一区二区三区 | 国产精品无码一区二区三区免费 | 久久青草视频 |