php采集规则,dedecms采集规则怎么编写
織夢(mèng)系統(tǒng)作為一個(gè)比較常用的文章系統(tǒng),相對(duì)來(lái)說(shuō)操作比較容易。在眾多功能中,采集系統(tǒng)可能對(duì)于部分新手來(lái)說(shuō)可能是比較頭疼,比如采集區(qū)域設(shè)置不對(duì)、采集規(guī)則具體編輯不正確、采集后空白等問(wèn)題。今天我們就從比較容易遇到的幾個(gè)問(wèn)題來(lái)詳細(xì)講解下。
首先我們先登錄后臺(tái),分別點(diǎn)擊采集--采集節(jié)點(diǎn)管理,進(jìn)入采集管理設(shè)置界面
這里有兩個(gè)可以選擇,一個(gè)是修改原先的節(jié)點(diǎn)(主要是之前設(shè)置錯(cuò)誤導(dǎo)致采集不了或者其他設(shè)置),一個(gè)是直接新增節(jié)點(diǎn),大部分以新增節(jié)點(diǎn)為主,點(diǎn)擊,然后下一步,選擇“普通文章”確認(rèn)。
然后填寫(xiě)節(jié)點(diǎn)名稱(chēng)(建議是和欄目相關(guān)的名稱(chēng),避免導(dǎo)入的時(shí)候出錯(cuò)),這個(gè)按實(shí)際填就可以了。然后第一個(gè)重點(diǎn):目標(biāo)頁(yè)面編碼 。這個(gè)是一定要填寫(xiě)目標(biāo)網(wǎng)頁(yè)的編碼,非自己網(wǎng)頁(yè)的。查看方法:打開(kāi)目標(biāo)網(wǎng)站隨便一個(gè)頁(yè)面,空白地方右鍵-查看源代碼(編碼一般在前幾行)
然后是填寫(xiě)列表規(guī)則,一種是批量生成網(wǎng)址,一般適用于規(guī)律比較強(qiáng)的或者需要采集是從上到下的。比如我們是以這個(gè)欄目目標(biāo)的:
第一頁(yè)列表:http://youqubu.cn/tansuo/list_5_1.html
第二頁(yè)列表:http://youqubu.cn/tansuo/list_5_2.html。
這個(gè)列表規(guī)則最重要的是找相同和不同點(diǎn),相同點(diǎn)填上去,不同點(diǎn)用匹配符號(hào)補(bǔ)充,就是變量。其實(shí)這個(gè)一對(duì)比我們可以知道,http://youqubu.cn/tansuo/list_5_ .html這里都是一樣的,所以變量就是1.2.3.4.。。所以匹配的網(wǎng)址是:
http://youqubu.cn/tansuo/list_5_(*).html。
另一種是列表規(guī)則是手工指定列表網(wǎng)址,這個(gè)就比較通俗了。就是把你所有需要采集的列表頁(yè)填寫(xiě)上去。(比較適合只采集某幾頁(yè)或者變量比較多的頁(yè)面)
注意:很多網(wǎng)站的欄目首頁(yè)是以http://xxx.xx/xxx/這樣的形式展示的,可以對(duì)比以上我們發(fā)現(xiàn),少了后面的變量項(xiàng)。所以找到有變量項(xiàng)的方法是:點(diǎn)擊這個(gè)列表的下一頁(yè),如果還弄不清楚就再點(diǎn)擊下一頁(yè),對(duì)比列表的第二和第三頁(yè),我們可以同樣發(fā)現(xiàn)步驟四的變量項(xiàng)。
這一步是獲取該列表下文章的全部地址,我們要從列表頁(yè)中獲取全部的文章頁(yè)地址。我們還是以:http://youqubu.cn/tansuo/list_5_1.html列表為例。復(fù)制該列表下第一篇文章的標(biāo)題,然后列表頁(yè)空白處右鍵--查看源代碼,按ctrl+F查找,粘貼剛剛復(fù)制的標(biāo)題,定位到該文字源代碼中的位置。其實(shí)這個(gè)是有一定規(guī)律的。然后我們查找源代碼中哪部分代碼是唯一的并且能夠包含列表所有文章地址的(注意:開(kāi)始代碼查找應(yīng)該從列表第一篇文章標(biāo)題開(kāi)始往上找,結(jié)束代碼查找應(yīng)該從列表第一篇文章標(biāo)題開(kāi)始往下找)。通過(guò)這個(gè)源代碼可知。開(kāi)始代碼:
- 和結(jié)束代碼:
下一步的縮略圖我們可以選擇不采集,因?yàn)榭棄?mèng)本身是會(huì)把第一張圖片默認(rèn)為縮略圖的,這個(gè)看實(shí)際情況。下面是對(duì)網(wǎng)址的篩選:包含的意思是:這個(gè)步驟六選擇的代碼區(qū)間的文章網(wǎng)址只有包含了這部分才會(huì)被采集(這里有兩種情況:1。譬如上面演示的地址,它是以超鏈接的形式,不是完整的網(wǎng)址,所以這種情況千萬(wàn)不要填寫(xiě)包含。2.就是列表涉及到多個(gè)鏈接的,比如標(biāo)簽這樣的,最好填寫(xiě)包含,填寫(xiě)你想要的網(wǎng)址有的,不想要的網(wǎng)址沒(méi)有的部分)。然后下一步。這邊會(huì)列出因?yàn)樯厦嫣顚?xiě)的規(guī)則所采集到的列表頁(yè)中文章的網(wǎng)址。如果是空白:我們可以先刪除必須包含和不能包含,點(diǎn)擊下一步測(cè)試,如果能采集到連接但是很亂,那就是你這步包含相關(guān)填錯(cuò)了;如果這樣操作還是沒(méi)有采集到東西,那就是“包含文章網(wǎng)址區(qū)域”這步填寫(xiě)錯(cuò)了。
分頁(yè)規(guī)則也主要分兩種:一種是直接填寫(xiě)默認(rèn)代碼:{path}{file}_{p}{ext} 然后選擇分頁(yè)列表規(guī)則(如下圖)。 另一種是打開(kāi)目標(biāo)文章頁(yè),找到有上下幾頁(yè)的文章,右鍵查看源碼,找到這部分代碼,填寫(xiě)方式和文章頁(yè)網(wǎng)址區(qū)域的方法一樣,然后右邊選擇:全部列出的分頁(yè)列表。(第二種方法要注意,因?yàn)樯婕暗蕉囗?yè),填寫(xiě)首尾代碼的時(shí)候一定要多翻幾張,然后查看源代碼,把你認(rèn)為共同的代碼在多個(gè)頁(yè)面查找下,因?yàn)榭赡艹霈F(xiàn)你選擇的代碼在首頁(yè)是可以找到的,在2.3四頁(yè)后面就沒(méi)有了,那就說(shuō)明這個(gè)不是公用代碼,你填上去也會(huì)導(dǎo)致采集不到分頁(yè)的)
分頁(yè)設(shè)置好后,我們主要設(shè)置標(biāo)題規(guī)則和內(nèi)容規(guī)則。時(shí)間規(guī)則和作者、來(lái)源規(guī)則這里不細(xì)說(shuō),這個(gè)不是所有人都需要的,這步談到的規(guī)則都可以獲取區(qū)間的方式得到內(nèi)容或者填入固定的詞語(yǔ)。首先是標(biāo)題規(guī)則:我們以:http://youqubu.cn/tansuo/362.html。這個(gè)文章頁(yè)來(lái)做說(shuō)明。我們先復(fù)制標(biāo)題名字,然后在源代碼中查找。示例中查找我們可以發(fā)現(xiàn)這里有五個(gè)相同的部分,而且沖對(duì)比中發(fā)現(xiàn),這個(gè)其實(shí)是有兩種寫(xiě)法的。1.完全包含這個(gè)文字的代碼區(qū)間,不帶其他文字:
世界神秘十大歷史遺跡。這個(gè)很容易就可以寫(xiě)出規(guī)則:[內(nèi)容]。2.另一種是代碼中包含了該文字,但是還有其他類(lèi)似的文字混淆。如:世界神秘十大歷史遺跡_有趣獵奇網(wǎng)-知天下奇事 觀天下奇景 解未解之謎 -www.youqubu.cn 從這里很明顯就可以看出有一部分是唯一的,一部分是我們想要的,另一部分是通用的,所以簡(jiǎn)單的就能寫(xiě)出規(guī)則:[內(nèi)容]_有趣獵奇網(wǎng)-知天下奇事 觀天下奇景 解未解之謎 -www.youqubu.cn 。為什么這里不選擇另外幾個(gè)呢,主要是另外幾個(gè)都是變量,這個(gè)是沒(méi)辦法獲取的。下面的內(nèi)容也是一樣的道理,這里要注意的是把廣告代碼或者不需要的東西屏蔽掉,這里就要用到“過(guò)濾規(guī)則”。一般情況下除了IMG這個(gè),其他都可以過(guò)濾,如果你連圖片也不要的話,全選即可。
最后點(diǎn)擊保存,開(kāi)始采集網(wǎng)頁(yè),采集完成后,我們點(diǎn)擊采集-采集節(jié)點(diǎn)管理。我們進(jìn)入后在剛才采集好的節(jié)點(diǎn)前面打鉤,然后點(diǎn)擊“導(dǎo)出數(shù)據(jù)”,選擇你需要導(dǎo)入的欄目,確認(rèn)即可。(最后一步設(shè)置最好設(shè)置下重復(fù)標(biāo)題)
更多DedeCMS相關(guān)技術(shù)文章,請(qǐng)?jiān)L問(wèn)DedeCMS教程欄目進(jìn)行學(xué)習(xí)!
總結(jié)
以上是生活随笔為你收集整理的php采集规则,dedecms采集规则怎么编写的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 软件程序设计中的N-S图、PAD图、程序
- 下一篇: php 递归函数 示例,php递归使用示