日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > php >内容正文

php

织梦php 文章采集规则,如何正确写DedeCms采集规则

發布時間:2024/8/1 php 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 织梦php 文章采集规则,如何正确写DedeCms采集规则 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

如何正確寫DedeCms采集規則:

下面是詳細過程,網上希望大家能認真看完慢慢去琢磨應該能幫助到你的:

第一步、確定采集的網站(我們以DEDE的官方站做為采集站做示范)

引用

http://www.dedecms.com/plus/list.php?tid=10

第二步、確定被采集站的編碼。打開被采集的網頁之后,查看源代碼(IE:查看 - > 源代碼)

之間找到 charset 這個,后面就顯示網頁的編碼了,截圖的是 “gb2312”

第三步、采集列表獲取規則寫法

來源網址寫法 很明顯pageno是表示分頁頁碼 那么有多頁列表的采集就要用“[var:分頁]”來替換分頁頁碼,截圖如下

http://www.dedecms.com/ plus/list.php?tid=10&pageno=[var:分頁]

文章網址需包含 網址不能包含 這兩個一般不用寫,用于采集列表范圍有很多不需要的連接才用到他來做過濾使用。

上面的網址并沒有帶有至于http://www.dedecms.com 為什么要在前面加上,這個就不要我說了吧。

如果只有一個列表頁,那么在來源網址就直接寫上網址就OK了。

注意這里,最關鍵就是這里。

下面就是“采集獲取文章列表的規則寫法”,

就是上面打開的被采集頁面的源代碼文件,找到文章列表之前 和本頁面沒有其他相同的代碼

在DedeCms官方站的列表頁文章列表之前和之后最近的且沒有相同的是“

”和“”,分別寫入“起始HTML”和“結束HTML”,寫法看截圖

第四步、采集文章標題,文章內容,文章作者,文章來源等規則寫法,分頁采集等。

“起始HTML”和“結束HTML”寫法參考第三步中的“獲取文章列表的規則寫法”

下面講的是如何采集分頁內容 看截圖圈著的地方 截圖

文檔是否分頁 里面選擇“全部列出的分頁列表”

“起始HTML”和“結束HTML”寫法參考第三步中的“獲取文章列表的規則寫法”

這里本來還有一張截圖的,由于論壇配置,他現在顯示在最上面.

在文章內容那里點上“分頁內容字段”,不選擇就不能采集。

“下載字段里的多媒體資源 ”這個是采集的時候把多媒體資源(視頻,軟件,圖片等)下載到本地,也就是你的網站。

下面�*****濾規�

過濾規則需要用 “正則表達式”來寫,但是對于新手來說,這個簡直是比登天還要難,具體的可以參考

http://www.dedecms.com/web-art/PHP_jiaocheng/20070420/38633.html這個網頁

下面教大家一個簡單的方法

把下面的過濾規則復制到你那里去,幾乎就可以了,也可以自己分析一下,說不定你就懂了

引用

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

  • {/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}

{dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

{dede:trim}{/dede:trim}

當然 上面這些不能用來采集帶有視頻的,因為已經過濾了

自定義處理接口

這個說白了,就是PHP代碼。只不過 “ @ me 表示當前標記值和最終結果“@ body表示原始網頁”“ @ litpic 縮略圖”,按照PHP的寫法的就OK了

總結

以上是生活随笔為你收集整理的织梦php 文章采集规则,如何正确写DedeCms采集规则的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。