日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

3.电影搜索之采集

發布時間:2023/12/14 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 3.电影搜索之采集 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

? ? ? ? ? ?關于采集,是一種即可恨又開愛的東西。可愛之處在于,通過采集,可以快速使你,從數據的平民窟,變成數據的富翁。而且消耗的時間相當之短。 可恨之處也很明顯,對于被你采集的人和你的競爭對手來說,都是咬牙切齒,夜不能寐的。

? ? ? ? ? ?

? ? ? ? ? ? ?我這里采集的部分相當簡單。主要是用到了 ?"PHP Simple HTML DOM"?

? ? ? ? ? ? ?用法可以參考:http://www.cnphp.info/php-simple-html-dom-parser-intro.html

? ? ? ? ? ? ?這是一個使用非常簡單方便的類,尤其是適合那些用慣了jquery的同學。他的選擇器基本和jquery一直,所以用這個類采集,基本不用寫正則表達式。 jquery是一個好東西,以至于很多語言都在模仿他的設計方式。java里面有個叫jsoup的包也是實現了類似的功能,使用非常簡單方便。后臺是使用java的人可以看看 jsoup。

?

? ? ? ? ? ? ?下面舉一個采集實例,目標對象是:http://www.dy9.net/nList/1.html?這個網站。網站截圖如下:

? ? ? ? ? ? ?

目測應該是一個百度影音的視頻播放網站。

?

列表主體部分代碼如下:

?

1 <div class="main"> 2 <div class="nBox"> 3 <div class="head"> 4 <div class="status"><div class="ico"></div></div> 5 <h3 class="title">最新動作片</h3> 6 <div class="xpage"><span>共2494條數據 頁次:1/179頁</span><em class="nolink">首頁</em><em class="nolink">上一頁</em><em>1</em><a href="/nList/1_2.html">2</a><a href="/nList/1_3.html">3</a><a href="/nList/1_4.html">4</a><a href="/nList/1_5.html">5</a><a href="/nList/1_6.html">6</a><a href="/nList/1_7.html">7</a><a href="/nList/1_8.html">8</a><a href="/nList/1_2.html">下一頁</a><a href="/nList/1_179.html">尾頁</a><span><input type="input" name="page" size="4"><input type="button" value="跳轉" onclick="getPageGoUrl(179,'page','/nList/1_&lt;page&gt;.html')" class="btn"></span></div> 7 </div> 8 <div class="border"> 9 10 <div class="tw w50p"> <a href="/movie/23660.html" class="imgBg1"><img src="/pic/uploadimg/2013-10/23660.jpg" alt="特殊身份/終極解碼" title="特殊身份/終極解碼" width="120" height="160" onerror="src='/template/skin/images/nopic.gif'"><span class="imgBg1Bg">DVD 11 </span></a> 12 <div class="twC2"> 13 <p><strong><a href="/movie/23660.html">特殊身份/終極解碼</a></strong></p> 14 <p class="actor">主演:甄子丹,景甜,安志杰,..</p> 15 <p>地區:香港</p> 16 <p>類型:動作片</p> 17 <p>時間:2013-11-28</p> 18 <p><a href="/player/23660-0.html" class="btn1">馬上觀看</a></p> 19 </div> 20 </div> 21 22 <div class="tw w50p"> <a href="/movie/1668.html" class="imgBg1"><img src="http://i3.ku6img.com/cms/jc/201009/25/16607v0ft_1.jpg" alt="猛龍" title="猛龍" width="120" height="160" onerror="src='/template/skin/images/nopic.gif'"><span class="imgBg1Bg">全集 23 </span></a> 24 <div class="twC2"> 25 <p><strong><a href="/movie/1668.html">猛龍</a></strong></p> 26 <p class="actor">主演:洪金寶,邁克爾.比恩,..</p> 27 <p>地區:香港</p> 28 <p>類型:動作片</p> 29 <p>時間:2013-11-28</p> 30 <p><a href="/player/1668-0.html" class="btn1">馬上觀看</a></p> 31 </div> 32 </div> 33 34 <div class="tw w50p"> <a href="/movie/4495.html" class="imgBg1"><img src="/pic/uploadimg/2011-7/4495.jpg" alt="第三十九級臺階" title="第三十九級臺階" width="120" height="160" onerror="src='/template/skin/images/nopic.gif'"><span class="imgBg1Bg"> 35 </span></a> 36 <div class="twC2"> 37 <p><strong><a href="/movie/4495.html">第三十九級臺階</a></strong></p> 38 <p class="actor">主演:魯伯特·潘瑞-瓊斯,L..</p> 39 <p>地區:大陸</p> 40 <p>類型:動作片</p> 41 <p>時間:2013-11-28</p> 42 <p><a href="/player/4495-0.html" class="btn1">馬上觀看</a></p> 43 </div> 44 </div> 45 46 <div class="tw w50p"> <a href="/movie/16510.html" class="imgBg1"><img src="/pic/uploadimg/2013-11/201311251248364079.jpg" alt="大洋深處" title="大洋深處" width="120" height="160" onerror="src='/template/skin/images/nopic.gif'"><span class="imgBg1Bg">暫無 47 </span></a> 48 <div class="twC2"> 49 <p><strong><a href="/movie/16510.html">大洋深處</a></strong></p> 50 <p class="actor">主演:克里斯·海姆斯沃斯,湯..</p> 51 <p>地區:歐美</p> 52 <p>類型:動作片</p> 53 <p>時間:2013-11-25</p> 54 <p><a href="/player/16510-0.html" class="btn1">馬上觀看</a></p> 55 </div> 56 </div> 57 58 <div class="tw w50p"> <a href="/movie/23479.html" class="imgBg1"><img src="/pic/uploadimg/2013-9/23479.jpg" alt="狄仁杰之神都龍王" title="狄仁杰之神都龍王" width="120" height="160" onerror="src='/template/skin/images/nopic.gif'"><span class="imgBg1Bg">TS搶先版 59 </span></a> 60 <div class="twC2"> 61 <p><strong><a href="/movie/23479.html">狄仁杰之神都龍王</a></strong></p> 62 <p class="actor">主演:趙又廷,馮紹峰,林更新..</p> 63 <p>地區:大陸</p> 64 <p>類型:動作片</p> 65 <p>時間:2013-11-24</p> 66 <p><a href="/player/23479-0.html" class="btn1">馬上觀看</a></p> 67 </div> 68 </div> 69 70 <div class="tw w50p"> <a href="/movie/24048.html" class="imgBg1"><img src="/pic/uploadimg/2013-11/24048.jpg" alt="新雌雄大盜" title="新雌雄大盜" width="120" height="160" onerror="src='/template/skin/images/nopic.gif'"><span class="imgBg1Bg">DVD 71 </span></a> 72 <div class="twC2"> 73 <p><strong><a href="/movie/24048.html">新雌雄大盜</a></strong></p> 74 <p class="actor">主演:Eric,Robert..</p> 75 <p>地區:歐美</p> 76 <p>類型:動作片</p> 77 <p>時間:2013-11-24</p> 78 <p><a href="/player/24048-0.html" class="btn1">馬上觀看</a></p> 79 </div> 80 </div> 81 82 <div class="tw w50p"> <a href="/movie/19935.html" class="imgBg1"><img src="/pic/uploadimg/2013-11/201311240161448042.jpg" alt="四大名捕2" title="四大名捕2" width="120" height="160" onerror="src='/template/skin/images/nopic.gif'"><span class="imgBg1Bg">預告 83 </span></a> 84 <div class="twC2"> 85 <p><strong><a href="/movie/19935.html">四大名捕2</a></strong></p> 86 <p class="actor">主演:鄧超,劉亦菲,鄒兆龍,..</p> 87 <p>地區:大陸</p> 88 <p>類型:動作片</p> 89 <p>時間:2013-11-24</p> 90 <p><a href="/player/19935-0.html" class="btn1">馬上觀看</a></p> 91 </div> 92 </div> 93 94 <div class="tw w50p"> <a href="/movie/21504.html" class="imgBg1"><img src="/pic/uploadimg/2013-4/21504.jpg" alt="雷神2:黑暗世界" title="雷神2:黑暗世界" width="120" height="160" onerror="src='/template/skin/images/nopic.gif'"><span class="imgBg1Bg">首發 95 </span></a> 96 <div class="twC2"> 97 <p><strong><a href="/movie/21504.html">雷神2:黑暗世界</a></strong></p> 98 <p class="actor">主演:克里斯·海姆斯沃斯,湯..</p> 99 <p>地區:歐美</p> 100 <p>類型:動作片</p> 101 <p>時間:2013-11-23</p> 102 <p><a href="/player/21504-0.html" class="btn1">馬上觀看</a></p> 103 </div> 104 </div> 105 106 <div class="tw w50p"> <a href="/movie/23507.html" class="imgBg1"><img src="/pic/uploadimg/2013-9/23507.jpg" alt="逃出生天3D" title="逃出生天3D" width="120" height="160" onerror="src='/template/skin/images/nopic.gif'"><span class="imgBg1Bg">TS粵語 107 </span></a> 108 <div class="twC2"> 109 <p><strong><a href="/movie/23507.html">逃出生天3D</a></strong></p> 110 <p class="actor">主演:古天樂,劉青云,李心潔..</p> 111 <p>地區:香港</p> 112 <p>類型:動作片</p> 113 <p>時間:2013-11-23</p> 114 <p><a href="/player/23507-0.html" class="btn1">馬上觀看</a></p> 115 </div> 116 </div> 117 118 <div class="tw w50p"> <a href="/movie/24031.html" class="imgBg1"><img src="/pic/uploadimg/2013-11/24031.jpg" alt="桎梏" title="桎梏" width="120" height="160" onerror="src='/template/skin/images/nopic.gif'"><span class="imgBg1Bg">BD 119 </span></a> 120 <div class="twC2"> 121 <p><strong><a href="/movie/24031.html">桎梏</a></strong></p> 122 <p class="actor">主演:樸雅卡·喬普拉,拉姆·..</p> 123 <p>地區:其它</p> 124 <p>類型:動作片</p> 125 <p>時間:2013-11-22</p> 126 <p><a href="/player/24031-0.html" class="btn1">馬上觀看</a></p> 127 </div> 128 </div> 129 130 <div class="tw w50p"> <a href="/movie/24020.html" class="imgBg1"><img src="/pic/uploadimg/2013-11/24020.jpg" alt="悍戰諜影/諜戰馬德拉斯" title="悍戰諜影/諜戰馬德拉斯" width="120" height="160" onerror="src='/template/skin/images/nopic.gif'"><span class="imgBg1Bg">BD 131 </span></a> 132 <div class="twC2"> 133 <p><strong><a href="/movie/24020.html">悍戰諜影/諜戰馬..</a></strong></p> 134 <p class="actor">主演:約翰·亞伯拉罕,娜吉絲..</p> 135 <p>地區:歐美</p> 136 <p>類型:動作片</p> 137 <p>時間:2013-11-22</p> 138 <p><a href="/player/24020-0.html" class="btn1">馬上觀看</a></p> 139 </div> 140 </div> 141 142 <div class="tw w50p"> <a href="/movie/5076.html" class="imgBg1"><img src="/pic/uploadimg/2011-7/5076.jpg" alt="尼姆島" title="尼姆島" width="120" height="160" onerror="src='/template/skin/images/nopic.gif'"><span class="imgBg1Bg"> 143 </span></a> 144 <div class="twC2"> 145 <p><strong><a href="/movie/5076.html">尼姆島</a></strong></p> 146 <p class="actor">主演:阿比吉爾·布萊斯林,杰..</p> 147 <p>地區:歐美</p> 148 <p>類型:動作片</p> 149 <p>時間:2013-11-21</p> 150 <p><a href="/player/5076-0.html" class="btn1">馬上觀看</a></p> 151 </div> 152 </div> 153 154 <div class="tw w50p"> <a href="/movie/24008.html" class="imgBg1"><img src="/pic/uploadimg/2013-11/24008.jpg" alt="間諜/K先生" title="間諜/K先生" width="120" height="160" onerror="src='/template/skin/images/nopic.gif'"><span class="imgBg1Bg">DVD+BD 155 </span></a> 156 <div class="twC2"> 157 <p><strong><a href="/movie/24008.html">間諜/K先生</a></strong></p> 158 <p class="actor">主演:薛景求,文素麗,高昌錫</p> 159 <p>地區:韓國</p> 160 <p>類型:動作片</p> 161 <p>時間:2013-11-21</p> 162 <p><a href="/player/24008-0.html" class="btn1">馬上觀看</a></p> 163 </div> 164 </div> 165 166 <div class="tw w50p"> <a href="/movie/20032.html" class="imgBg1"><img src="/pic/uploadimg/2012-12/20032.jpg" alt="逃脫" title="逃脫" width="120" height="160" onerror="src='/template/skin/images/nopic.gif'"><span class="imgBg1Bg">DVD+BD 167 </span></a> 168 <div class="twC2"> 169 <p><strong><a href="/movie/20032.html">逃脫</a></strong></p> 170 <p class="actor">主演:戴克斯·夏普德,克里斯..</p> 171 <p>地區:歐美</p> 172 <p>類型:動作片</p> 173 <p>時間:2013-11-20</p> 174 <p><a href="/player/20032-0.html" class="btn1">馬上觀看</a></p> 175 </div> 176 </div> 177 178 <div class="page"><span>共2494條數據 頁次:1/179頁</span><em class="nolink">首頁</em><em class="nolink">上一頁</em><em>1</em><a href="/nList/1_2.html">2</a><a href="/nList/1_3.html">3</a><a href="/nList/1_4.html">4</a><a href="/nList/1_5.html">5</a><a href="/nList/1_6.html">6</a><a href="/nList/1_7.html">7</a><a href="/nList/1_8.html">8</a><a href="/nList/1_2.html">下一頁</a><a href="/nList/1_179.html">尾頁</a><span><input type="input" name="page" size="4"><input type="button" value="跳轉" onclick="getPageGoUrl(179,'page','/nList/1_&lt;page&gt;.html')" class="btn"></span></div> 179 </div> 180 </div> 181 </div>

? ? ? ? 現在假設我們的目標是:采集電影的名稱,地區,類型,時間,和對于的播放地址。

?

? ? ? ? 那么php代碼如下:

? ? ? ??

//簡單的輸出采集也的所有電影詳情也url地址 public function dy9list(){ $from="http://www.dy9.net/nList/13.html"; $html = file_get_html("$from"); $info=$html->find("div[class=w50p]"); foreach ($info as $v){ $href=$v->find("a",0)->href; dump($href); }}//結果如下:string(17) "/movie/24007.html" string(17) "/movie/23417.html" string(17) "/movie/23535.html" string(17) "/movie/24022.html" string(17) "/movie/23611.html" string(17) "/movie/23003.html" string(17) "/movie/21791.html" string(17) "/movie/23517.html" string(17) "/movie/24058.html" string(17) "/movie/23767.html" string(17) "/movie/21790.html" string(17) "/movie/22244.html" string(17) "/movie/23943.html" string(17) "/movie/23543.html"

?

采集關鍵項數據代碼如下:

/*** www.dy9.net 列表采集*/public function dy9list(){$from="http://www.dy9.net/nList/13.html";$html = file_get_html("$from");$info=$html->find("div[class=w50p]");foreach ($info as $v){$movie['href']=$v->find("a",0)->href;$movie['name']=$v->find("p",0)->plaintext;$movie['star']=$v->find("p",1)->plaintext;$movie['area']=$v->find("p",2)->plaintext;$movie['type']=$v->find("p",3)->plaintext;$movie['time']=$v->find("p",4)->plaintext;dump($movie);}}array(6) {["href"] => string(17) "/movie/24007.html"["name"] => string(12) "漂亮男人"["star"] => string(40) "主演:張根碩,李智恩,李章宇.."["area"] => string(15) "地區:韓國"["type"] => string(18) "類型:日韓劇"["time"] => string(19) "時間:2013-11-29" } array(6) {["href"] => string(17) "/movie/23417.html"["name"] => string(18) "土豆星球2013.."["star"] => string(40) "主演:李順載,呂珍九,河妍秀.."["area"] => string(15) "地區:韓國"["type"] => string(18) "類型:日韓劇"["time"] => string(19) "時間:2013-11-29" } array(6) {["href"] => string(17) "/movie/23535.html"["name"] => string(12) "多謝款待"["star"] => string(40) "主演:杏,東出昌大,原田泰造.."["area"] => string(15) "地區:日本"["type"] => string(18) "類型:日韓劇"["time"] => string(19) "時間:2013-11-29" } array(6) {["href"] => string(17) "/movie/24022.html"["name"] => string(27) "來自風平浪靜的明天"["star"] => string(40) "主演:花江夏樹,花澤香菜,石.."["area"] => string(15) "地區:日本"["type"] => string(18) "類型:日韓劇"["time"] => string(19) "時間:2013-11-29" } array(6) {["href"] => string(17) "/movie/23611.html"["name"] => string(12) "繼承者們"["star"] => string(40) "主演:李敏鎬,樸信惠,金宇彬.."["area"] => string(15) "地區:韓國"["type"] => string(18) "類型:日韓劇"["time"] => string(19) "時間:2013-11-29" } array(6) {["href"] => string(17) "/movie/23003.html"["name"] => string(15) "紅寶石戒指"["star"] => string(40) "主演:李素妍,林貞恩,鄭東煥.."["area"] => string(15) "地區:韓國"["type"] => string(18) "類型:日韓劇"["time"] => string(19) "時間:2013-11-29" } array(6) {["href"] => string(17) "/movie/21791.html"["name"] => string(15) "丑八怪警報"["star"] => string(38) "主演:林周煥,姜索拉,申素率"["area"] => string(15) "地區:韓國"["type"] => string(18) "類型:日韓劇"["time"] => string(19) "時間:2013-11-28" } array(6) {["href"] => string(17) "/movie/23517.html"["name"] => string(24) "因為是你才喜歡 .."["star"] => string(38) "主演:尹海英,李在皇,尹智敏"["area"] => string(15) "地區:韓國"["type"] => string(18) "類型:日韓劇"["time"] => string(19) "時間:2013-11-28" } array(6) {["href"] => string(17) "/movie/24058.html"["name"] => string(22) "歐若拉公主 國語"["star"] => string(40) "主演:全素敏,孫昌錫,邊熙峰.."["area"] => string(15) "地區:韓國"["type"] => string(18) "類型:日韓劇"["time"] => string(19) "時間:2013-11-28" } array(6) {["href"] => string(17) "/movie/23767.html"["name"] => string(10) "LEGALHIG.."["star"] => string(9) "主演:"["area"] => string(15) "地區:日本"["type"] => string(18) "類型:日韓劇"["time"] => string(19) "時間:2013-11-28" } array(6) {["href"] => string(17) "/movie/21790.html"["name"] => string(15) "歐若拉公主"["star"] => string(40) "主演:全素敏,孫昌錫,邊熙峰.."["area"] => string(15) "地區:韓國"["type"] => string(18) "類型:日韓劇"["time"] => string(19) "時間:2013-11-28" } array(6) {["href"] => string(17) "/movie/22244.html"["name"] => string(6) "恩熙"["star"] => string(40) "主演:金恩熙,景秀珍,林成載.."["area"] => string(15) "地區:韓國"["type"] => string(18) "類型:日韓劇"["time"] => string(19) "時間:2013-11-28" } array(6) {["href"] => string(17) "/movie/23943.html"["name"] => string(19) "黃金時刻 國語"["star"] => string(35) "主演:李善均,黃靜茵,李圣"["area"] => string(15) "地區:韓國"["type"] => string(18) "類型:日韓劇"["time"] => string(19) "時間:2013-11-28" } array(6) {["href"] => string(17) "/movie/23543.html"["name"] => string(6) "貓侍"["star"] => string(28) "主演:北村一輝,平田"["area"] => string(15) "地區:日本"["type"] => string(18) "類型:日韓劇"["time"] => string(19) "時間:2013-11-28" }

//數據整理之后就在一個數組里面了,然后 add到數據庫就OK了,當然這里你也可以采集到影片的圖片。

? 采集大概的節奏就是這樣了。具體不同的網站結構不同,但是道理是一樣的。只要有規律就可以采集。

?

? 采集之后把數據添加到數據庫,同時保存這條數據的來源,可以作為排重用,之后也可以提示去源網頁。

? 我這里只是簡單的采集了列表也里面的數據,一般的網頁就是列表頁,然后詳情頁,大部分數據都是在詳情頁。尤其是視頻正在的播放網址,只能在播放頁采集到。

?

? 很多網站對視頻資源地址都是做了處理的,比如有的網站會對百度影音的的url做一個 base64編碼,然后他使用的時候通過base64解碼。有一些是把多個播放地址拼接然后中間加入一些分割符號。

?

---------------------------------------------------

http://www.mrhso.com/movie

? ??

? ?

? ? ?

轉載于:https://www.cnblogs.com/wangpg/p/3449780.html

總結

以上是生活随笔為你收集整理的3.电影搜索之采集的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。