python网络爬虫入门小程序_Python 实现网络爬虫小程序
轉載請注明作者和出處: http://blog.csdn.net/c406495762 運行平臺: Windows Python版本: Python3.x IDE: Sublime text3 前言 問題分析 預備知識 1 Selenium 11 簡介 12 安裝 13 基礎知識 131 小試牛刀 132 模擬提交 133 元素選取 134 界面交互 135 添加U
Python很簡潔,也很強大,作為興趣,值得一學!
下面這個程序實現的是從一個網站上下載圖片,根據自己需要可以進行修改使用Python語言,編寫簡單的爬蟲程序,在百度百科頁面上爬取跟詞條“Python”有關的1000個頁面(頁面數目可以自己任意設定)。 這個簡易的爬蟲項目可以分為5個模塊: 首先,需要有一個程序入口spider_main,同時作為爬蟲的總控程序(調度程序), 改程序需要
import re
import urllib
def gethtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
def getimg(html):
reg = r'src="(.*?\.jpg)"'
imgre = re.compile(reg)
imglist = re.findall(imgre, html)
x = 1
for imgurl in imglist:
urllib.urlretrieve(imgurl, '%s.jpg' % x)
x+=1
target = raw_input("Input one url:")
html = gethtml(target)
print "please wating, pictrues are downloading....."
getimg(html)
總結
以上是生活随笔為你收集整理的python网络爬虫入门小程序_Python 实现网络爬虫小程序的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: wxpython使用matplot_测试
- 下一篇: python hbase 报错by_【h