python lxml xpath_Python/lxml/Xpath:如何找到包含特定文本的行?
例如,要獲得一個(gè)類似以下內(nèi)容的輸出,需要什么
“現(xiàn)金和短期投資144841 169760 189252 86743 57379”?或者類似“物業(yè)、廠房和設(shè)備-總價(jià)值725104 632332 571467 538805 465493”?在
我已經(jīng)通過siteshttp://www.techchorus.net/web-scraping-lxml介紹了Xpath的基本知識(shí)。然而,Xpath語法對(duì)我來說仍然是個(gè)謎。在
我已經(jīng)成功地完成了這個(gè)任務(wù)。我喜歡這樣一個(gè)事實(shí),beauthoulsoup不需要我知道文件的結(jié)構(gòu)-它只查找包含我搜索的文本的元素。不幸的是,beauthulsoup對(duì)于一個(gè)需要執(zhí)行數(shù)千次的腳本來說太慢了。我在BeautifulGroup中任務(wù)的源代碼是(title_input等于“現(xiàn)金和短期投資”):page = urllib2.urlopen (url_local)
soup = BeautifulSoup (page)
soup_line_item = soup.findAll(text=title_input)[0].parent.parent.parent
list_output = soup_line_item.findAll('td') # List of elements
那么在lxml中等價(jià)的代碼是什么呢?在
編輯1:我第一次發(fā)布時(shí),網(wǎng)址被隱藏了。我現(xiàn)在已經(jīng)修好了。在
編輯2:我添加了基于beauthoulsoup的解決方案,以澄清我要做什么。在
編輯3:+10為您的解決方案添加根目錄。為了將來有同樣問題的開發(fā)人員的利益,我在這里發(fā)布了一個(gè)對(duì)我有用的快速而骯臟的腳本:
^{pr2}$
總結(jié)
以上是生活随笔為你收集整理的python lxml xpath_Python/lxml/Xpath:如何找到包含特定文本的行?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mulitpartfile怎么接收不到值
- 下一篇: websocket python爬虫_p