日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Day 16: Goose Extractor —— 好用的文章提取工具

發布時間:2025/3/21 编程问答 54 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Day 16: Goose Extractor —— 好用的文章提取工具 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

今天的“30天學習30種新技術”的主題是如何使用Python進行文章提取。這幾個月來,我對文章提取很感興趣,因為我想寫一個Prismatic克隆。Prismatic創建基于用戶興趣的新聞源。提取文章的主要內容、圖片和其他元信息對大多數類似Prismatic的內容發現站點很有用。本文中,我們將學習如何使用Python的goose-extractor包來完成這個任務。我們首先介紹一些基礎知識,然后使用Goose Extractor 的 API 來開發一個簡單的Flask應用。

Goose Extractor是什么?

Goose Extractor是一個Python的開源文章提取庫。可以用它提取文章的文本內容、圖片、視頻、元信息和標簽。Goose本來是由Gravity.com編寫的Java庫,最近轉向了scala。

Goose Extractor網站是這么介紹的:

Goose Extractor完全用Python重寫了。目標是給定任意資訊文章或者任意文章類的網頁,不僅提取出文章的主體,同時提取出所有元信息以及圖片等信息。

為什么關心Goose Extractor

我決定學習Goose Extractor是因為:

  • 我打算開發需要文章提取功能的應用。Goose Extractor基于NLTK和Beautiful Soup,分別是文本處理和HTML解析的領導者。

  • 我想了解如何用Python進行文章提取。

  • 安裝Goose Extractor

    我們首先需要安裝Python和virtualenv,本文使用的Python版本是2.7。

    然后使用如下命令安裝:

    mkdir myapp cd myapp virtualenv venv --python=python2.7 . venv/bin/activate pip install goose-extractor

    GitHub倉庫

    今天的示例程序的代碼可從GitHub取得。

    應用

    示例應用運行在 OpenShift 上 http://gooseextractor-t20.rhcloud.com/ 用戶可以提交鏈接,應用會顯示標題,主要圖片和正文的前200個字符。

    我們將開發一個簡單的REST API Flask應用。如果你不了解Flask,你可以看這篇我以前寫的文章。

    安裝Flask:

    . venv/bin/activate pip install flask

    在myapp目錄下創建app.py,內容如下:

    from flask import Flask, request, render_template,jsonify from goose import Gooseapp = Flask(__name__)@app.route('/') @app.route('/index') def index():return render_template('index.html')@app.route('/api/v1/extract') def extract():url = request.args.get('url')g = Goose()article = g.extract(url=url)response = {'title' : article.title , 'text' : article.cleaned_text[:250],'image': article.top_image.src}return jsonify(response)if __name__ == "__main__":app.run(debug=True)

    解釋下上面的代碼:

  • 從flask包導入了Flask類、request對象、jsonify函數和render_template函數。

  • 從goose包導入Goose類。

  • 定義了/和index的路由。若用戶向/或/index發送GET請求,會渲染index.html頁面。

  • 定義了/api/v1/extract路由。我們從請求對象中獲取url,然后創建了一個Goose類的實例。接著提取文章。最后創建一個json對象并返回該對象。json對象中包括標題、文本和主要圖片。

  • 最后我們使用python app.py命令來啟動開發服務器,以運行應用。我們把上面的代碼復制到app.py文件中。我們同時通過Debug=True開啟了調試,這樣當意料之外的情況出現時,瀏覽器就可以提供一個交互式的調試器。開啟調試的另一個好處是,改動文件 之后,服務會自動重新加載。我們可以讓調試器在后臺運行,然后繼續在我們的應用上工作。這提供了高效的開發環境。

  • 我們將在index.html中使用Twitter Bootstrap來添加樣式。我們同時使用了jQuery,以便實現keyup事件觸發REST調用。退格、制表符、回車、上、下、左、右不會觸發REST調用。

    <!DOCTYPE html> <html> <head><title>Extract Title, Text, and Image from URL</title><meta name="viewport" content="width=device-width, initial-scale=1.0"><link rel="stylesheet" type="text/css" href="static/css/bootstrap.css"><style type="text/css">body {padding-top:60px;padding-bottom: 60px;}</style> </head> <body><div class="navbar navbar-inverse navbar-fixed-top"><div class="container"><div class="navbar-header"><button type="button" class="navbar-toggle" data-toggle="collapse" data-target=".navbar-collapse"><span class="icon-bar"></span><span class="icon-bar"></span><span class="icon-bar"></span></button><a class="navbar-brand" href="#">TextExtraction</a></div></div></div><div id="main" class="container"><form class="form-horizontal" role="form" id="myform"><div class="form-group"><div class="col-lg-4"><input type="url" id="url" name="url" class="form-control" placeholder="Url you want to parse" required></div></div><div class="form-group"><input type="submit" value="Extract" id="submitUrl" class="btn btn-success"></div></form> </div><div id="loading" style="display:none;" class="container"><img src="/static/images/loader.gif" alt="Please wait.." /> </div><div id="result" class="container"></div><script type="text/javascript" src="static/js/jquery.js"></script> <script type="text/javascript">$("#myform").on("submit", function(event){$("#result").empty();event.preventDefault();$('#loading').show();var url = $("#url").val()$.get('/api/v1/extract?url='+url,function(result){$('#loading').hide(); $("#result").append("<h4>"+result.title+"</h4>");$("#result").append("<img src='"+result.image+"' height='300' width='300'</img>");$("#result").append("<p class='lead'>"+result.text+"</p>");})});</script> </body> </html>

    你可以從github 倉庫中復制js和css文件。

    上面的HTML文件中,表單提交觸發REST調用。當我們接受到回應后,將它附加到resultdiv中。

    部署到云端

    在我們部署應用到OpenShift之前,我們需要先設置一下:

  • 注冊一個OpenShift賬號。注冊是完全免費的,Red Hat給每個用戶三枚免費的Gear,可以用Gear運行你的應用。在寫作此文的時候,每個用戶能免費使用總共 1.5 GB 內存和 3 GB 硬盤空間。

  • 安裝 rhc客戶端工具。rhc是ruby gem,因此你的機子上需要裝有 ruby 1.8.7以上版本。 只需輸入 sudo gem install rhc即可安裝 rhc 。如果你已經安裝過了,確保是最新版。運行sudo gem update rhc即可升級。關于配置rhc命令行工具的詳細信息,請參考: https://openshift.redhat.com/community/developers/rhc-client-tools-install

  • 使用 rhc 的 setup 命令配置你的 OpenShift 賬號。這個命令會幫助你創建一個命名空間,同時將你的ssh公鑰上傳至 OpenShift 服務器。

  • 設置之后,我們可以通過如下命令創建一個新的OpenShift應用。

    rhc create-app day16demo python-2.7 --from-code https://github.com/shekhargulati/day16-goose-extractor-demo.git --timeout 180

    這會為我們創建一個名為gear的應用容器,并自動配置相應的SELinux政策和cgroup設置。OpenShift同時會為我們創建一個私有的git倉庫,并將其克隆到本地。最后,OpenShift會自動配置DNS。應用可以在如下地址訪問 http://gooseextractor-t20.rhcloud.com/

    好了,這就是今天的內容。請不斷反饋。


    原文 Day 16: Goose Extractor--An Article Extractor That Just Works
    翻譯 SegmentFault

    總結

    以上是生活随笔為你收集整理的Day 16: Goose Extractor —— 好用的文章提取工具的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。