當(dāng)前位置：首頁 > 编程语言 > C# >内容正文

C#

玩转C#网页抓取

發(fā)布時間：2023/12/20 C# 55 豆豆

生活随笔收集整理的這篇文章主要介紹了玩转C#网页抓取小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

網(wǎng)頁抓取是通過自動化手段檢索數(shù)據(jù)的過程。它在許多場景中都是不可或缺的，例如競爭對手價格監(jiān)控、房地產(chǎn)清單列表、潛在客戶和輿情監(jiān)控、新聞文章或金融數(shù)據(jù)聚合等。如果您想了解更多相關(guān)信息，可以前往Oxylabs中文官網(wǎng)Oxylabs.cn參見我們的文章“網(wǎng)絡(luò)抓取合法嗎？”

在編寫網(wǎng)頁抓取代碼時，您要做出的第一個決定是選擇您的編程語言。您可以使用多種語言進(jìn)行編寫，例如Python、JavaScript、Java、Ruby或C#。所有提到的語言都提供強(qiáng)大的網(wǎng)絡(luò)抓取功能。

在本文中，我們將探索C#并向您展示如何創(chuàng)建一個真實(shí)的C#公共網(wǎng)絡(luò)爬蟲。請記住，即使我們使用C#，您也可以將此信息調(diào)整為.NET平臺支持的所有語言，包括VB.NET和F#。

01.C#網(wǎng)頁抓取工具

在編寫任何代碼之前，第一步是選擇合適的C#庫或包。這些C#庫或包將具有下載HTML頁面、解析它們以及從這些頁面中提取所需數(shù)據(jù)的功能。一些最流行的C#包如下：

●ScrapySharp

●Puppeteer Sharp

●Html Agility Pack

Html Agility Pack是最受歡迎的C#包，僅Nuget就有近5,000萬次下載。其流行有多種原因，其中最重要的原因是該HTML解析器能夠直接或使用瀏覽器下載網(wǎng)頁。這個包可以容忍格式錯誤的HTML并支持XPath。此外，它甚至可以解析本地HTML文件；因此，我們將在本文中進(jìn)一步使用這個包。

ScrapySharp為C#編程添加了更多功能。這個包支持CSS選擇器并且可以模擬網(wǎng)絡(luò)瀏覽器。雖然ScrapySharp被認(rèn)為是一個強(qiáng)大的C#包，但程序員使用它進(jìn)行維護(hù)的概率并不是很高。

Puppeteer Sharp是著名的Node.js Puppeteer項目的.NET端口。它使用相同的Chromium瀏覽器來加載頁面。此外，這個包采用了async-await風(fēng)格的代碼，支持異步及預(yù)操作管理。如果您已經(jīng)熟悉這個C#包并且需要一個瀏覽器來呈現(xiàn)頁面，那么Puppeteer Sharp可能是一個不錯的選擇。

02.使用C#構(gòu)建網(wǎng)絡(luò)爬蟲

如前所述，現(xiàn)在我們將演示如何編寫將使用Html Agility Pack的C#公共網(wǎng)絡(luò)抓取代碼。我們將使用帶有Visual Studio Code的.NET 5 SDK。此代碼已在 .NET Core 3和.NET 5上測試過，它應(yīng)該適用于其他版本的.NET。

我們將設(shè)置一個假設(shè)的場景：爬取一家在線書店并收集書名和價格。

在編寫C#網(wǎng)絡(luò)爬蟲之前，我們先來設(shè)置下開發(fā)環(huán)境。

03.設(shè)置開發(fā)環(huán)境

對于C#開發(fā)環(huán)境，請安裝Visual Studio Code。請注意，如果您使用Visual Studio和Visual Studio Code編寫C#代碼，則需要注意它們是兩個完全不同的應(yīng)用程序。

安裝Visual Studio Code后，安裝.NET 5.0或更高版本。您還可以使用.NET Core 3.1。安裝完成后，打開終端并運(yùn)行以下命令以驗證.NET CLI或命令行界面是否正常工作：

dotnet --version

該行命令會輸出安裝的.NET的版本號。

04.項目結(jié)構(gòu)和依存關(guān)系

該代碼將成為.NET項目的一部分。為簡單起見，創(chuàng)建一個控制臺應(yīng)用程序。然后，創(chuàng)建一個文件夾，您將在其中編寫C#代碼。打開終端并導(dǎo)航到該文件夾。輸入以下命令：

dotnet new console

此命令的輸出應(yīng)該是已成功創(chuàng)建控制臺應(yīng)用程序的信息。

到時間安裝所需的軟件包了。使用C#抓取公共網(wǎng)頁，Html Agility Pack將是一個不錯的選擇。您可以使用以下命令為該項目安裝它：

dotnet add package HtmlAgilityPack

再安裝一個包，以便我們可以輕松地將抓取的數(shù)據(jù)導(dǎo)出到CSV文件：

dotnet add package CsvHelper

如果您使用的是Visual Studio而不是Visual Studio Code，請單擊文件，選擇新建解決方案，然后按控制臺應(yīng)用程序按鈕。要安裝依賴項，請按照下列步驟操作：

●選擇項目；

●單擊管理項目依賴項。這將打開NuGet包窗口；

●搜索HtmlAgilityPack并選擇它；

●最后，搜索CsvHelper，選擇它，然后單擊添加包。

Visual Studio中的Nuget包管理器

安裝了這些包后，我們可以繼續(xù)編寫用于抓取線上書店的代碼。

05.下載和解析網(wǎng)頁數(shù)據(jù)

任何網(wǎng)頁抓取程序的第一步都是下載網(wǎng)頁的HTML。此HTML將是一個字符串，您需要將其轉(zhuǎn)換為可以進(jìn)一步處理的對象，也就是第二步，這部分稱為解析。Html Agility Pack可以從本地文件、HTML字符串、任何URL和瀏覽器讀取和解析文件。

在我們的例子中，我們需要做的就是從URL獲取HTML。Html Agility Pack沒有使用.NET本機(jī)函數(shù)，而是提供了一個方便的類–HtmlWeb.這個類提供了一個Load函數(shù)，它可以接受一個URL并返回一個HtmlDocument類的實(shí)例，它也是我們使用的包的一部分。有了這些信息，我們可以編寫一個函數(shù)，接受一個URL并返回HtmlDocument這個實(shí)例。

打開Program.cs文件并在類中輸入此函數(shù)Program：

// Parses the URL and returns HtmlDocument object static HtmlDocument GetDocument (string url) {HtmlWeb web = new HtmlWeb();HtmlDocument doc = web.Load(url);return doc; }

這樣，代碼的第一步就完成了。下一步是解析文檔。

06.解析HTML：獲取書籍鏈接

在這部分代碼中，我們將從網(wǎng)頁中提取所需的信息。在這個階段，文檔現(xiàn)在是一個類型的對象HtmlDocument。這個類公開了兩個函數(shù)來選擇元素。這兩個函數(shù)都接受XPath輸入并返回HtmlNode or HtmlNodeCollection。

下面是這兩個函數(shù)的簽名：

public HtmlNodeCollection SelectNodes(string xpath); public HtmlNode SelectSingleNode(string xpath);

我們就SelectNodes先討論一下。

對于這個例子——C#網(wǎng)絡(luò)爬蟲——我們將從這個頁面中抓取所有書籍的詳細(xì)信息。

首先，需要對其進(jìn)行解析，以便可以提取到所有書籍的鏈接。在瀏覽器中打開上述的書店頁面，右鍵單擊任何書籍鏈接，然后單擊按鈕“檢查”。將打開開發(fā)人員工具。

在了解標(biāo)記后，您要選擇的XPath應(yīng)該是這樣的：

//h3/a

現(xiàn)在可以將此XPath傳遞給SelectNodes函數(shù)。

HtmlDocument doc = GetDocument(url); HtmlNodeCollection linkNodes = doc.DocumentNode.SelectNodes("//h3/a");

請注意，該SelectNodes函數(shù)是由

HtmlDocument的DocumentNode屬性調(diào)用的。

變量linkNodes是一個集合。我們可以寫一個foreach循環(huán)，并從每個鏈接一個一個地獲取href值。我們只需要解決一個小問題——那就是頁面上的鏈接是相對鏈接。因此，在我們抓取這些提取的鏈接之前，需要將它們轉(zhuǎn)換為絕對URL。

為了轉(zhuǎn)換相對鏈接，我們可以使用Uri該類。我們使用此構(gòu)造函數(shù)來獲取Uri具有絕對URL的對象。

dotnet --version

一旦我們有了Uri對象，我們就可以簡單地檢查該AbsoluteUri屬性以獲取完整的URL。

我們將所有這些寫在一個函數(shù)中，以保持代碼的組織性。

static List<string> GetBookLinks(string url) {var bookLinks = new List<string>();HtmlDocument doc = GetDocument(url);HtmlNodeCollection linkNodes = doc.DocumentNode.SelectNodes("//h3/a");var baseUri = new Uri(url);foreach (var link in linkNodes){string href = link.Attributes["href"].Value;bookLinks.Add(new Uri(baseUri, href).AbsoluteUri);}return bookLinks; }

在這個函數(shù)中，我們從一個空List<string>對象開始。在foreach循環(huán)中，我們將所有鏈接添加到此對象并返回它。

現(xiàn)在，就可以修改Main()函數(shù)了，以便我們可以測試到目前為止編寫的C#代碼。修改函數(shù)如下：

static void Main(string[] args){var bookLinks = GetBookLinks("http://books.toscrape.com/catalogue/category/books/mystery_3/index.html");Console.WriteLine("Found {0} links", bookLinks.Count); }

要運(yùn)行此代碼，請打開終端并導(dǎo)航到包含此文件的目錄，然后鍵入以下內(nèi)容：

dotnet run

輸出應(yīng)如下所示：

Found 20 links

然后我們轉(zhuǎn)到下一部分，我們將處理所有鏈接以獲取圖書數(shù)據(jù)。

07.解析HTML：獲取書籍詳細(xì)信息

此時，我們有一個包含書籍URL的字符串列表。我們可以簡單地編寫一個循環(huán)，首先使用我們已經(jīng)編寫的函數(shù)GetDocument來獲取文檔。之后，我們將使用該SelectSingleNode函數(shù)來提取書名和價格。

為了讓數(shù)據(jù)清晰有條理，我們從一個類開始。這個類將代表一本書，有兩個屬性-Title和Price.示例如下：

public class Book {public string Title { get; set; }public string Price { get; set; } }

然后，為Title – //h1在瀏覽器中打開一個書頁。為價格創(chuàng)建 XPath 有點(diǎn)棘手，因為底部的附加書籍應(yīng)用了相同的類。

價格的XPath

價格的XPath將是這樣的：

//div[contains(@class,"product_main")]/p[@class="price_color"]

請注意，XPath包含雙引號。我們將不得不通過在它們前面加上反斜杠來轉(zhuǎn)義這些字符。

現(xiàn)在我們可以使用SelectSingleNode函數(shù)來獲取節(jié)點(diǎn)，然后使用InnerText屬性獲取元素中包含的文本。我們可以將所有內(nèi)容放在一個函數(shù)中，如下所示：

static List<Book> GetBookDetails(List<string> urls) { var books = new List<Book>(); foreach (var url in urls){HtmlDocument document = GetDocument(url);var titleXPath = "//h1";var priceXPath = "//div[contains(@class,\"product_main\")]/p[@class=\"price_color\"]";var book = new Book();book.Title = document.DocumentNode.SelectSingleNode (priceXPath).InnerText;book.Price = document.DocumentNode.SelectSingleNode(priceXPath).InnerText;books.Add(book);} return books; }

此函數(shù)將返回一個Book對象列表。是時候更新Main()函數(shù)了：

static void Main(string[] args) {var bookLinks = GetBookLinks("http://books.toscrape.com/catalogue/category/books/mystery_3/index.html");Console.WriteLine("Found {0} links", bookLinks.Count);var books = GetBookDetails(bookLinks); }

這個網(wǎng)絡(luò)抓取項目的最后一部分是將數(shù)據(jù)導(dǎo)出為CSV。

08.導(dǎo)出數(shù)據(jù)

如果您尚未安裝CsvHelper，則可以通過

dotnet add package CsvHelper

在終端內(nèi)運(yùn)行命令來完成此操作。

導(dǎo)出功能非常簡單。首先，我們需要創(chuàng)建一個StreamWriter并發(fā)送CSV文件名作為參數(shù)。接下來，我們將使用此對象創(chuàng)建一個CsvWriter.最后，我們可以使用該WriteRecords函數(shù)在一行代碼中編寫所有書籍。

為了確保所有資源都正確關(guān)閉，我們可以使用using塊。我們還可以將所有內(nèi)容包裝在一個函數(shù)中，如下所示：

static void exportToCSV(List<Book> books) { using (var writer = new StreamWriter("./books.csv")) using (var csv = new CsvWriter(writer, CultureInfo.InvariantCulture)){csv.WriteRecords(books);} }

最后，我們可以從Main()函數(shù)中調(diào)用這個函數(shù)：

static void Main(string[] args) {var bookLinks = GetBookLinks("http://books.toscrape.com/catalogue/category/books/mystery_3/index.html");var books = GetBookDetails(bookLinks);exportToCSV(books); }

要運(yùn)行此代碼，請打開終端并運(yùn)行以下命令：

dotnet run

在幾秒鐘內(nèi)，您將創(chuàng)建一個books.csv文件。

09.結(jié)論

如果您想用C#編寫一個網(wǎng)絡(luò)爬蟲，您可以使用多個包。在本文中，我們展示了如何使用Html Agility Pack，這是一個功能強(qiáng)大且易于使用的包。也是一個可以進(jìn)一步增強(qiáng)的簡單示例；例如，您可以嘗試將上述邏輯添加到此代碼中以處理多個頁面。

如果您想了解更多有關(guān)使用其他編程語言進(jìn)行網(wǎng)絡(luò)抓取的工作原理，可以查看使用Python進(jìn)行網(wǎng)絡(luò)抓取的指南。我們還有一個關(guān)于如何使用JavaScript編寫網(wǎng)絡(luò)爬蟲的分步教程

常見問題

Q：C#適合網(wǎng)頁抓取嗎？

A：與Python類似，C#被廣泛用于網(wǎng)頁抓取。在決定選擇哪種編程語言時，選擇您最熟悉的一種至關(guān)重要。不過您將能夠在Python和C#中找到示例的網(wǎng)頁抓取工具。

Q：網(wǎng)絡(luò)抓取合法嗎？

A：如果在不違反任何法律的情況下使用代理，則它們可能是合法的。然而，在與代理進(jìn)行任何活動之前，您應(yīng)該就您的特定案件獲得專業(yè)的法律建議。

總結(jié)

以上是生活随笔為你收集整理的玩转C#网页抓取的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：淘宝 NPM 镜像解决软件下载速度慢的问
下一篇： C# 和欧姆龙 Omron PLC 以太