當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫——保存爬取数据

發布時間：2024/1/1 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了爬虫——保存爬取数据小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

前言
一、python怎么把爬取到的數據進行保存？
二、使用數據庫步驟
- 1.引入庫
- 2.創建數據庫
- 2.創建數據表
- 3.插入數據
- 4.查詢數據
三、使用Excel步驟
- 1.引入庫
- 2.創建excel表并寫入數據
四、使用csv步驟
- 1.引入庫
- 2.寫入數據
- 2.讀取csv數據
總結

前言

隨著網絡的迅速發展，萬維網成為大量信息的載體，如何有效地提取并利用這些信息成為一個巨大的挑戰。搜索引擎（Search Engine），例如傳統的通用搜索引擎AltaVista，Yahoo!和Google等，作為一個輔助人們檢索信息的工具成為用戶訪問萬維網的入口和指南。但是，這些通用性搜索引擎也存在著一定的局限性，如：
（1）不同領域、不同背景的用戶往往具有不同的檢索目的和需求，通過搜索引擎所返回的結果包含大量用戶不關心的網頁。
（2）通用搜索引擎的目標是盡可能大的網絡覆蓋率，有限的搜索引擎服務器資源與無限的網絡數據資源之間的矛盾將進一步加深。
（3）萬維網數據形式的豐富和網絡技術的不斷發展，圖片、數據庫、音頻、視頻多媒體等不同數據大量出現，通用搜索引擎往往對這些信息含量密集且具有一定結構的數據無能為力，不能很好地發現和獲取。
（4）通用搜索引擎大多提供基于關鍵字的檢索，難以支持根據語義信息提出的查詢。
為了解決上述問題，定向抓取相關網頁資源的聚焦爬蟲應運而生。聚焦爬蟲是一個自動下載網頁的程序，它根據既定的抓取目標，有選擇的訪問萬維網上的網頁與相關的鏈接，獲取所需要的信息。與通用爬蟲（general purpose web crawler）不同，聚焦爬蟲并不追求大的覆蓋，而將目標定為抓取與某一特定主題內容相關的網頁，為面向主題的用戶查詢準備數據資源。

提示：以下是本篇文章正文內容，下面案例可供參考

一、python怎么把爬取到的數據進行保存？

可以將數據導入數據庫或者excel等等

二、使用數據庫步驟

1.引入庫

代碼如下：

import sqlite3

2.創建數據庫

代碼如下（示例）：

# 創建數據庫 conn = sqlite3.connect("test.db") # 打開或創建數據庫文件 print("成功打開數據庫")

如果數據庫存在則打開，不存在則創建并打開

2.創建數據表

# 創建數據表conn = sqlite3.connect("test.db") # 打開或創建數據庫文件 print("成功打開數據庫") c = conn.cursor() # 獲取游標sql = '''create table company(id int primary key not null,name text not null,age int not null,address char (50),salary real);'''c.execute(sql) # 執行sql語句 conn.commit() # 提交數據庫操作 conn.close() # 關閉數據庫連接print("成功建表")

打開數據庫獲取游標寫sql語句，sql語句可以用三個單引號包起來避免換行問題，執行sql語句并提交數據庫操作最后關閉數據庫連接

3.插入數據

# 插入數據 conn = sqlite3.connect("test.db") # 打開或創建數據庫文件 print("成功打開數據庫") c = conn.cursor() # 獲取游標sql = '''insert into company (id,name,age,address,salary)values (2,"老王",18,"深圳",123);'''c.execute(sql) # 執行sql語句 conn.commit() # 提交數據庫操作 conn.close() # 關閉數據庫連接print("插入數據完畢")

與創建數據庫同理，改變為插入數據的sql語句

4.查詢數據

# 查詢數據conn = sqlite3.connect("test.db") # 打開或創建數據庫文件 print("成功打開數據庫") c = conn.cursor() # 獲取游標sql = "select * from company"cursor = c.execute(sql) # 執行sql語句for i in cursor:for j in i:print(j,end=' ')print() conn.close() # 關閉數據庫連接print("查詢完畢")

三、使用Excel步驟

1.引入庫

import xlwt

2.創建excel表并寫入數據

workbook = xlwt.Workbook(encoding="utf-8") # 創建workbook對象 worksheet = workbook.add_sheet("sheet1") # 創建工作表 worksheet.write(0, 0, "hello ") # 寫入數據，第一個參數“行”，第二個參數”列“，第三個參數內容 workbook.save("test.xls") # 保存數據表

例子中將寫入的數據庫保存到當前目錄下的test.xls文件

workbook = xlwt.Workbook(encoding="utf-8") # 創建workbook對象 worksheet = workbook.add_sheet("sheet1") # 創建工作表 for i in range(1,10):for j in range(1,i+1):ride = i*jworksheet.write(i-1,j-1,"%d * %d = %d"%(j,i,ride)) workbook.save("test.xls") # 保存數據表

在excel中打印九九乘法表

四、使用csv步驟

1.引入庫

import pandas as pd

2.寫入數據

with open('data.csv', mode='a', encoding='utf-8', newline='') as f:csv_writer = csv.writer(f)csv_writer.writerow(['area', 'curConfirm', 'confirmedRelative', 'confirmed', 'crued', 'died'])

以utf-8編碼寫入csv文件

2.讀取csv數據

df = pd.read_csv('data.csv',encoding='utf-8') print(df)

打印csv中數據

總結

以上就是今天要講的內容，本文僅僅簡單介紹了python對數據存儲方法的使用，而python提供了大量能使我們快速便捷地處理數據的函數和方法。

總結

以上是生活随笔為你收集整理的爬虫——保存爬取数据的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：怎样存储layui模板引擎后台返回的数据
下一篇：地理位置GEO

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

爬虫——保存爬取数据

文章目錄

前言

一、python怎么把爬取到的數據進行保存？

二、使用數據庫步驟

1.引入庫

2.創建數據庫

2.創建數據表

3.插入數據

4.查詢數據

三、使用Excel步驟

1.引入庫

2.創建excel表并寫入數據

四、使用csv步驟

1.引入庫

2.寫入數據

2.讀取csv數據

總結

總結