當前位置：首頁 > 编程语言 > python >内容正文

python

java获取word书签表格数据_Python读取word文档里面的表格数据

發布時間：2023/12/2 python 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 java获取word书签表格数据_Python读取word文档里面的表格数据小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

更多精彩，請點擊上方藍字關注我們！

我們常見的辦公數據通常可以分為結構化數據與非結構化數據，比如常見的word, ppt, excel。前兩者存儲的是非結構化數據，excel存儲的是結構化數據。從事數據統計或分析的工作或多或少都會從excel獲取結構化數據。讓結構化數據變為非結構化數據，較為容易。但是讓非結構化數據變為結構化數據相對較難，數據科學其實大部分前期工作都是讓非結構化數據變為結構化數據。我們來看看如何將word文檔的表格數據轉化為excel數據。如有word表格數據

讀取word文檔，讀取所有表格數據

這里獲取第8個表格數據

獲取變量名

['model', 'TP', 'TN', 'FP', 'FN', 'Accuracy', 'Sensitivity', 'Specificity', 'Precision', 'Kappa', 'MCC', 'F1 score']

獲取表格內結構化數據

轉化為數據集：

源代碼：

# -*- coding: utf-8 -*-"""@author: weineng.zhou"""from docx import Document import numpy as npimport pandas as pdfilename = "D:/mydocx.docx"document = Document(filename) tables = document.tables table = tables[7]# 獲取變量名varname = []for i in range(len(table.columns)): varname.append(table.cell(0,i).text)print(varname)# 獲取表格數據data = []for i in range(1,len(table.rows)): for j in range(len(table.columns)): ????????data.append(table.cell(i,j).text)# list to 1D arrayarr1 = np.array(data)# 2D arrayarr2 = arr1.reshape(len(table.rows)-1,len(table.columns))# 2D array to 2D datasetdf?=?pd.DataFrame(arr2)# 給數據集賦予變量名df.columns?=?varname# 導出數據df.to_excel('D:/myexcel.xlsx',?index=False)

運用此種方法，當我們遇到很多word當中的表格數據，難以做統計分析的時候，我們可以運用次種方法變為我們想要的數據結構，然后進行分析。

END

碧茂課堂精彩課程推薦：

1.Cloudera數據分析課；

2.Spark和Hadoop開發員培訓；

3.大數據機器學習之推薦系統；

4.Python數據分析與機器學習實戰；

詳情請關注我們公眾號：碧茂大數據-課程產品-碧茂課堂

現在注冊互動得海量學幣，大量精品課程免費送！

關注最新行業動態，

加群進行技術交流！

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的java获取word书签表格数据_Python读取word文档里面的表格数据的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：备案参数是什么意思（备案参数）
下一篇： python区域找图命令_python读