java获取word书签表格数据_Python读取word文档里面的表格数据
我們常見的辦公數據通常可以分為結構化數據與非結構化數據,比如常見的word, ppt, excel。前兩者存儲的是非結構化數據,excel存儲的是結構化數據。從事數據統計或分析的工作或多或少都會從excel獲取結構化數據。讓結構化數據變為非結構化數據,較為容易。但是讓非結構化數據變為結構化數據相對較難,數據科學其實大部分前期工作都是讓非結構化數據變為結構化數據。我們來看看如何將word文檔的表格數據轉化為excel數據。如有word表格數據
讀取word文檔,讀取所有表格數據
這里獲取第8個表格數據
獲取變量名
['model', 'TP', 'TN', 'FP', 'FN', 'Accuracy', 'Sensitivity', 'Specificity', 'Precision', 'Kappa', 'MCC', 'F1 score']
獲取表格內結構化數據
轉化為數據集:
源代碼:
# -*- coding: utf-8 -*-"""@author: weineng.zhou"""from docx import Document import numpy as npimport pandas as pdfilename = "D:/mydocx.docx"document = Document(filename) tables = document.tables table = tables[7]# 獲取變量名varname = []for i in range(len(table.columns)): varname.append(table.cell(0,i).text)print(varname)# 獲取表格數據data = []for i in range(1,len(table.rows)): for j in range(len(table.columns)): ????????data.append(table.cell(i,j).text)# list to 1D arrayarr1 = np.array(data)# 2D arrayarr2 = arr1.reshape(len(table.rows)-1,len(table.columns))# 2D array to 2D datasetdf?=?pd.DataFrame(arr2)# 給數據集賦予變量名df.columns?=?varname# 導出數據df.to_excel('D:/myexcel.xlsx',?index=False)運用此種方法,當我們遇到很多word當中的表格數據,難以做統計分析的時候,我們可以運用次種方法變為我們想要的數據結構,然后進行分析。
END碧茂課堂精彩課程推薦:
1.Cloudera數據分析課;
2.Spark和Hadoop開發員培訓;
3.大數據機器學習之推薦系統;
4.Python數據分析與機器學習實戰;
詳情請關注我們公眾號:碧茂大數據-課程產品-碧茂課堂
現在注冊互動得海量學幣,大量精品課程免費送!
關注最新行業動態,
加群進行技術交流!
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的java获取word书签表格数据_Python读取word文档里面的表格数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 备案参数是什么意思(备案参数)
- 下一篇: python区域找图命令_python读