日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python读取只读word只读_Python用于NLP :处理文本和PDF文件

發布時間:2024/10/6 python 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python读取只读word只读_Python用于NLP :处理文本和PDF文件 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

提示:代碼圖片可以點擊全屏查看,雙指操作還可以放大縮小。

這是我的Python用于自然語言處理(NLP)系列文章的第一篇文章。在本文中,我們將從Python for NLP的基礎知識開始。我們將看到如何使用Python處理簡單的文本文件和PDF文件。

處理文本文件

文本文件可能是你在NLP工作中遇到的最基本類型的文件。在本節中,我們將了解如何用Python讀取文本文件,創建文本文件以及將數據寫入文本文件。

閱讀文本文件

使用以下文本創建一個文本文件,并使用“.txt”擴展名將其保存在本地目錄中。

在我的例子中,我將名為“myfile.txt”的文件存儲在我的D盤根目錄中。

閱讀文件的所有內容

現在讓我們看看我們如何閱讀文件的全部內容。第一步是指定文件的路徑,如下所示:

要打開文件,你可以使用Python的內置open函數。如果你執行上面的代碼并且沒有看到錯誤,則表示你的文件已成功打開。確保將文件路徑更改為保存文本文件的位置。

現在讓我們看看myfile變量中存儲了什么:

輸出如下所示:

輸出顯示該myfile變量是myfile.txt文件的容器,并以只讀模式打開文件。

如果指定了錯誤的文件路徑,則可能會收到以下錯誤:

每當你得到Errno 2時,可能有兩個原因。你的文件不存在或者你給open函數提供了錯誤的文件路徑。

現在,讓我們讀一下該文件的內容。為此,你需要在myfile變量上調用read()函數,如下所示:

在輸出中,你應該可以看到文件的文本,如下所示:

現在,如果你嘗試再次調用read,控制臺上將不會打印任何內容:

這是因為一旦調用該read方法,光標就會移動到文本的末尾。因此,當你再次調用read時,不會顯示任何內容,因為已經沒有更多要打印的文本了。

一個解決這個問題的方案就是在調用read()方法之后,調用seek()方法并使用0作為參數。

這會將光標移回文本文件的開頭。查看以下代碼以了解其工作原理:

在輸出中,你將看到文本內容被打印了兩次。

一旦完成文件處理后,關閉文件以便其他應用程序可以訪問顯得非常重要。為此,你需要調用close()方法。

逐行讀取文件

我們也可以逐行讀取文件內容,而不是一次讀取文件的所有內容。為此,我們需要執行readlines()方法,該方法可以將文本文件中的每一行作為列表項返回。

在輸出中,你將看到文本文件中的每一行都變為了列表項:

在多數情況下,這會使文本更容易相處。例如,我們現在可以輕松遍歷每一行并打印行中的第一個單詞。

輸出如下所示:

寫入文本文件

要寫入文本文件,只需在打開文件時將打開模式設置為w或w+。前者在寫入模式下打開文件,后者在讀取和寫入模式下打開文件。如果該文件不存在,則會創建該文件。值得一提的是,如果你以w或w+模式打開一個文件時,則將移除所有的文件內容,如下所示:

在輸出中,由于使用w+模式打開文件,因此屏幕上不會顯示任何內容,文件的所有內容都已被刪除。你可以附加文字來避免這種情況,我也會在下面提到。

現在,讓我們使用write()方法在文件中寫一些內容。

在上面的腳本中,我們將文本寫入文件,然后調用seek()方法將光標移回開始,然后調用read方法讀取文件的內容。在輸出中,你將看到新添加的內容,如下所示:

通常,你不需要刪除文件的現有內容。相反,你可能需要在文件末尾添加內容。

為此,你需要以a+模式打開文件,該模式能夠添加和讀取文件內容。

再次創建一個包含以下內容的文件,并在D盤根目錄中將其保存為“myfile.txt”:

執行以下腳本以使用添加模式打開文件:

在輸出中,你將看到文件的內容。

接下來,讓我們在文件中添加一些文本。

現在我們再次閱讀文件內容:

在輸出中,你將在文末看到新添加的行,如下所示:

最后,在繼續下一節之前,讓我們看看在執行所需操作后如何使用上下文管理器自動關閉文件。

使用with關鍵字,如上所示,你不需要明確關閉文件。相反,上面的腳本打開文件,讀取內容,然后自動關閉它。

處理PDF文件

除了文本文件,我們還經常需要使用PDF文件來執行不同的自然語言處理任務。默認情況下,Python沒有任何可用于讀取或寫入PDF文件的內置庫。但是我們可以使用PyPDF2庫。

在我們使用PyPDF2庫之前,需要安裝它。如果你使用pip安裝程序,則可以使用以下命令安裝PyPDF2庫:

或者,如果你使用的是Anaconda環境中的Python,則可以在conda命令提示符下執行以下命令:

注意:這里需要提到的是PDF文檔可以從不同的來源創建,如word文檔,圖像等。在本文中,我們將只處理使用word文檔創建的PDF文檔。對于使用圖像創建的PDF文檔,還有其他專門的庫,我將在后面的文章中解釋。目前,我們只使用使用word文檔生成的PDF文檔。

作為可以使用的虛擬文檔,你可以從以下鏈接下載PDF:http://www.bavtailor.com/wp-content/uploads/2018/10/Lorem-Ipsum.pdf

將下載的文檔保存在D盤根目錄下。

閱讀PDF文檔

要閱讀PDF文檔,首先,我們必須要像其他普通文件一樣打開它。使用以下腳本:

值得一提的是,在打開PDF文件時,必須將模式設置為“讀取二進制”的rb模式,因為大多數PDF文件都是二進制格式。

打開文件后,我們需要調用PyPDF2庫中的PdfFileReader()函數,如下所示:

現在使用pdf_document變量,我們可以執行各種讀取功能。例如,要獲取PDF文檔中的總頁數,我們可以使用以下numPages屬性:

由于我們只有一頁文檔,在我們的PDF文檔中,你將在結果中看到1。

最后,要從PDF文檔中提取文本,首先需要使用getPage()函數獲取PDF文檔的頁面。

接下來,你可以調用extractText()函數從特定頁面中提取文本。

以下腳本從PDF的第一頁中提取文本,然后將其打印在控制臺上。

在結果中,你應該看到PDF第一頁中的文本。

寫入PDF文檔

由于字體和其他約束,無法使用PyPDF2庫直接將Python字符串寫入PDF文檔。但是,為了演示,我們將從PDF文檔中讀取內容,然后將該內容寫入我們將創建的另一個PDF文件。

讓我們首先閱讀PDF文檔第一頁的內容。

上面的腳本讀取了我們PDF文檔的第一頁。現在,我們可以使用以下腳本將第一頁中的內容寫入新的PDF文檔:

上面的腳本創建了一個可用于將內容寫入PDF文件的對象。首先,我們將向這個對象添加一個頁面,并將我們從另一個PDF中檢索到的頁面傳遞給它。

接下來,我們需要打開一個具有wb(寫二進制)權限的新文件。打開具有此類權限的文件會創建一個新文件,如果文件不存在的話。

最后,我們需要在PDF編寫對象上調用write()方法并將新創建的文件傳遞給它。

關閉mypdf和pdf_output_file文件,然后轉到程序的工作目錄。你應該在編輯器中看到一個新文件new_pdf_file.pdf。打開文件,你應該看到它包含來自原始PDF的第一頁的內容。

讓我們嘗試閱讀新創建的PDF文檔的內容:

現在讓我們使用一個更大的PDF文件。從以下鏈接下載PDF文件:

http://ctan.math.utah.edu/ctan/tex-archive/macros/latex/contrib/lipsum/lipsum.pdf

將其保存在本地目錄中。下載文件的名稱為“lipsum.pdf”。

執行以下腳本查看文件中的頁數:

在輸出中,你將看到打印出87,因為該PDF中有87頁。讓我們在控制臺上打印文檔中的所有頁面:

在輸出中,你將看到打印在屏幕上的PDF文檔的所有頁面。

結論

閱讀和編寫文本文檔是開發自然語言處理應用程序的基本步驟。在本文中,我們解釋了如何使用Python處理文本和PDF文件。我們看到了如何讀寫文本和PDF文件。在下一篇文章中,我們將開始討論其他一些NLP任務,例如使用spaCy庫進行詞干化,詞形還原化,標記化。

英文原文:https://stackabuse.com/python-for-nlp-working-with-text-and-pdf-files/ 譯者:狼行千里吃雞

總結

以上是生活随笔為你收集整理的python读取只读word只读_Python用于NLP :处理文本和PDF文件的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 91国产在线免费观看 | 91精品国产综合久久久蜜臀 | 麻豆传媒在线看 | 国产精品无码av在线有声小说 | 中文 日韩 欧美 | 一区二区在线视频 | 成人在线观看91 | 1024香蕉视频| 成人免费做受小说 | 色av资源 | 欧美呦呦呦 | 岛国一区二区三区 | 999成人网| 欧美亚洲精品一区二区 | 国偷自产av一区二区三区 | 久久视频网 | 中文在线资源 | xxxx 国产 | 国产精品视频你懂的 | 日韩免费一级片 | 97人人澡人人爽人人模亚洲 | 日韩一区二区三区四区五区六区 | 欧美激情一区二区三区蜜桃视频 | 高清无码一区二区在线观看吞精 | 日日干夜夜骑 | 91在线网址 | 国产这里有精品 | 伊人色婷婷 | 亚洲乱码国产乱码精品精剪 | 久久久国际精品 | 日日爽天天 | 足疗店女技师按摩毛片 | 岛国成人在线 | 噜噜噜噜噜色 | 女同视频网站 | 菲律宾av | 操操操视频| 国产精品无码成人片 | 人妻巨大乳hd免费看 | av网站大全在线 | 黑丝久久 | 免费高清欧美大片在线观看 | 天堂视频一区二区 | 久久精品视频国产 | 欧美黄色免费在线观看 | 91精品久 | 美女试爆场恐怖电影在线观看 | 国产91在线免费观看 | 国产精品第108页 | 国产成人精品片 | 亚洲综合视频一区 | 国产无套精品 | 熟女少妇一区二区三区 | 葵司一区二区 | 国产成人精品一区二区三区网站观看 | 国产电影一区在线观看 | 苍井空浴缸大战猛男120分钟 | 欧美草比视频 | 日本不卡一区在线 | 欧美日韩亚洲精品内裤 | 在线观看免费视频a | 欧美国产高潮xxxx1819 | 欧美精品国产精品 | 你懂的在线观看网址 | 伊人久久综合视频 | 713电影免费播放国语 | 欧美乱大交xxxxx潮喷l头像 | 亚洲精品视频在线 | 日韩在线视频观看 | 寡妇高潮一级视频免费看 | 免费在线观看av | 蜜臀在线播放 | 色香天天 | 亚洲图片欧美激情 | 天天综合天天综合 | av中文字幕免费观看 | 欧洲av网站 | 日韩深夜视频 | 在线观看成人动漫 | 国产成人啪一区二区 | 欧美亚色| 亚洲成熟少妇 | 成人三级在线看 | 高清无码一区二区在线观看吞精 | 国产视频在线看 | 国模吧一区二区三区 | 波多野吉衣在线视频 | 精品国产欧美一区二区三区成人 | 黄色片视频在线观看 | 国产激情av| 精产国品一二三产品蜜桃 | 精品人妻一区二区三区换脸明星 | 欧美日韩高清在线播放 | 91理论片午午伦夜理片久久 | 在线伊人 | 综合第一页 | 潘金莲三级80分钟 | 黄色小视频大全 | 国产无套在线观看 |