日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > asp.net >内容正文

asp.net

[转].NET下读取PDF文本

發布時間:2025/3/13 asp.net 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 [转].NET下读取PDF文本 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文轉自:http://blog.csdn.net/wangqiuyun/article/details/8548779

在.NET下讀取PDF文本用到的類庫主要有兩個:PDFBox和iTextSharp。

先說PDFBox,這個類庫據說功能很強大,本人在這只是簡單介紹一下:

1、下載PDFBox

下載地址:http://sourceforge.net/projects/pdfbox/

2、引用動態鏈接庫

解壓縮下載的PDFBox,找到其中的Bin目錄,需要在項目中添加引用的dll文件有: IKVM.GNU.Classpath.dll PDFBox-0.7.3.dll FontBox-0.1.0-dev.dll IKVM.Runtime.dll 將以上4個文件引用到項目中,在文件中需要引入以下2個命名空間: using org.pdfbox.pdmodel; using org.pdfbox.util;

3、API的使用方法看代碼:

[csharp] view plaincopyprint?
  • using?org.pdfbox.pdmodel;??
  • using?org.pdfbox.util;??
  • public?void?pdf2txt(FileInfo?file,FileInfo?txtfile)??
  • {??
  • ????????PDDocument?doc?=?PDDocument.load(file.FullName);??
  • ????????PDFTextStripper?pdfStripper?=?new?PDFTextStripper();??
  • ????????string?text?=?pdfStripper.getText(doc);??
  • ????????StreamWriter?swPdfChange?=?new?StreamWriter(txtfile.FullName,?false,?Encoding.GetEncoding("gb2312"));??
  • ????????swPdfChange.Write(text);??
  • ????????swPdfChange.Close();??
  • }??
  • using org.pdfbox.pdmodel; using org.pdfbox.util; public void pdf2txt(FileInfo file,FileInfo txtfile) {PDDocument doc = PDDocument.load(file.FullName);PDFTextStripper pdfStripper = new PDFTextStripper();string text = pdfStripper.getText(doc);StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));swPdfChange.Write(text);swPdfChange.Close(); }

    iTextSharp,其實很多時候都是用于生成PDF,但是他讀取PDF的能力也不差,使用如下:

    ?

    1、下載iTextSharp

    下載地址:http://sourceforge.net/projects/itextsharp/

    2、引用動態鏈接庫

    解壓縮下載的壓縮包里面的itextsharp-dll-core.zip,得到itextsharp.dll,在項目中添加引用itextsharp.dll即可 在文件中需要引入以下3個命名空間: using iTextSharp; using iTextSharp.text; using iTextSharp.text.pdf;

    3、API的使用方法看代碼:

    [csharp] view plaincopyprint?
  • private?string?OnCreated(string?filepath)??
  • {??
  • ????try??
  • ????{??
  • ????????string?pdffilename?=?filepath;??
  • ????????PdfReader?pdfReader?=?new?PdfReader(pdffilename);??
  • ????????int?numberOfPages?=?pdfReader.NumberOfPages;??
  • ????????string?text?=?string.Empty;??
  • ??
  • ????????for?(int?i?=?1;?i?<=?numberOfPages;?++i)??
  • ????????{??
  • ????????????byte[]?bufferOfPageContent?=?pdfReader.GetPageContent(i);??
  • ????????????text?+=?System.Text.Encoding.UTF8.GetString(bufferOfPageContent);??
  • ????????}??
  • ????????pdfReader.Close();??
  • ??
  • ????????return?text;??
  • ????}??
  • ????catch?(Exception?ex)??
  • ????{??
  • ????????StreamWriter?wlog?=?File.AppendText(System.AppDomain.CurrentDomain.SetupInformation.ApplicationBase+"\\mylog.log");??
  • ????????wlog.WriteLine("出錯文件:"?+?e.FullPath?+?"原因:"?+?ex.ToString());??
  • ????????wlog.Flush();??
  • ????????wlog.Close();return?null;??
  • ????}??
  • ??
  • }??
  • ?

    轉載于:https://www.cnblogs.com/freeliver54/p/5048532.html

    總結

    以上是生活随笔為你收集整理的[转].NET下读取PDF文本的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。