C#でPDFファイルを読む
IronPDF C# PDF ユーティリティの PdfDocument.ExtractAllText
メソッドは、標準的なPDFテキスト読み取りタスクに最適です。 このメソッドは、ソース PDF ドキュメント内の空白やエンコーディングの不一致を問題なく処理します。
PdfDocument.ExtractTextFromPage
は、PDFの特定のページからテキストを読み取ります。 上記の例では、特定のページ範囲からテキストコンテンツを繰り返し取得するために使用されている様子がわかります。
IronPDFはPDFから生の画像を抽出することもできます。 以下の PdfDocument
クラスのいずれかのメソッドを使用してください:
ExtractAllImages
:PDFに埋め込まれたすべての画像をIronSoftware.Drawing.AnyBitmap
オブジェクトとして返します。ExtractAllRawImages
: 埋め込まれたすべての画像を生のバイトのリストとして取得します(バイト[]もちろん、英語のテキストを教えていただけますでしょうか?).ExtractImagesFromPage
: インデックス化されたページに含まれる画像を抽出します。ExtractImagesFromPages
:ExtractImagesFromPage
と同様ですが、特定のページ範囲や個々のページのリストから抽出します。-
ExtractRawImagesFromPage
とExtractRawImagesFromPages
: 以前の2つのメソッドと同様に動作しますが、抽出された画像をIronSoftware.Drawing.AnyBitmap
オブジェクトとしてではなく、バイト配列として返します。もちろんです。翻訳先の内容を入力してください。
C#でPDFファイルを読み取る方法
- C#用IronPDFライブラリのダウンロード
- PDFから画像またはテキストを抽出する
- 特定のドキュメントにおける単語の読み取りおよび検索
- 元のドキュメントからPDF出力を表示