C#でPDFファイルを読む

import {PdfDocument} from "@ironsoftware/ironpdf";

(async () => {
    // Extracting Image and Text content from Pdf Documents
    // Import existing PDF document
    const pdf = await PdfDocument.fromHtml("old_report.pdf");
    
    // Get all text to put in a search index
    const text = await pdf.extractText();
    
    // Get all Images
    const imagesBuffer = await pdf.extractRawImages();
    
    const pageCount = await pdf.getPageCount()
    // Or even find the precise text and images for each page in the document
    for (let index = 0; index < pageCount; index++) {
        text = await pdf.extractText([index]);
        imagesBuffer = await pdf.extractRawImages([index]);
    }
})();

C#でPDFファイルを読む

テキストや画像の抽出により、ある文書フォーマットから別のフォーマットへの移行時にデータ移行が容易になります。抽出されたコンテンツは、よりアクセスしやすく編集可能な形式で保存でき、データ損失のリスクを軽減します。

埋め込まれた画像とテキストは、PDFドキュメントとは独立して抽出することができます。抽出されたテキストは通常の文字列になり、抽出された画像はイメージバッファ形式で、エクスポートまたはさらに処理することができます。

PDFドキュメントからテキストを抽出するには、extractTextメソッドを使用し、画像を抽出するにはextractRawImagesメソッドを使用します。

これらの方法の詳細な使用方法についてはIronPDF ドキュメント.

準備はできましたか？バージョン: 2025.3 新発売

ライセンスを表示 >