IRONPDFの使用

C#でPDFからテキストを抽出する方法(コード例チュートリアル)

更新済み 2023年12月3日
共有:

PDF(ポータブルドキュメントフォーマット)ファイルは無数の業界で重要な役割を果たし、企業が文書を安全に共有、保存、および管理することを可能にしています。 開発者にとって、PDFを扱うことは、クライアントのニーズをサポートするために、PDFの作成、読み込み、変換、およびコンテンツの抽出を含むことがよくあります。 PDFからのテキスト抽出は、データ分析、ドキュメントインデックス化、コンテンツ移行、またはアクセシビリティ機能の有効化などのタスクに不可欠です。 現代のライブラリのようなIronPDFこれらのタスクをこれまでになく簡単にし、最小限の労力でPDFファイルを操作するための強力なツールを提供します。

このガイドは、最も一般的な要件の1つであるC#でPDFからテキストを抽出することに焦点を当てています。 Visual Studioでプロジェクトを設定し、IronPDFをインストールして、簡潔なコード例を使用してテキスト抽出を行う手順を説明します。 途中で、IronPDFの強力な機能を強調し、その機能には.NETを使用してPDFファイルを作成、操作、変換する能力が含まれます。 ドキュメントを多用するアプリケーションを構築している場合でも、単に効率的なPDF処理が必要な場合でも、このチュートリアルがあなたをサポートします。

1. IronPDFの特徴

IronPDFは、ブラウザができるほとんどすべての操作を実行できる強力なPDF変換プログラムです。 開発者向けの.NETライブラリを使用すると、PDFドキュメントの作成、読み取り、および操作が簡単になります。 IronPDFは、Chromeエンジンを使用してHTMLからPDFのドキュメントに変換します。IronPDFは、HTML、ASPX、Razor HTML、MVC ViewなどのWebコンポーネントをサポートしています。 Microsoft .NET アプリケーションは IronPDF に対応しています。(ASP.NET Webアプリケーションと従来のWindowsアプリケーションの両方). IronPDFは、視覚的に魅力的なPDFドキュメントを作成するためにも使用できます。

IronPDFを使用して、HTML5、JavaScript、CSS、画像からPDF文書を作成することができます。 さらに、ファイルにはヘッダとフッタを含めることができます。 IronPDFのおかげで、PDFドキュメントを簡単に読むことができます。 IronPDFには、包括的なPDF変換エンジンと強力なHTMLからPDFへの変換機能があり、PDFドキュメントを処理できます。

  • PDF 作成: HTML、JavaScript、CSS、画像、または URL から PDF を生成します。 ヘッダー、フッター、ブックマーク、ウォーターマーク、その他のカスタム要素を追加して、デザインを強化します。
  • HTMLからPDFへの変換: HTML、Razor/MVCビュー、およびメディアタイプのCSSファイルを直接PDF形式に変換します。
  • インタラクティブPDF機能: インタラクティブPDFを作成、記入、提出PDFフォーム.
  • テキストと画像の抽出: データ処理や再利用のために、既存のPDFドキュメントからテキストや画像を抽出します。
  • ドキュメント操作:結合、分割、既存または新しいPDFファイルでページを再配置します。
  • 画像とページの処理: PDFページを画像にラスタライズして変換画像をPDF形式に変換.
  • カスタムログイン資格情報の使用: IronPDFは、URLからドキュメントを作成することができます。 カスタムネットワークログイン認証情報、ユーザーエージェント、プロキシ、クッキー、HTTPヘッダー、およびフォーム変数もサポートします。HTMLログインフォームの背後でのログイン.
  • 検索とアクセシビリティ: PDFドキュメント内のテキストを検索し、アクセシビリティ基準を満たしていることを確認します。
  • 変換の多様性: PDFをHTMLなどの他のフォーマットに変換し、CSSファイルと連携してPDFを生成します。
  • スタンドアロン機能: Adobe Acrobatや追加のサードパーティツールを必要とせずに独立して動作します。

Visual Studioで新しいプロジェクトを作成する

Visual Studioソフトウェアを開き、[ファイル]メニューに移動します。 「新しいプロジェクト」を選択し、その後「コンソールアプリケーション」を選択します。 この記事では、コンソールアプリケーションを使用してPDFドキュメントを生成します。

C# PDFからテキストを抽出 (コード例チュートリアル)、図1: Visual Studioで新しいプロジェクトを作成

Visual Studio で新しいプロジェクトを作成する

プロジェクト名を入力し、適切なテキストボックスにファイルパスを選択してください。 次に、Create ボタンをクリックし、以下のスクリーンショットのように必要な .NET Framework を選択します。

C# PDFからテキストを抽出する(コード例チュートリアル)、図2: Visual Studioで新しいプロジェクトを設定する

Visual Studio で新しいプロジェクトを構成する

Visual Studioプロジェクトは、選択したアプリケーションの構造を生成し、もしコンソール、ウィンドウズ、およびWebアプリケーションを選択した場合、コードを入力してアプリケーションをビルド/実行できるprogram.csファイルを開きます。

C# PDFからテキストを抽出する (コード例チュートリアル), 図3: .NET Core の選択

.NET Core の選択

次に、コードをテストするためにライブラリを追加します。

3. IronPDFライブラリのインストール

IronPDFライブラリは、4つの方法でダウンロードおよびインストールできます。

これらは:

  • Visual Studio を使用して。
  • Visual Studio コマンドラインの使用。
  • NuGetウェブサイトから直接ダウンロードします。
  • IronPDFのウェブサイトから直接ダウンロード。

3.1 Visual Studioの使用

Visual Studioソフトウェアは、ソリューションにパッケージを直接インストールするためのNuGetパッケージマネージャーオプションを提供します。 以下のスクリーンショットは、NuGetパッケージマネージャーの開き方を示しています。

C# PDFからテキストを抽出する(コード例チュートリアル)、図4:Visual Studioのprogram.csファイル

Visual Studio program.cs ファイル

NuGetサイトからパッケージのリストを表示するための検索ボックスを提供します。パッケージマネージャーでは、以下のスクリーンショットのようにキーワード「IronPDF」を検索する必要があります。

PDFからテキストを抽出するC#コード例 (チュートリアル)、図5:NuGetパッケージマネージャー

NuGet パッケージ マネージャー

上記の画像には、関連する検索項目のリストが表示されています。 ソリューションにパッケージをインストールするために必要なオプションを選択する必要があります。

3.2 Visual Studio コマンドラインの使用

Visual Studioで、ツール > NuGetパッケージマネージャー > パッケージマネージャーコンソールに移動

パッケージマネージャー コンソール タブに次の行を入力してください:

Install-Package IronPdf

現在、パッケージは現在のプロジェクトにダウンロード/インストールされ、使用できるようになります。

C# から PDF からテキストを抽出する (コード例チュートリアル)、図 6: NuGet パッケージ マネージャーの IronPDF ライブラリ

NuGet パッケージ マネージャーの IronPdf ライブラリ

NuGetウェブサイトからの直接ダウンロード

こちらの第三の方法は、IronPDF NuGetパッケージ直接彼らのウェブサイトから。

  • NuGetのIronPDFパッケージに移動してください。
  • 右側のメニューからダウンロードパッケージオプションを選択してください。
  • ダウンロードしたパッケージをダブルクリックしてください。 自動的にインストールされます。
  • 次に、ソリューションをリロードして、プロジェクトで使用を開始します。

3.4 IronPDFウェブサイトからの直接ダウンロード

訪問するIronPDF 公式サイトをクリックし、ウェブサイトから最新のパッケージを直接ダウンロードしてください。ダウンロードが完了したら、以下の手順に従ってパッケージをプロジェクトに追加してください。

  • ソリューションウィンドウからプロジェクトを右クリックします。
  • 次に、オプションの参照を選択し、ダウンロードした参照の場所を参照してください。
  • 次に、「OK」をクリックしてリファレンスを追加します。

テキスト抽出 IronPDF を使用する

IronPDFプログラムを使用すると、PDFファイルからのテキスト抽出を実行し、PDFページをPDFオブジェクトに変換できます。 以下は、IronPDFを使用して既存のPDFを読み取る方法の例です。

最初のアプローチはPDFからテキストを抽出することであり、サンプルコードのスニペットは以下の通りです。

using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
Imports IronPdf

Private pdfDocument = PdfDocument.FromFile("result.pdf")
Private AllText As String = pdfDocument.ExtractAllText()
VB   C#

についてFromFile(ファイルから)既存のファイルからPDFドキュメントを読み込み、それを変換するために使用される静的メソッドPDFDocument上記のコードに示されているように、オブジェクト。 このオブジェクトを使用して、PDFページ上のテキストと画像を読み取ることができます。 そのオブジェクトには、というメソッドがありますExtractAllTextPDFドキュメント全体からすべてのテキストを抽出し、その抽出されたテキストを文字列に保持します。この文字列を使用して処理を行うことができます。

以下は、PDFファイルからページごとにテキストを抽出するために使用できる2つ目のメソッドのコード例です。

using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}
Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
	For index = 0 To pdf.PageCount - 1
		Dim Text As String = pdf.ExtractTextFromPage(index)
	Next index
End Using
VB   C#

上記のコードでは、最初にPDF文書全体を読み込み、それをPDFオブジェクトに変換することがわかります。 次に、組み込みメソッドを使用してPDFドキュメント全体のページ数を取得します。そのメソッドの名称はPageCount(ページ数)これは、読み込んだPDFドキュメントの利用可能なページ数の合計を取得します。 「forループ」を使用してExtractTextFromPage関数は、ページ番号をパラメータとして渡して読み込まれたドキュメントからテキストを抽出することを可能にします。 その後、正確なテキストを文字列変数に保持します。 同様に、"for"または"for each"ループを使用して、PDFページごとにテキストを抽出します。

5. 結論

IronPDFは、.NETアプリケーションでPDFをシームレスに利用できるよう設計された多用途で強力なPDFライブラリです。 その強力な機能により、開発者はAdobe Readerのようなサードパーティ依存に頼ることなく、PDFの作成、操作、コンテンツの抽出が可能になります。 IronPDFの際立った機能の一つは、PDFドキュメントからテキストを抽出する能力です。 この機能は、データ分析、文書のインデックス作成、コンテンツの移行、アクセシビリティ機能の有効化などのタスクを自動化するために非常に重要です。 IronPDFは、開発者がプログラムを使ってテキストを取得し処理することを可能にすることで、ワークフローを簡素化し、PDFコンテンツの扱いに新たな可能性を開きます。

シンプルな統合とクロスプラットフォームのサポートにより、IronPDFはPDFドキュメントを効率的に処理しようとする開発者にとって優れた選択肢です。 また、IronPDFは無料試用その機能を全面的にリスクなしで探求し、納得した上で購入することができます。 価格の詳細とライセンスオプションについて詳しくは、弊社のサイトをご覧ください価格ページ.

< 以前
C#を使用してASP.NETでPDFを生成する方法
次へ >
C#でPDFからデータを抽出する方法