透かしなしで本番環境でテストしてください。
必要な場所で動作します。
30日間、完全に機能する製品をご利用いただけます。
数分で稼働させることができます。
製品トライアル期間中にサポートエンジニアリングチームへの完全アクセス
このチュートリアルでは、IronPDF の一流のサポートを受けて、プログラムによって PDF ファイルからテキストや画像を抽出する方法を紹介します。
効率的なPDF変換。 ほぼすべての機械ができることを、IronPDFも実行できます。 このPDFライブラリのおかげで、開発者はPDFを素早く作成し、テキストコンテンツを読み、書き込み、読み込み、操作することができます。
IronPDFはChromeエンジンを使用してHTMLをPDFファイルに変換します。Windows Forms、HTML、ASPX、Razor HTML、.NET Core、ASP.NET、Windows Forms、WPFに対応しています。 IronPDFは、Xamarin、Blazor、Unity、HoloLenseアプリケーションもサポートしています。 IronPDFは、Microsoft .NETおよび.NET Coreアプリケーション(ASP.NET Webパッケージと従来のWindowsパッケージの両方)をサポートしています。 IronPDFを使用して、見た目に美しいPDFを作成することができます。
IronPDFは、HTML5、JavaScript、CSS、および画像を使用してPDFを作成できます。 IronPDFには、強力なHTMLからPDFへのコンバーターも搭載されており、PDFと統合されています。 IronPDFにはChromiumレンダリングエンジンを使用する強力なPDF変換メカニズムが存在しています。また、外部のソースには依存していません。
CSSファイルからPDFファイルを作成することができます。
詳細については、このIronPDFのライセンス情報ページを訪れて、無料の限定キーとプロフェッショナルバージョンをご確認ください。
IronPDF - フォントのフォーマット
IronPDFライブラリを使用して、IronPDFはPDFファイルからテキストを読み取り、抽出することもできます。 以下は、現在のPDFファイルを調べるために使用されるIronPDFコードのパターンです。
以下のコード例は、数行だけでPDFのすべてのコンテンツを文字列として取得する最初の方法を示しています。
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractAllText()
Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractAllText()
Console.WriteLine(AllText)
End Sub
End Module
上記のサンプルコードは、FromFile
メソッドを使用して既存のファイルからPDFを読み取り、それをPDFドキュメントオブジェクトに変換する方法を示しています。 オブジェクトは、PDFからプレーンテキストを抽出し、それを文字列に変換するExtractAllText
というメソッドを提供します。
以下のサンプルコードは、ページ番号を使用してPDFファイルからデータを抽出する方法を示しています。
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPage(0)
Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args As String())
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPage(0)
Console.WriteLine(AllText)
End Sub
End Module
上記のコードは、既存のファイルからPDFを読み取り、FromFile
関数を使用してPDFドキュメントオブジェクトに変換する方法を示しています。 テキストと画像は、このオブジェクトを使用してPDFでアクセスできます。 オブジェクトは、ページ番号をパラメーターとして送信し、そのPDFページにあったすべての単語を含む文字列を取得できるメソッドExtractTextFromPage
を提供します。
以下のコードは、複数のページ間のデータを抽出する方法を示しています。
Imports IronPdf
Module Program
Sub Main(args As String())
Dim Pages As List(Of Integer) = New List(Of Integer)
Pages.Add(3)
Pages.Add(5)
Pages.Add(7)
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPages(Pages)
Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args As String())
Dim Pages As List(Of Integer) = New List(Of Integer)
Pages.Add(3)
Pages.Add(5)
Pages.Add(7)
Dim AllText As String
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
AllText = pdfdoc.ExtractTextFromPages(Pages)
Console.WriteLine(AllText)
End Sub
End Module
上記のコードは、FromFile
メソッドを使用して既存のファイルからPDFを読み込み、それをPDFドキュメントオブジェクトに変換する方法を示しています。 このオブジェクトは、PDFでテキストと画像を調べることができます。 オブジェクトには、ExtractTextFromPages
というメソッドがあり、ページ番号のリストをパラメーターとして渡すことで、ドキュメントの指定されたページのすべてのテキストコンテンツを含む文字列を取得することができます。 左側が元のPDFで、右側が抽出されたデータです。
ページ間のテキストを抽出する出力
IronPDFは、画像を抽出するための方法一覧を提供します。
ページからビットマップを抽出する
ページからビットマップを抽出する
ExtractImagesFromPage
ページから画像を抽出
ExtractRawImagesFromPage
各メソッドは、ドキュメントの1ページまたは複数ページから画像を抽出することができます。
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each As Byte() In images
Dim ms As New IO.MemoryStream(CType(, Byte()))
Dim image = New Bitmap(ms)
image.Save("output//test.jpg")
Next
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each As Byte() In images
Dim ms As New IO.MemoryStream(CType(, Byte()))
Dim image = New Bitmap(ms)
image.Save("output//test.jpg")
Next
上記のコードは、既存のファイルからドキュメントを読み込み、FromFile
関数を使用してPDFドキュメントオブジェクトに変換する方法を示しています。 オブジェクトのExtractRawImagesFromPage
メソッドにページ番号のリストを渡すことで、ドキュメントの特定のページに存在していたすべての画像を含むバイトのリストを取得することができます。 各バイトを処理してメモリストリームに変換するためにforeach
ループを使用します。 その後、画像保存を支援するビットマップに変換します。 以下の画像は上記コードの出力を示しています。
PDF出力から画像を抽出する
IronPDF APIコードチュートリアルの詳細については、IronPDFドキュメントを参照してください。 他のチュートリアルを訪れて、C#を使用してPDFテキストを解析する方法を学ぶこともできます。
ライブラリIronPDFの開発ライセンスは無料です。 本番環境でIronPDFを使用する場合、開発者のニーズに応じて異なるライセンスを購入することができます。 Liteプランは$749で開始され、継続的なコストはありません。 SaaSおよびOEMの再配布オプションも提供されています。 すべてのライセンスには、アップデート、1年間の製品サポート、および永久ライセンスが含まれています。 それらはまた、製造、ステージング、および開発にも有用です。 一度きりの購入です。 追加の無料の期限付きライセンスが利用可能です。 包括的なIronPDFライセンス情報を訪れて、IronPDFの完全な価格とライセンスの詳細をお読みください。 IronPDFは、コピー保護のための無料ライセンスも提供しています。