using IronPdf; // Disable local disk access or cross-origin requests Installation.EnableWebSecurity = true; // Instantiate Renderer var renderer = new ChromePdfRenderer(); // Create a PDF from a HTML string using C# var pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>"); // Export to a file or Stream pdf.SaveAs("output.pdf"); // Advanced Example with HTML Assets // Load external html assets: Images, CSS and JavaScript. // An optional BasePath 'C:\site\assets\' is set as the file location to load assets from var myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", @"C:\site\assets\"); myAdvancedPdf.SaveAs("html-with-assets.pdf");

IRONPDFの使用

VB.NETでPDFファイルを解析する方法

Name: IronPDF
Brand: Iron Software
Availability: InStock
Rating: 4.87 (307 reviews)

チペゴ・カリンダ

2023年4月19日

更新済み 2024年3月10日

共有:

このチュートリアルでは、IronPDF の一流のサポートを受けて、プログラムによって PDF ファイルからテキストや画像を抽出する方法を紹介します。

VB.NETでPDFファイルを解析する方法

IronPDF C# ライブラリをダウンロードしてPDFファイルを解析する
VB.NETでPDFファイルを解析するFromFileメソッドを利用する
開いたPDFからExtractAllTextメソッドでテキストを抽出
特定のページからテキストを抽出するためにExtractTextFromPagesメソッドを使用する
ExtractRawImagesFromPage メソッドを使用して、開かれたPDFから画像を抽出する

IronPDF

機能

効率的なPDF変換。ほぼすべての機械ができることを、IronPDFも実行できます。このPDFライブラリのおかげで、開発者はPDFを素早く作成し、テキストコンテンツを読み、書き込み、読み込み、操作することができます。

IronPDFはChromeエンジンを使用してHTMLをPDFファイルに変換します。Windows Forms、HTML、ASPX、Razor HTML、.NET Core、ASP.NET、Windows Forms、WPFに対応しています。 IronPDFは、Xamarin、Blazor、Unity、HoloLenseアプリケーションもサポートしています。 IronPDFは、Microsoft .NETおよび.NET Coreアプリケーション（ASP.NET Webパッケージと従来のWindowsパッケージの両方）をサポートしています。 IronPDFを使用して、見た目に美しいPDFを作成することができます。

IronPDFは、HTML5、JavaScript、CSS、および画像を使用してPDFを作成できます。 IronPDFには、強力なHTMLからPDFへのコンバーターも搭載されており、PDFと統合されています。 IronPDFにはChromiumレンダリングエンジンを使用する強力なPDF変換メカニズムが存在しています。また、外部のソースには依存していません。

PDF画像は、HTML、HTML5、ASPX、およびRazor/MVC Viewなど、さまざまなソースから作成できます。 HTMLと画像アセットの両方をPDFに変換できます。
インタラクティブなPDFを操作するために使用できるツールには、インタラクティブフォームの記入と送信が含まれます。
PDFを結合および分割し、PDFファイルからテキストと画像を抽出し、PDFファイル内のテキストを検索し、PDFを画像にラスタライズし、フォントサイズを変更してPDFファイルを変換します。
それは、ユーザーエージェント、プロキシ、クッキー、HTTPヘッダー、およびフォーム変数を使用してHTMLログインフォームの検証を可能にします。
IronPDFを使用してユーザー名とパスワードを提供することにより、保護されたドキュメントにアクセスすることが可能になります。
IronPDFは、PDF内のテキストを読み取り、ギャップを埋めるプログラムです。
テキスト、画像、ブックマーク、透かし、およびその他を追加することができます。
CSSファイルからPDFファイルを作成することができます。

詳細については、このIronPDFのライセンス情報ページを訪れて、無料の限定キーとプロフェッショナルバージョンをご確認ください。

IronPDF - フォントのフォーマット

PDFファイルからテキストを抽出する

IronPDFライブラリを使用して、IronPDFはPDFファイルからテキストを読み取り、抽出することもできます。以下は、現在のPDFファイルを調べるために使用されるIronPDFコードのパターンです。

すべてのページからテキストを抽出

以下のコード例は、数行だけでPDFのすべてのコンテンツを文字列として取得する最初の方法を示しています。

Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module

Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module

VB.NET

上記のサンプルコードは、FromFile メソッドを使用して既存のファイルからPDFを読み取り、それをPDFドキュメントオブジェクトに変換する方法を示しています。オブジェクトは、PDFからプレーンテキストを抽出し、それを文字列に変換するExtractAllTextというメソッドを提供します。

ページ番号でテキストを抽出

以下のサンプルコードは、ページ番号を使用してPDFファイルからデータを抽出する方法を示しています。

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module

VB.NET

上記のコードは、既存のファイルからPDFを読み取り、FromFile 関数を使用してPDFドキュメントオブジェクトに変換する方法を示しています。テキストと画像は、このオブジェクトを使用してPDFでアクセスできます。オブジェクトは、ページ番号をパラメーターとして送信し、そのPDFページにあったすべての単語を含む文字列を取得できるメソッドExtractTextFromPageを提供します。

ページ間のテキストを抽出

以下のコードは、複数のページ間のデータを抽出する方法を示しています。

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module

VB.NET

上記のコードは、FromFile メソッドを使用して既存のファイルからPDFを読み込み、それをPDFドキュメントオブジェクトに変換する方法を示しています。このオブジェクトは、PDFでテキストと画像を調べることができます。オブジェクトには、ExtractTextFromPages というメソッドがあり、ページ番号のリストをパラメーターとして渡すことで、ドキュメントの指定されたページのすべてのテキストコンテンツを含む文字列を取得することができます。左側が元のPDFで、右側が抽出されたデータです。

VB.NETでPDFファイルを解析する方法、図2: ページ間のテキスト抽出出力

ページ間のテキストを抽出する出力

PDFファイルから画像を抽出

IronPDFは、画像を抽出するための方法一覧を提供します。

ページからビットマップを抽出する
ページからビットマップを抽出する
ExtractImagesFromPage
ページから画像を抽出
ExtractRawImagesFromPage
ページから生の画像を抽出

各メソッドは、ドキュメントの1ページまたは複数ページから画像を抽出することができます。

Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next

Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next

VB.NET

上記のコードは、既存のファイルからドキュメントを読み込み、FromFile 関数を使用してPDFドキュメントオブジェクトに変換する方法を示しています。オブジェクトのExtractRawImagesFromPageメソッドにページ番号のリストを渡すことで、ドキュメントの特定のページに存在していたすべての画像を含むバイトのリストを取得することができます。各バイトを処理してメモリストリームに変換するためにforeachループを使用します。その後、画像保存を支援するビットマップに変換します。以下の画像は上記コードの出力を示しています。

VB.NETでPDFファイルを解析する方法、図3: PDFから画像を抽出

PDF出力から画像を抽出する

IronPDF APIコードチュートリアルの詳細については、IronPDFドキュメントを参照してください。他のチュートリアルを訪れて、C#を使用してPDFテキストを解析する方法を学ぶこともできます。

結論

ライブラリIronPDFの開発ライセンスは無料です。本番環境でIronPDFを使用する場合、開発者のニーズに応じて異なるライセンスを購入することができます。 Liteプランは$749で開始され、継続的なコストはありません。 SaaSおよびOEMの再配布オプションも提供されています。すべてのライセンスには、アップデート、1年間の製品サポート、および永久ライセンスが含まれています。それらはまた、製造、ステージング、および開発にも有用です。一度きりの購入です。追加の無料の期限付きライセンスが利用可能です。包括的なIronPDFライセンス情報を訪れて、IronPDFの完全な価格とライセンスの詳細をお読みください。 IronPDFは、コピー保護のための無料ライセンスも提供しています。

チペゴ・カリンダ

今すぐエンジニアリングチームとチャット

ソフトウェアエンジニア

チペゴは優れた傾聴能力を持ち、それが顧客の問題を理解し、賢明な解決策を提供する助けとなっています。彼は情報技術の学士号を取得後、2023年にIron Softwareチームに加わりました。現在、彼はIronPDFとIronOCRの2つの製品に注力していますが、顧客をサポートする新しい方法を見つけるにつれて、他の製品に関する知識も日々成長しています。Iron Softwareでの協力的な生活を楽しんでおり、さまざまな経験を持つチームメンバーが集まり、効果的で革新的な解決策を提供することに貢献しています。チペゴがデスクを離れているときは、良い本を楽しんだり、サッカーをしていることが多いです。

< 以前
PDFのセキュリティを解除する方法（初心者向けチュートリアル）

次へ >
.NETでPDFをJPGに変換する方法