USO DE IRONPDF

Cómo analizar archivos PDF en VB.NET

Name: IronPDF
Brand: Iron Software
Availability: InStock
Rating: 4.87 (307 reviews)

Chipego Kalinda

19 de abril, 2023

Actualizado 10 de marzo, 2024

Este tutorial presenta cómo extraer mediante programación textos e imágenes de archivos PDF con el soporte de primera clase de IronPDF.

Cómo analizar archivos PDF en VB.NET

Descargar la biblioteca de C# de IronPDF para analizar archivos PDF
Utilice el método FromFile para analizar un archivo PDF en VB.NET
Extraer texto del PDF abierto con el método ExtractAllText
Usa el método ExtractTextFromPages para extraer texto de ciertas páginas
Extraer imágenes de PDF abierto con el método ExtractRawImagesFromPage

IronPDF

Características

Eficaz conversión de PDF. Casi todo lo que puede hacer una máquina, también lo puede hacer IronPDF. Gracias a esta biblioteca PDF, los desarrolladores pueden crear, leer contenido de texto, escribir, cargar y manipular PDF rápidamente.

IronPDF convierte HTML en un registro PDF con la ayuda de la utilización del motor de Chrome. Junto con Windows Forms, HTML, ASPX, Razor HTML, .NET Core, ASP.NET, Windows Forms y WPF. IronPDF también es compatible con aplicaciones Xamarin, Blazor, Unity y HoloLense. IronPDF es compatible con aplicaciones tanto de Microsoft .NET como de .NET Core (tanto los paquetes web ASP.NET como los paquetes convencionales de Windows). IronPDF puede utilizarse para crear PDF estéticamente atractivos.

IronPDF puede crear un PDF utilizando HTML5, JavaScript, CSS e imágenes. IronPDF también dispone de un potente conversor de HTML a PDF que se integra con PDF. IronPDF cuenta con un potente mecanismo de conversión de PDF que utiliza el motor de renderizado Chromium. Además, no está conectado a ninguna fuente externa.

Una imagen PDF puede crearse a partir de diversas fuentes, como HTML, HTML5, ASPX y Razor/MVC View. Tanto los archivos HTML como los de imagen se pueden convertir a PDF.
Las herramientas que se pueden utilizar para trabajar con PDFs interactivos incluyen completar y enviar formularios interactivos.
Unir y dividir PDFs, extraer texto e imágenes de archivos PDF, buscar texto en archivos PDF, rasterizar PDFs a imágenes, cambiar el tamaño de la fuente y convertir archivos PDF.
Permite la verificación de formularios HTML de inicio de sesión utilizando agentes de usuario, proxies, cookies, cabeceras HTTP y variables de formulario.
IronPDF permite acceder a documentos protegidos mediante nombres de usuario y contraseñas.
IronPDF es un programa que lee texto en PDF y completa los huecos.
Permite agregar texto, imágenes, marcadores, marcas de agua y más.
Puede crear un archivo PDF a partir de un archivo CSS.
Para más detalles, visita esta página de información de licencias de IronPDF para obtener una clave limitada gratuita y la versión profesional.
IronPDF- Formato de fuente

Extraer texto de un archivo PDF

IronPDF también puede leer y extraer texto de archivos PDF con la ayuda de las bibliotecas IronPDF. A continuación se muestra un patrón de código IronPDF que puede utilizarse para examinar archivos PDF presentes.

Extraer texto de todas las páginas

El siguiente ejemplo de código demuestra el primer método para adquirir todo el contenido del PDF como una cadena con sólo unas pocas líneas.

Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module

Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module

VB.NET

El código de muestra anterior demuestra cómo utilizar el método FromFile para leer un PDF de un archivo existente y convertirlo en un objeto de documento PDF. El objeto proporciona un método llamado ExtractAllText que extraerá texto plano del PDF y lo convertirá en una cadena.

Extraer texto por número de página

El siguiente código de ejemplo muestra cómo extraer datos de un archivo PDF utilizando el número de página.

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module

VB.NET

El código anterior muestra cómo leer un PDF de un archivo existente y convertirlo en un objeto de documento PDF utilizando la función FromFile. A través de este objeto se puede acceder a textos e imágenes en el PDF. El objeto ofrece un método llamado ExtractTextFromPage que permite enviar un número de página como parámetro para obtener una cadena que contiene cada palabra que estaba en la página del PDF.

Extraer texto entre páginas

El siguiente código muestra cómo extraer los datos entre varias páginas.

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module

VB.NET

El código anterior demuestra cómo usar el método FromFile para leer un PDF desde un archivo existente y convertirlo en un objeto de documento PDF. Este objeto permite examinar el texto y las imágenes en PDF. El objeto tiene un método llamado ExtractTextFromPages que se puede utilizar para obtener una cadena que incluye todo el contenido de texto en una página dada del documento pasando una lista de números de página como parámetro. Abajo a la izquierda está el PDF de origen y a la derecha los datos extraídos.

Cómo analizar un archivo PDF en VB.NET, Figura 2: Extraer texto entre páginas de salida

Extraer texto entre las páginas de salida

Extraer imagen de un archivo PDF

IronPDF proporciona una lista de métodos para extraer imágenes como:

ExtractBitmapsFromPage
ExtractBitmapsFromPages
ExtractImagesFromPage
ExtraerImágenesDePáginas
ExtractRawImagesFromPage
ExtractRawImagesFromPages
Cada método permite extraer imágenes de una página o de varias páginas del documento.

Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next

Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next

VB.NET

El código anterior muestra cómo leer un documento de un archivo existente y convertirlo en un objeto de documento PDF utilizando la función FromFile. Al pasar una lista de números de página al método ExtractRawImagesFromPage del objeto, se puede obtener una lista de bytes que contiene cada imagen que estaba presente en una página determinada del documento. Usar un bucle foreach para manejar cada byte y convertirlo en un flujo de memoria. A continuación, en un mapa de bits, lo que ayuda a guardar la imagen. La siguiente imagen muestra la salida del código anterior.

Cómo analizar un archivo PDF en VB.NET, Figura 3: Extraer imágenes del resultado PDF

Extraer imágenes del PDF de salida

Para conocer más sobre el tutorial de código de la API de IronPDF, consulte la documentación de IronPDF. También puedes visitar otros tutoriales para aprender cómo analizar texto de PDF usando C#.

Conclusión

La licencia de desarrollo de la biblioteca IronPDF es gratuita. Si se utiliza IronPDF en un entorno de producción, pueden adquirirse distintas licencias en función de las necesidades del desarrollador. El plan Lite comienza en $749 y no tiene costos continuos. También se ofrecen alternativas de redistribución SaaS y OEM. Todas las licencias incluyen actualizaciones, un año de soporte del producto y una licencia permanente. También son útiles para la fabricación, la puesta en escena y el desarrollo. Se trata de una compra única. Existen otras licencias gratuitas de duración limitada. Visite la información completa sobre las licencias de IronPDF para leer los detalles completos de precios y licencias para IronPDF. IronPDF también ofrece licencias gratuitas para la protección anticopia.

Chipego Kalinda

Chatea con el equipo de ingeniería ahora

Ingeniero de software

Chipego tiene una habilidad natural para escuchar que le ayuda a comprender los problemas de los clientes y a ofrecer soluciones inteligentes. Se unió al equipo de Iron Software en 2023, después de estudiar una licenciatura en Tecnología de la Información. IronPDF e IronOCR son los dos productos en los que Chipego se ha centrado, pero su conocimiento de todos los productos crece día a día, a medida que encuentra nuevas formas de ayudar a los clientes. Disfruta de lo colaborativa que es la vida en Iron Software, con miembros del equipo de toda la empresa que aportan su variada experiencia para contribuir a soluciones eficaces e innovadoras. Cuando Chipego está lejos de su escritorio, a menudo se le puede encontrar disfrutando de un buen libro o jugando al fútbol.

< ANTERIOR
Cómo desproteger un PDF (Tutorial para principiantes)

SIGUIENTE >
Cómo convertir PDF a JPG en .NET