COMPARACIóN DE PRODUCTOS

itext7 Extraer texto de PDF vs IronPDF (Tutorial de ejemplo de código)

Chipego
Chipego Kalinda
2 de febrero, 2023
Compartir:

En este tutorial, aprenderemos a leer datos de un documento PDF (Formato de Documento Portátil) en C# con ejemplos utilizando dos herramientas diferentes.

Hay muchas bibliotecas/lectores en línea que pueden extraer texto e imágenes de los PDF. Extraeremos información de un archivo PDF utilizando las dos mejores y más útiles bibliotecas con servicios relevantes hasta la fecha. También compararemos ambas bibliotecas para averiguar cuál de las dos es mejor.

Estaremos comparando [iText 7](https://itextpdf.com/products/itext-7/itext-7-core" target="_blank" rel="nofollow noopener noreferrer) y IronPDF. Antes de seguir adelante, presentaremos ambas bibliotecas.

iText 7

La biblioteca iText 7 es la última versión de iTextSharp. Se utiliza tanto en aplicaciones .NET como Java. Está equipado con un motor de documentos (como Adobe Acrobat Reader), capacidades de programación de alto y bajo nivel, un listener de eventos y capacidades de edición de PDF. iText 7 puede crear, editar y mejorar páginas de documentos PDF sin ningún error. Otras funciones incluyen la adición de contraseñas, la creación de estrategias de codificación y el almacenamiento de opciones de permiso en un documento PDF. También se utiliza para añadir o cambiar contenido o imágenes de lienzo, añadir elementos PDF [diccionarios, etc.], crear marcas de agua y marcadores, cambiar tamaños de fuente y firmar datos sensibles.

iText 7 nos permite crear aplicaciones personalizadas de procesamiento de PDF para aplicaciones web, móviles, de escritorio, en el núcleo o en la nube en .NET.

IronPDF

IronPDF es una biblioteca desarrollada por Iron Software que ayuda a los ingenieros de software de C# y Java a crear, editar y extraer contenido PDF. Se suele utilizar para generar PDF a partir de HTML, de páginas web o de imágenes. Sirve para leer PDF y extraer su texto. Otras funciones son la adición de encabezados/pies de página, firmas, archivos adjuntos, contraseñas y preguntas de seguridad. Ofrece una optimización total del rendimiento gracias a sus funciones multihilo y asíncronas.

IronPDF tiene compatibilidad multiplataforma con .NET 5, .NET 6 y .NET 7, .NET Core, Standard y Framework. También es compatible con Windows, macOS, Linux, Docker, Azure y AWS.

Veamos ahora una demostración de ambos.

Extraer texto de un archivo PDF con iText 7

Utilizaremos el siguiente archivo PDF para extraer texto del PDF.

Extracción de texto de PDF: iText vs IronPDF - Figura 1: Archivo PDF

IronPDF

Escriba el siguiente código fuente para extraer texto utilizando iText 7.

//assign PDF location to a string and create new StringBuilder...
string pdfPath = @"D:/TestDocument.pdf";
 var pageText = new StringBuilder();
//read PDF using new PdfDocument and new PdfReader...
 using (PdfDocument document = new PdfDocument(new PdfReader(pdfPath)))
    {
      var pageNumbers = document.GetNumberOfPages();
       for (int page = 1; page <= pageNumbers; page++)
        {
//new LocationTextExtractionStrategy creates a new text extraction renderer
    LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
     PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
     parser.ProcessPageContent(document.GetFirstPage());
     pageText.Append(strategy.GetResultantText());
         }
            Console.WriteLine(pageText.ToString());
     }
//assign PDF location to a string and create new StringBuilder...
string pdfPath = @"D:/TestDocument.pdf";
 var pageText = new StringBuilder();
//read PDF using new PdfDocument and new PdfReader...
 using (PdfDocument document = new PdfDocument(new PdfReader(pdfPath)))
    {
      var pageNumbers = document.GetNumberOfPages();
       for (int page = 1; page <= pageNumbers; page++)
        {
//new LocationTextExtractionStrategy creates a new text extraction renderer
    LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
     PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
     parser.ProcessPageContent(document.GetFirstPage());
     pageText.Append(strategy.GetResultantText());
         }
            Console.WriteLine(pageText.ToString());
     }
'assign PDF location to a string and create new StringBuilder...
Dim pdfPath As String = "D:/TestDocument.pdf"
 Dim pageText = New StringBuilder()
'read PDF using new PdfDocument and new PdfReader...
 Using document As New PdfDocument(New PdfReader(pdfPath))
	  Dim pageNumbers = document.GetNumberOfPages()
	   For page As Integer = 1 To pageNumbers
'new LocationTextExtractionStrategy creates a new text extraction renderer
	Dim strategy As New LocationTextExtractionStrategy()
	 Dim parser As New PdfCanvasProcessor(strategy)
	 parser.ProcessPageContent(document.GetFirstPage())
	 pageText.Append(strategy.GetResultantText())
	   Next page
			Console.WriteLine(pageText.ToString())
 End Using
$vbLabelText   $csharpLabel
Extracting Text from PDF: iText vs IronPDF - Figure 2: Salida de texto extraído

Salida de texto extraído

Ahora, vamos a extraer texto de un PDF utilizando IronPDF.

Extraer texto de documentos PDF con IronPDF

El siguiente código fuente muestra el ejemplo de extracción de texto de un PDF utilizando IronPDF.

var pdf = PdfDocument.FromFile(@"D:/TestDocument.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
var pdf = PdfDocument.FromFile(@"D:/TestDocument.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
Dim pdf = PdfDocument.FromFile("D:/TestDocument.pdf")
Dim text As String = pdf.ExtractAllText()
Console.WriteLine(text)
$vbLabelText   $csharpLabel
Extracting Text from PDF: iText vs IronPDF - Figure 3: Texto extraído con IronPDF

Texto extraído con IronPDF

Comparación

Con IronPDF, se necesitan dos líneas para extraer texto de los PDF. Con iText 7, en cambio, tenemos que escribir unas 10 líneas de código para la misma tarea.

IronPDF proporciona cómodos métodos de extracción de texto desde el primer momento; pero iText 7 requiere que escribamos nuestra propia lógica para realizar la misma tarea.

IronPDF es eficiente tanto en términos de rendimiento como de legibilidad del código.

Ambas bibliotecas son iguales en términos de precisión, ya que ambas proporcionan un resultado preciso al 100%.

Conclusión

iText 7 está disponible solo para [uso comercial](https://itextpdf.com/how-buy" target="_blank" rel="nofollow noopener noreferrer). IronPDF es gratuito para el desarrollo y también ofrece una prueba gratuita para uso comercial.

Para una comparación más detallada de IronPDF y iText 7, por favor lea este artículo en el blog sobre IronPDF vs. iText 7.

Chipego
Ingeniero de software
Chipego tiene una habilidad natural para escuchar que le ayuda a comprender los problemas de los clientes y a ofrecer soluciones inteligentes. Se unió al equipo de Iron Software en 2023, después de estudiar una licenciatura en Tecnología de la Información. IronPDF e IronOCR son los dos productos en los que Chipego se ha centrado, pero su conocimiento de todos los productos crece día a día, a medida que encuentra nuevas formas de ayudar a los clientes. Disfruta de lo colaborativa que es la vida en Iron Software, con miembros del equipo de toda la empresa que aportan su variada experiencia para contribuir a soluciones eficaces e innovadoras. Cuando Chipego está lejos de su escritorio, a menudo se le puede encontrar disfrutando de un buen libro o jugando al fútbol.
< ANTERIOR
Comparación de productos con IronPDF
SIGUIENTE >
Comparación entre IronPDF y PDFium.NET