USO DE IRONPDF FOR NODE.JS

Cómo extraer imágenes de PDF en Node.js

Publicado en 14 de enero, 2025
Compartir:

Extraer imágenes de archivos PDF es una tarea común para muchos desarrolladores, ya sea para el procesamiento de archivos, la extracción de datos o la creación de vistas previas de documentos. En este artículo, exploraremos cómo extraer y guardar imágenes de un PDF usandoIronPDF, una potente biblioteca de PDF disponible para .NET, y cómo puede integrarse en un Node.jsentorno a través de su paquete NPM.

Cómo extraer imágenes de archivos PDF usando IronPDF Node.js

  1. Configurar una aplicación Node.js.

  2. Instale los paquetes NPM de IronPDF.

  3. Prepare un PDF para la extracción.

  4. Extraer imágenes del archivo PDF y guardar.

Requisitos previos

Si aún no has instalado Node.js, descárgalo e instálalo desde https://nodejs.org/.

Presentando el paquete NPM de IronPDF

El paquete NPM de IronPDF es un contenedor de Node.js para la biblioteca IronPDF, originalmente diseñada para entornos .NET. Permite a los desarrolladores aprovechar las potentes capacidades de manipulación de PDF de IronPDF en aplicaciones de Node.js. Este paquete es particularmente útil para trabajar con documentos PDF, ofreciendo una gama de características que pueden ser útiles en muchas aplicaciones del mundo real, como el procesamiento de archivos, la generación de informes y más.

Características clave de IronPDF en Node.js

  1. Creación de PDF:

    IronPDF puede crear PDF a partir de diversas fuentes, incluyendo contenido HTML, imágenes o incluso texto sin formato. Esta característica es muy útil para aplicaciones web que necesitan generar informes, facturas u cualquier otro documento en formato PDF.

    IronPDF admite el estilo y formato de contenido HTML, lo que lo convierte en una excelente opción para convertir páginas web en documentos PDF bien estructurados.

  2. Edición de PDF:

    IronPDF te permite manipular archivos PDF existentes añadiendo texto, imágenes o anotaciones, y modificando el diseño. También puedes combinar varios PDF en uno, dividir un documento grande en partes más pequeñas o incluso reordenar las páginas dentro de un PDF.

    Estas funciones lo hacen ideal para aplicaciones que necesitan modificar dinámicamente archivos PDF, como los sistemas de gestión de documentos o aplicaciones que requieren la generación automática de documentos.

  3. Conversión a PDF:

    Una de las características destacadas de IronPDF es su capacidad para convertir PDFs en varios otros formatos. Por ejemplo, puede convertir documentos PDF en imágenes.(PNG, JPEG), formatos HTML y Word.

    Esta característica es particularmente útil cuando necesitas presentar el contenido de un PDF en diferentes formatos o crear vistas previas de imágenes de PDFs para interfaces de usuario.

  4. Extrayendo Texto e Imágenes:

    Si bien IronPDF no tiene una API REST directa para extraer imágenes sin procesar de un PDF, sí ofrece un método para renderizar páginas de PDF como imágenes.(como PNG o JPEG), que puede utilizarse como una forma indirecta de extraer contenido.

    Puedes renderizar cada página del PDF en una imagen, capturando efectivamente la representación visual del documento y guardándola para su uso o visualización posterior.

  5. Renderizar páginas como imágenes:

    IronPDF puede convertir páginas de PDF en imágenes de alta calidad. Por ejemplo, puedes convertir un PDF de varias páginas en una serie de PNGs, uno por cada página. Esto es particularmente útil cuando necesitas mostrar las páginas como miniaturas o en un formato basado en imágenes. Admite varios tipos de formatos de imagen.

  6. Seguridad y Cifrado:

    IronPDF admite trabajar con PDFs cifrados. Le permite abrir, descifrar y manipular documentos protegidos, lo cual es esencial para trabajar con documentos que requieren contraseñas u otras formas de protección.

  7. Compatibilidad multiplataforma:

    IronPDF es compatible con entornos tanto de Windows como de Linux, lo que lo convierte en una herramienta versátil para aplicaciones del lado del servidor. El contenedor de Node.js simplifica el proceso de integrar IronPDF en aplicaciones basadas en Node.js.

Paso 1: Configurar una aplicación de Node.js

Para empezar, configure la carpeta del proyecto de Node.js creando una carpeta en la máquina local y abriendo Visual Studio Code.

mkdir PdfImageExtractor
cd PdfImageExtractor
code .

Paso 2: Instalar los paquetes NPM de IronPDF

Instala el paquete de Node.js de IronPDF y su paquete de soporte según las máquinas Windows o Linux.

npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64

El paquete @ironsoftware/ironpdf-engine-windows-x64 es una versión específica para la plataforma de la biblioteca IronPDF, diseñada específicamente para sistemas Windows de 64 bits.

1. Binario específico de la plataforma para Windows (64 bits)

La biblioteca IronPDF tiene dependencias específicas de la plataforma. Para que Node.js funcione eficientemente con IronPDF, requiere binarios nativos que están adaptados para sistemas operativos y arquitecturas específicas. En este caso, el paquete @ironsoftware/ironpdf-engine-windows-x64 proporciona el motor nativo para entornos Windows 64-bit.

2. Rendimiento Optimizado

Al utilizar este paquete específico para Windows, asegura que la biblioteca IronPDF funcione de manera óptima en sistemas basados en Windows. Garantiza que todas las dependencias nativas, como las relacionadas con la representación y manipulación de PDF, sean compatibles y funcionen sin problemas en su máquina.

3. Simplificando la instalación

En lugar de gestionar y configurar manualmente los binarios necesarios para sistemas Windows de 64 bits, la instalación del paquete @ironsoftware/ironpdf-engine-windows-x64 automatiza este proceso. Esto ahorra tiempo y elimina posibles problemas de compatibilidad.

4. Compatibilidad Multiplataforma

IronPDF también es compatible con otras plataformas como macOS y Linux. Proporcionar paquetes específicos de la plataforma permite a los desarrolladores usar el binario adecuado para su sistema operativo, mejorando la estabilidad y fiabilidad general de la biblioteca.

5. Requerido para ciertas funciones

Si estás utilizando ciertas características de IronPDF(como convertir PDFs en imágenes o realizar manipulaciones complejas de documentos), se requiere el motor nativo. El paquete @ironsoftware/ironpdf-engine-windows-x64 incluye este motor específicamente para entornos basados en Windows.

Paso 3: Prepare un PDF para la extracción

Ahora obtén el archivo PDF que necesita ser extraído. Copie la ruta para ser utilizada en la aplicación. Este artículo utiliza el siguiente archivo.

Cómo extraer imágenes de PDF en Node.js: Figura 1 - Archivo de muestra

Paso 4: Extraer imágenes del archivo PDF y guardar

Ahora utiliza el archivo en el paso anterior y escribe el siguiente fragmento de código en un archivo app.js en la carpeta del proyecto Node.js.

const fs = require('fs');
const { IronPdfGlobalConfig, PdfDocument } = require('@ironsoftware/ironpdf')
// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";
 (async () => {
    // Extracting Image and Text content from Pdf Documents
    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("ironPDF.pdf");
    // Get all text to put in a search index and log it
    const text = await pdf.extractText();
    console.log('All Text:'+text);
    // Get all Images
    const imagesBuffer = await pdf.extractRawImages();
    console.log('images count:'+imagesBuffer.length);
    fs.writeFileSync("./file1.jpg", imagesBuffer[0]);
   // this code can also be in rest api
})();
var msg = 'Complete!';
console.log(msg); //log complete in console
JAVASCRIPT

Ejecuta la aplicación:

node app.js

Código Explicación

Este ejemplo de fragmento de código demuestra cómo usar la biblioteca IronPDF en Node.js para extraer texto e imágenes.(Formato JPG)de un documento PDF.

  1. Configuración de Licencia: El IronPdfGlobalConfig se utiliza para establecer la clave de licencia para IronPDF, que es necesaria para usar las funciones de la biblioteca.

  2. Carga de PDF: El código carga un documento PDF(ironPDF.pdf)utilizando el PdfDocument.fromFile() método. Esto permite que el programa trabaje con el contenido del PDF.

  3. Extracción de Texto: El extractText()El método se utiliza para extraer todo el texto del PDF cargado. Este texto se puede usar para tareas como indexar o buscar dentro del documento.

  4. Extracción de Imágenes: La función extractRawImages()El método se utiliza para extraer imágenes sin procesar del PDF. Estas imágenes se devuelven como un búfer, que se puede guardar o procesar más.

  5. Guardar imágenes: Las imágenes extraídas se guardan en el sistema de archivos local como archivos JPG utilizando fs.writeFileSync de Node.() método.

  6. Resultado Final: Una vez que se completa la extracción, el programa imprime el texto extraído y el número de imágenes extraídas, seguido de guardar la primera imagen.

    El código demuestra cómo interactuar con archivos PDF utilizando IronPDF para extraer contenido y procesarlo dentro de un entorno Node.js.

Salida

Cómo extraer imágenes de PDF en Node.js: Figura 2 - Salida de la consola

Cómo extraer imágenes de PDF en Node.js: Figura 3 - Salida de imagen

Licencia (prueba disponible)

IronPDF Node.js requiere una clave de licencia para funcionar. Los desarrolladores pueden obtener una licencia de prueba utilizando su correo electrónico desde el página de licencia. Una vez que proporcione el ID de correo electrónico, la clave se enviará al correo electrónico y podrá usarse en la aplicación como se indica a continuación.

const { IronPdfGlobalConfig} = require('@ironsoftware/ironpdf')
// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";
JAVASCRIPT

Conclusión

Usar IronPDF en Node.js para extraer imágenes de archivos PDF ofrece una manera robusta y eficiente de manejar contenido PDF. Aunque IronPDF no ofrece extracción directa de imágenes como algunas herramientas especializadas, permite renderizar páginas PDF como imágenes, lo cual es útil para crear representaciones visuales del documento.

La capacidad de la biblioteca para extraer tanto texto como imágenes de PDFs de manera sencilla la convierte en una herramienta valiosa para aplicaciones que necesitan procesar y manipular contenido PDF. Su integración con Node.js permite a los desarrolladores incorporar fácilmente la extracción de PDF en aplicaciones web o del lado del servidor.

En general, IronPDF es una solución poderosa para la manipulación de PDFs, ofreciendo flexibilidad para convertir, guardar y extraer imágenes de PDFs, lo que lo hace adecuado para una amplia variedad de casos de uso como la indexación de documentos, la generación de vistas previas y la extracción de contenido. Sin embargo, si tu enfoque se centra exclusivamente en extraer imágenes incrustadas de archivos PDF, explorar bibliotecas adicionales podría ofrecer soluciones más especializadas.

SIGUIENTE >
Cómo editar un archivo PDF en Node.js