jueves, mayo 23

¿Cómo convertir archivos PDF a texto?

0
195

Los archivos PDF son famosos en internet porque son uno de los formatos más utilizados para compartir información. Se usan principalmente porque son el resultado de un documento físico digitalizado y sobretodo porque evitan modificaciones posteriores de terceros

Si alguna vez se ha cruzado con estos archivos y ha querido usar la información y editarla para otro documento, a continuación podrá descubrir cómo puede extraer esos datos, paso a paso.

Antes de extraer la información debe saber qué tipo de PDF tiene. Un PDF ‘nativo’ es un documento exportado que resulta de un programa digital y es más amigable para extraer. Puede reconocerlo porque al pasar el cursor sobre contenido usted puede ‘subrayar’ la información.

Si por el contrario el PDF es en realidad el resultado de imágenes o documentos escaneados, se trata de un archivo menos ‘amigable’, con lo que deberá utilizar una herramienta de reconocimiento óptico de caracteres (OCR) y los resultados de la extracción pueden variar de acuerdo a la calidad de la imagen.

¿Cómo extraer información de un PDF nativo?
Para utilizar la información de un formato nativo puede optar por alguna de las siguientes opciones.

Google Drive: usted puede hacer uso de la plataforma de documentos compartidos de Google para convertir un PDF en un Google Doc.

Importe el documento que vaya a utilizar a su espacio de almacenamiento en Google Drive.
Una vez cargado, haga clic derecho para elegir la opción de Google Docs.
Aunque pueda tardar un poco más de lo esperado, lo que encontrará es que el documento se abrirá con posibilidad de edición sin inconvenientes.
Esta opción le permite detectar algunos formatos de texto como la cursiva, la negrita o el tipo de fuente, pero en caso de que el documento tenga tablas o esté en una orientación horizontal, lo resultados pueden no ser tan óptimos.
Cometdocs: En su versión gratuita usted podrá extraer información de archivos, incluyendo tablas de excel, con una gran precisión.

Primero debe registrarse en la plataforma, bien sea con su cuenta en redes sociales o creando una nueva. Luego, el sitio le dará un breve tutorial sobre cada una de sus funciones, pero para convertir el PDF lo que debe hacer es arrastrar el documento que va a utilizar y cargarlo desde su equipo o importarlo desde un Google Drive o un DropBox
Luego arrastre el documento a la opción ‘convert’ y elija uno de los formatos de transformación disponibles como Word, Powepoint o Excel.
Haga clic en ‘convertir’. Cuando termine el proceso la plataforma le dirigirá a la sección de almacenamiento donde usted podrá ver su PDF y el formato saliente. Haga clic en el documento resultante y descargue. Cometdocs le ofrece un máximo de cinco conversiones semanales en su versión gratuita.
Online2PDF: Una de las plataformas en línea más conocidas. Es tan simple como entrar en el sitio web y organizar sus documentos para convertirlos. Esta opción por ejemplo le permite al usuario visitante dividir o reorganizar páginas de su PDF, rotar orientación o hasta fusionar documentos.

Suba el archivo que desea transformar. Puede elegir varios archivos al mismo tiempo.
En la conversión estándar, usted obtendrá un archivo por todo el documento completo, pero también puede optar por la opción para exportar un archivo por cada página del PDF que está transformando.
Elija el formato de conversión como DOC, XLS, PPT, RTF o JPG
El tiempo de la conversión depende de qué tan pesado sea su archivo. Una vez se realice el proceso, el documento resultante se descargará automáticamente.
¿Cómo trabajar con los documentos escaneados?
Sin embargo, si definitivamente usted trata de extraer información de un PDF que resulta de un documento escaneado no hay mucho más que hacer que confiar en el reconocimiento óptico de las imágenes (OCR).

Esto ocurre porque en vez de caracteres, los programas van a tener que descifrar y reconocer píxeles para adivinar el contenido. Algunas opciones, por supuesto tienen un muy buen sistema de OCR y permiten una extracción exitosa. Factores como la calidad de la imagen, si el documento está o no con suficiente nitidez y hasta la cantidad de luz pueden afectar el resultado.

Para utilizar la información de un documento no nativo puede optar por alguna de las siguientes opciones.

Zamzar: Esta opción puede abrir en Chrome, Firefox y Safari. Se trata de un OCR capaz de convertir un máximo de 10 archivos.

Ingrese al sitio de la herramienta y elija el archivo que desea analizar.
Selecciones el formato de salida
Entregue una dirección de correo electrónico para recibir el enlace al archivo final. Dicho enlace permanece activo solo durante un día.
OnlineOCR: Usted podrá optar por generar una cuenta gratuita para ampliar sus opciones de extracción. Para ayudar al sistema, es recomendable indicar el idioma del documento en el que va a trabajar.

Agregue el documento con el que va a trabajar e indique un formato de salida. En este caso, la versión más sencilla solo permite exportar un word, un excel o un texto plano.
Especifique si desea extraer el documento completo o solo algunas páginas. Si por el contrario, desea fusionar varios documentos puede elegir la opción para combinar archivos en un multipágina.
La aplicación procesará la solicitud según el peso de los archivos a trabajar. Una vez esté completo, automáticamente le llevará a una nueva página con el enlace de descarga.

Fuente: El Tiempo

TagsPDF

Leave a reply