PDFpen logo PDFpen logo

Ayuda: OCR (Reconocimiento óptico de caracteres)

OCR OCR (Reconocimiento óptico de caracteres, con siglas en inglés) es el proceso de convertir una imagen de mapa de bits de texto (como un documento escaneado) en texto, el cual luego puede ser seleccionado, copiado y buscado por PDFpen y otros softwares de edición de texto.

Una vez que el texto ha sido reconocido por OCR, se coloca sobre una capa invisible sobre la imagen de texto que puedes ver. Al copiar el texto, éste se copia de la capa invisible de OCR.

La tecnología OCR no producirá una perfecta representación del texto de mapa de bits. Necesitarás revisar con cuidado y editar el texto resultante de OCR.

Utilizar OCR en PDFpen

  1. Abra un PDF escaneado en PDFpen.
  2. Se abrirá un cuadro de advertencia con el mensaje.  
    "Este documento parece ser escaneado. ¿Quisiera ejecutar un Reconocimiento Óptico de Caracteres (OCR)? OCR le facilitará a seleccionar el texto."
    Usted tiene tres opciones:
    • Cancelar:
      No se ejecutará un OCR.
    • Página OCR:
      OCR se ejecutará en la página actual.
    • Documento OCR:
      Si su documento tiene múltiples páginas, se ejecutará un OCR en todas las páginas.

    También podrá escoger las lenguas que son reconocidas por el OCR en Preferencias > OCR.

Al ejecutar el OCR, PDFpen aparecerá una barra de progresión. La operación puede durar algunos segundos o mucha más, dependiendo del tamaño y el contenido del documento escaneado.
Para ejecutar un OCR manualmente, escoja Editar > Página OCR. PDFpen comienza a ejecutar la operación OCR y aparecerá la barra de progresión.

Agrupar OCR (solo PDFpenPro)

Múltiples documentos OCR a la vez.

 

ocr files window

 

  1. Desde la barra del menú seleccione Archivo > Archivos OCR.
  2. En la ventana de archivos OCR, seleccione algunos documentos a OCR. Ya sea arrastrando y soltando los archivos dentro de esa ventana, o seleccionando Añadir PDF.
  3. Una vez que la lista de documentos está lista, haga clic en Realizar OCR.

Progreso

A medida que se completa cada archivo, su indicador de progreso se vuelve verde, lo que indica éxito. Amarillo o rojo significa que el OCR falló. Si aparece un círculo amarillo o un círculo rojo junto al nombre del archivo, intente nuevamente o envíe el documento al servicio de asistencia técnica para asistencia.

Los documentos llevarán a cabo el proceso OCR en segundo plano mientras usted continúa trabajando en PDFpen. Puede añadir más documentos a la lista cuando usted lo desee. Cada documento se guarda en su archivo original. /p>

El proceso OCR continúa incluso si cierra la ventana. Vuelva a abrir la ventana desde Archivo > Archivos OCR.

Una campanilla sonará una vez que toda la lista haya sido completada. Una lista de archivos completados permanece en la ventana. Elimine las entradas completadas con Eliminar.

Forzando OCR

PDFpen analiza el documento y si reconoce una imagen del tamaño de una página asume que el documento es un escaneado ofreciendo automaticamente a ejecutar un OCR. En algunos casos, es posible que PDFpen no reconozca un documento escaneado. En el menú Editar > Página OCR aparecerá en gris y no estará disponible para seleccionar.

  1. Mantenga pulsadas las teclas Comando y Opción a la vez.
  2. Escoja Editar > Página OCR del menú.

Seleccionar, copiar y corregir texto

Una vez que OCR ha terminado, el texto del documento se puede editar como cualquier otro texto. Para hacer visibles los cambios en el texto usa Corregir Texto, detalle en Trabajando con Texto.

Buscar Texto OCR

El texto generado por la operación OCR puede navegarse buscando como cualquier otro texto. Véase Buscar dentro de un PDF.

Consejos para mejorar los resultados de OCR de su documento:

  • La calidad del documento original afecta la calidad del rendimiento OCR. Originales nítidos con un texto claro producirán resultados mucho mejores que fotocopias arrugadas y descoloridas.
  • Coloque su documento original en el escáner lo más recto posible. Si su página escaneada no está recta usted puede eliminar distorsión, o enderezar, la imagen en PDFpen mediante el comando Editar > Ecualizar y Ajustar Imagen…
  • Aumenta el contraste de su documento escaneado de manera que el fondo sea lo más blanco posible. Usted puede ajustar el contraste de la imagen mediante Editar > Ecualizar y Ajustar Imagen…

PDFpen mira el documento y si encuentra una imagen del tamaño de una página entera, asumirá que el documento ha sido escaneado y automáticamente ofrecerá ejecutar OCR. En algunos casos, es posible que PDFpen no reconozca el documento escaneado. Bajo el menú Editar, la Página OCR permanecerá en gris y no disponible para su selección.

  1. Mantenga presionadas al mismo tiempo las teclas Comando y Opción.
  2. Seleccione Editar > Página OCR del menú.

Visualización de la capa de texto OCR

Una vez que el texto ha sido reconocido por el proceso de OCR, se coloca sobre una capa invisible sobre la imagen de texto que puedes ver. Al copiar el texto, se copia el texto de esta capa de texto invisible de OCR.

La tecnología OCR no producirá una perfecta representación del texto de mapa de bits. Necesitarás revisar con cuidado y editar el texto resultante de OCR. Al copiar y pegar el texto OCR, podrías notar algunas imprecisiones las cuales puedes corregir en ese momento.

Ver la capa de texto OCR:

  1. En el menú Ver elija Capa de OCR. Una capa de texto aparecerá sobre el documento, mostrando el texto OCR normalmente invisible.

Quitar capa OCR

Quitar por completo una capa OCR de un documento:

  1. Abrir el menu Editar y seleccione Limpiar capa OCR… (Cmd+Opt+O).

En este punto, puede rehacer el OCR, o usar el documento tal cual se encuentra. Si desea quitar el OCR de un documento para rehacerlo, puede usar Forzar OCR.

Editando la Capa de Texto OCR (solo PDFpenPro)

Hacer correcciones a la Capa de Texto OCR.

  1. En el menú Ver elige ver información de OCR. Una capa de texto aparecerá sobre el documento, mostrando el texto OCR que normalmente se encuentra nvisible.
  2. Selecciona algún texto y aparecerá una ventana emergente con opciones para editar el texto ya sea una palabra o línea a la vez.

Los cambios en la capa de texto OCR no son lo mismo que los cambios realizados mediante la Herramienta Corregir texto puesto que no se realizan cambios a la capa de texto OCR en el texto visible del documento.

También, al usar la Herramienta Corregir texto, está dirigido a corregir faltas de ortografía y errores pequeños, no para volver a formatear un documento completo. Para cambios de diseño y ediciones mayores, exporta el documento a formato Word, y haz dichos cambios en el procesador de palabras.

Diccionarios y OCR

Los diccionarios médicos y legales se incluyen en el motor OCR de PDFpen para mejorar la calidad de la salida de OCR para documentos escaneados al reconocer palabras específicas para las profesiones médicas y jurídicas Esta función está incorporada, por lo que no es necesario activar o ajustar ninguna configuración. Si usted elige editar el texto de OCR, las palabras mal escritas del texto seleccionado se mostrarán con un rojo ondulado y subrayado.




© 2003-2020 SmileOnMyMac, LLC dba Smile. All rights reserved.
PDFpen and PDFpenPro are registered trademarks of Smile. The Smile logo is a trademark of Smile.