VDScan, eficaz OCR que también incluye descripción de imágenes por IA en local

Entrada actualizada a la versión 2.1, que incorpora la novedad de realizar descripciones de imágenes en local empleando inteligencia artificial.

Si estáis buscando una aplicación para vuestros iPhone o iPad que funcione en local, es decir, sin necesidad de conexión a Internet, y que tenga la doble función de reconocer el texto de todo tipo de documentos impresos de forma efectiva y sencilla, así como la de obtener la descripción de la escena que tenéis delante, y no os importa gastaros unos pocos euros en un pago único, la protagonista de este artículo es una muy buena elección.

¿Qué es VDScan?

Se trata de una aplicación OCR (reconocedor óptico de caracteres) que además permite obtener la descripción de escenas. Para ambas funciones Emplea la inteligencia artificial y lo hace en local, sin necesidad de conexión a internet. Así pues, gracias a esta app podemos realizar lo siguiente:

Reconocer por medio de la cámara trasera de nuestro dispositivo el texto impreso en cualquier superficie (libros, carteles, menús de restaurantes, tickets…), Así como el texto Que aparece en todo tipo de pantallas, como en la del ordenador cuando éste se cuelga. Incluso permite reconocer el texto que haya en fotografías, importándolas desde la propia aplicación o desde otras por medio de una extensión que se añade al menú “Compartir”.
Obtener la descripción de la escena que tengamos delante de nosotros, empleando igualmente la cámara trasera del teléfono. Para ello, podemos pulsar el botón que hay para tal efecto, o realizar un doble toque con dos dedos encima de dónde VoiceOver verbaliza “Vista previa de la imagen”. Incluso permite realizar preguntas acerca de lo que se ha detectado en la imagen. Para ello emplea un modelo de lenguaje visual de inteligencia artificial (tan sólo compatible a partir de iPhone 12 pro con iOS 17 o superior).

La aplicación sorprende por su rapidez, sencillez y efectividad. Esto último sobre todo en el OCR, pues la descripción de imágenes no es tan buena como en otras Apps como Be My Eyes. Al realizar todo en local, ocupa bastante espacio, concretamente 1,33 GB. Sus características principales son:

No requiere de conexión a Internet.
Como el reconocimiento se realiza en el propio dispositivo, la privacidad está garantizada.
La app integra un reproductor «texto a voz» que emplea las voces del sistema para reproducir el texto que se ha reconocido por el OCR
La descripción de escenas que se obtiene, también se verbaliza de forma automática por alguna de las voces del sistema que hayamos seleccionado.
Al enfocar los documentos que queremos escanear, la aplicación proporciona una ayuda sonora a modo de asistencia al enfoque. Gracias a ello, podemos saber si el documento se escaneará de forma adecuada, sin dejar alguna parte sin reconocerse. Además, podemos configurar la app para que ella misma dispare la cámara en cuanto considere que el documento está bien enfocado.
Permite guardar/compartir el texto resultante del escaneado.
Detección automática de los bordes de la página del documento por si deseamos recortar la imagen.
Detección automática de orientación de documentos y auto rotación.
Detección automática del idioma del reconocimiento.
Mejora automática de la imagen.
Modo por lotes para escanear varias páginas rápidamente.
Las palabras se resaltan en el texto mientras son verbalizadas.
No es gratuita, pero el precio es de un solo pago (sin suscripciones mensuales). En el momento de elaborar esta entrada cuesta 17,99 €.

Descripción del interfaz

Su apariencia es sencilla y funcional. En la pantalla principal encontramos los siguientes botones (están descritos en el orden en el que aparecen desde la esquina superior izquierda mientras vamos realizando flicks con un dedo hacia la derecha):

“Describir la imagen”. Al presionar aquí, la aplicación realiza una captura de imagen para iniciar el proceso de la descripción de la escena que estamos enfocando con la cámara trasera del móvil. Esta misma acción se puede hacer también si nos ponemos encima de dónde VoiceOver verbaliza “vista previa de la imagen” y realizamos un doble toque con dos dedos.
«Importar foto». Desde aquí podemos acceder a la fototeca de nuestro dispositivo, para reconocer el texto que aparezca en las fotografías.
“Menú”. Aquí es donde podemos acceder entre otras cosas, a la configuración de la aplicación para modificar algunos parámetros como por ejemplo el idioma, la ayuda sonora a la hora de enfocar los documentos (Scantone), la mejora de las imágenes, la lectura automática del texto escaneado tras ser reconocido, o que se muestre sin formato el texto resultante de la captura.
“Vista previa de la imagen”. Se trata de un recuadro en el que si tenemos resto visual podemos ver lo que estamos enfocando con la cámara trasera del móvil a modo de vista previa.
“Capturar imagen”. Este botón se encuentra en la parte central inferior de la pantalla y es el que dispara la cámara para realizar el reconocimiento OCR (siempre y cuando no tengamos activado la captura automática). Como ayuda al enfoque del documento a escanear, la aplicación emite un tono que nos indica cuando está bien enfocado y se detectan adecuadamente todos sus bordes (cuanto más fuerte es este tono, mejor).
“Detección de límites”. Función que detecta automáticamente los bordes de la página del documento en el caso de que deseemos recortar el texto.
“Linterna”. Para activar/desactivar la luz del flash si hay poca iluminación.
“Modo por lotes”. Función que se puede activar en caso de que queramos reconocer de forma rápida un documento con muchas páginas y deseemos que el resultado sea un único archivo.
“Captura automática”. Una función que dispara la captura de forma automática cuando el texto está correctamente enfocado y la cámara permanece estable.

Funcionamiento del OCR

Una vez abierta la app, enfocamos el documento con la cámara trasera del móvil a una distancia de unos 20 cm (dependiendo del tamaño de la página del documento esta distancia puede ser mayor o inferior). Algo que va muy bien es poner el móvil encima del documento e irlo alejando hacia arriba verticalmente hasta que el pitido nos indique que está bien enfocado, o hasta que la app realiza la captura automática. Y es que se emite un tono acústico para indicarnos que se detectan correctamente los bordes del documento y todo el texto. Si hemos colocado un documento por la cara en la que no hay letras, no escucharemos el tono, lo cual es genial, ya que así no desperdiciamos nuestro tiempo escaneando folios en blanco. Así pues, cuando el tono sea más intenso, podemos pulsar el botón que realiza la captura y que se encuentra en la parte inferior central de la pantalla (en el caso de que tengamos activada la captura automática, la propia aplicación dispara la cámara).
Tras realizarse el reconocimiento del texto, pasamos automáticamente a la pantalla de reproducción. Si hemos activado la auto reproducción en la configuración de la app, se nos empezará a leer automáticamente el texto. Si no, podemos realizar una doble pulsación con dos dedos en medio de la pantalla para escucharlo, o pulsar el botón “Reproducir”. Veamos qué botones nos encontramos en esta pantalla:

Lo primero que nos encontramos es un gran recuadro en el que está el texto que se ha reconocido. Más adelante hay un botón que nos permite cambiar entre la visualización del texto o de la imagen escaneada. Cuando se muestra el texto, nos podemos desplazar a este recuadro y leer lo por medio de VoiceOver seleccionando el nivel de navegación por medio del rotor (caracteres, palabras o líneas).
“Ver texto o imagen”. Éste es el botón que nos permite cambiar entre la visualización del texto o de la imagen. Basta con realizar dos toques con un dedo encima para cambiar entre una vista u otra.
“Configurar voz”. Si el texto se lee en un idioma distinto al español o deseamos cambiar la voz seleccionada, desde este botón podemos realizar los cambios necesarios.
“Reproducir”. Éste es el botón para iniciar la reproducción del texto reconocido. También es un ajustable que nos permite avanzar/retroceder por el texto que se está reproduciendo (esto se hace realizando flicks con un dedo hacia arriba y abajo). Para pausar la reproducción, podemos realizar una doble pulsación con dos dedos en medio de la pantalla, o presionar este mismo botón que ahora se llamará “Pausar”.
“Exportar”. Desde aquí accedemos a un menú que nos permite compartir la imagen como una foto, copiar el texto, o compartirlo.
“Descartar”. Si no queremos guardar la imagen o ésta no ha sido bien reconocida, debemos pulsar este botón.
“Mantener”. En el caso de que deseemos guardar la imagen, debemos pulsar este botón. Esto nos permite seguir escaneando otros documentos sin descartar el actual. Por lo tanto, se nos volverán a mostrar todos los botones de la pantalla principal inicial de la app, salvo que también se nos mostrará la página que hemos reconocido previamente y por lo tanto, esto nos permite escanear más documentos para poder guardar al final todos juntos en un único documento. Además, hay un par de botones nuevos: “Limpiar” (para borrar la página o páginas escaneadas y volver a la pantalla inicial de forma que podamos escanear un documento desde cero) y “Guardar” (para guardar el texto en la aplicación Voice Dream Reader, guardarlo/compartirlo como PDF o archivo de texto sin formato, o copiarlo. Si seleccionamos la opción de guardarlo como archivo PDF o texto, aparece una pantalla para ponerle un título, y tras presionar el botón “Aceptar” nos aparece la típica pantalla para guardar/compartir. Si seleccionamos la opción de copiar, esto nos copia el documento en el portapapeles para poder pegarlo directamente donde queramos).

Cómo capturar varias páginas de forma seguida en el “Modo por lotes”

Esta función nos puede resultar útil en el caso que deseemos reconocer varias páginas seguidas de un mismo documento extenso o de un libro. Todo ello de forma rápida y que el resultado sea un solo archivo. Para hacer esto, basta con presionar el botón “Modo por lotes” y luego presionar el botón “Capturar imagen” ante cada una de las páginas que deseemos escanear.

Lo malo de esta opción es que no podemos reproducir el texto de cada una de las páginas (para ello hay que emplear el sistema que hemos visto en el apartado anterior, en la opción “Capturar imagen” que aparece tras presionar “Mantener”), pero sí que podemos previsualizarlas/escucharlas con VoiceOver.

Con este modo la aplicación irá capturando de forma continua las páginas que le pongamos delante de la cámara. Esto es muy práctico y rápido sobre todo si tenemos activada la opción de captura automática, pues basta con ir sustituyendo y colocando encima de la mesa una página tras otra para que la aplicación las vaya capturando. Eso sí, al momento de cambiar una por otra, tenemos que tener la precaución de tapar el objetivo de la cámara para que no continúe capturando sin querer. Yo lo que hago, es que mientras coloco la siguiente página a escanear, me acerco el objetivo de la cámara al pecho para taparlo. Y si se trata de un libro, lo que hago es que voy tapando con un folio en blanco la página contraria a la que deseo escanear. Luego, paso el folio a la página ya capturada y muevo el móvil a la otra hoja.

Todas las páginas que se van capturando con esta función, se pueden previsualizar de forma individual en esta misma pantalla. Cuando guardemos el resultado, se creará un único documento con todas ellas juntas.

Funcionamiento de la descripción de escenas

El primer botón con el que nos encontramos en la pantalla principal de esta app es el de “Describir la imagen” y sirve pues eso, para realizar una captura de imagen a lo que estemos enfocando delante de nosotros con el objetivo de obtener una descripción de la escena. El reconocimiento se hace en local, sin necesidad de conexión a Internet. De momento, el resultado de la descripción deja bastante que desear. Hay otras aplicaciones que son más efectivas, como es el caso de Be My Eyes. Pero bueno, esperemos que con el tiempo mejore. Sin duda, el hecho de que funcione en local es toda una ventaja, pues la respuesta es muy rápida y podemos hacerla funcionar en sitios donde no hay buena cobertura.

Su funcionamiento es muy sencillo:

Para obtener la descripción de una escena basta con enfocar con la cámara trasera del móvil hacia el sitio del que queremos obtener la descripción y una de dos: o presionamos el botón “Describir la imagen”, o ubicamos el foco de VoiceOver en el gran espacio de la vista previa de la imagen y realizamos dos toques con dos dedos en medio de la pantalla.
De forma casi instantánea, en apenas un par de segundos, se nos empieza a verbalizar la descripción de la escena. Es muy rápido. En esta pantalla nos encontramos los siguientes botones:

Si deseamos detener la verbalización de la descripción, nos vamos al final de la pantalla y presionamos el botón “Parar”. Podemos ir a ese botón de forma directa si presionamos una vez con cuatro dedos en la parte inferior de la pantalla.
“Configurar voz”. Desde este botón podemos cambiar la voz con la que nos describe las imágenes o modificar su velocidad. Se nos abre una pantalla en la que podemos modificar la velocidad de habla por medio de un ajustable en el que hay que realizar flicks hacia arriba y hacia abajo con un dedo. También podemos seleccionar el idioma y la voz (las voces que se pueden seleccionar son las que tengamos instaladas en el sistema). Para salir de esta pantalla hay que presionar el botón “Cerrar” que hay en la parte superior.
En medio de la pantalla nos encontramos con la descripción de la imagen escrita. VoiceOver la verbaliza de una sola vez, por lo que si la queremos copiar para guardarla o compartirla, en cuanto empieza a hablar VoiceOver, podemos realizar cuatro toques con tres dedos en medio de la pantalla para copiarla en el portapapeles. De momento no hay botones específicos para realizar esas funciones, por lo que es la única posibilidad.
Un cuadro de edición donde pone “Describe esta imagen brevemente”. Aquí podemos escribir cualquier pregunta que deseemos formular acerca de la descripción obtenida. Eso sí, antes de escribir, tenemos que borrar el texto que hay escrito de “Describe esta imagen brevemente”. Si no, ese texto formará parte de lo que escribamos y volverá a describirnos toda la escena. Una vez hayamos escrito nuestra pregunta, para enviarla basta con presionar el botón “Send” que hay al final de la pantalla.
Para salir de la pantalla de la descripción de la escena hay que presionar el botón “Cerrar”.

Enlace para descargar la app

Descarga VDScan para iOS desde la AppStore.

Autor, Jaime Franco

Relacionado

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Comentario *

Nombre *

Correo electrónico *

Web

He leído y acepto la Política de Privacidad.

Información básica sobre protección de datos Ver más

Responsable: Grupo SucDePoma.
Finalidad: Moderar los comentarios.
Legitimación: Por consentimiento del interesado.
Destinatarios y encargados de tratamiento: No se ceden o comunican datos a terceros para prestar este servicio.
Derechos: Acceder, rectificar y suprimir los datos.
Información Adicional: Puede consultar la información detallada en la Política de Privacidad.

Recibir un correo electrónico con cada nueva entrada.

Current ye@r *