Seeing AI, aplicación multifunción con diversas utilidades de reconocimiento de imagen y OCR

Entrada actualizada a los cambios en el interfaz de la app que se han producido a partir de la versión 5.5.

En SucDePoma no podía faltar un tutorial acerca de una de las aplicaciones gratuitas más completas que podemos instalar actualmente en nuestros iPhone e iPad. Con una gran cantidad de utilidades que emplean todo el potencial de la Inteligencia Artificial, Seeing AI es toda una “navaja suiza” del reconocimiento de imagen y OCR. Sin duda, Microsoft, la empresa que la ha desarrollado, ha creado y puesto a nuestro alcance una estupenda y más que útil herramienta para que las personas ciegas y con baja visión podamos llegar a ser un poco más autosuficientes en el día a día. A mi parecer, se trata de una de las apps “imprescindibles” que no pueden faltar en nuestros dispositivos. Así que pasemos a ver qué es lo que nos ofrece y cómo funciona.

Instalación de Seeing AI

Esta aplicación se puede descargar desde aquí. Una vez instalada, la primera vez que la abrimos nos pide permiso para emplear la cámara, seguidamente nos muestra un tutorial con diversas páginas donde se nos describe algunas de sus funciones y finalmente, se nos solicita que marquemos una casilla para aceptar los términos de uso de la aplicación. Tras marcarla, ya podemos pulsar el botón “Empezar”.

Ahora se nos muestra la descripción de la función “Lectura”. Una vez la hayamos leído debemos pulsar el botón “Cerrar” que hay en la esquina superior izquierda de la pantalla. Esto mismo ocurre la primera vez que seleccionemos cada una de las restantes funciones o canales de la aplicación, por lo que tendremos que ir cerrando cada una de estas ayudas en sucesivas ocasiones. Pero esto tan sólo pasa la primera vez, luego ya no se muestran (aclarar que Microsoft denomina “canal” a cada una de las funciones de esta app).

Descripción del interfaz

La distribución del interfaz de Seeing AI es muy simple. Hay tres zonas claramente diferenciadas:

En la parte inferior de la pantalla nos encontramos con tres pestañas: “Lectura”, “Descripción” y “Más”. Las dos primeras pestañas corresponden a una serie de funciones relacionadas con el título de la pestaña correspondiente, mientras que la tercera activa un selector ajustable que nos permite acceder al resto de canales de la app.
En medio de la pantalla nos aparecen los botones disponibles para el funcionamiento de cada uno de los canales, por lo que esta zona muestra distintos elementos dependiendo del canal en el que nos encontramos.
Y en la parte superior nos encontramos con los botones “Menú” y “Ayuda rápida”. Este segundo botón, ubicado en la esquina superior derecha de la pantalla, nos ofrece ayuda acerca del canal que tenemos seleccionado, mientras que el primero, ubicado en la esquina superior izquierda, nos permite acceder a diversos apartados, entre los que destacan los siguientes:

“Examinar fotos”. Para acceder a nuestra fototeca y obtener la descripción de las fotografías y videos que tenemos ahí.
“Ayuda”. Desde aquí podemos leer un manual de ayuda sobre Seeing AI y sus funciones.
“Comentarios”. Al pulsar este botón se nos abre la aplicación mail para enviar un correo electrónico a los desarrolladores de Seeing AI. La dirección de destino ya nos la encontramos cumplimentada, por lo que tan sólo tenemos que escribir nuestras sugerencias o comentarios.
“Configuración”. Aquí dentro encontramos los botones “Divisa” (para seleccionar el tipo de divisa que queremos emplear en el canal de reconocimiento de billetes), “Configurar accesos directos de Siri” (esto lo veremos con detenimiento más adelante, pero es algo que nos permite abrir canales específicos de esta aplicación por medio de Siri), “Configurar accesos directos de la pantalla principal” (para seleccionar los canales a los que deseamos acceder desde el icono de Seeing AI del escritorio cuando desplegamos su menú contextual), “Reordenar Canales” (para seleccionar que canales deseamos que se muestre en el interfaz de la aplicación, así como ordenar el orden en el que se encuentran), “Administrar la iluminación” (para que la aplicación ajuste de forma automática el flash de la cámara dependiendo de las condiciones de iluminación), “Seleccionar voz” (para seleccionar la voz con la que se leen los textos reconocidos en el canal “Documento” si los reproducimos con el botón “Reproducir”. También es la voz con la que las personas que no tienen activado VoiceOver escucharán el reconocimiento obtenido en los distintos canales), “Velocidad de voz” (un ajustable que nos permite seleccionar la velocidad de la voz elegida en el botón anterior), y finalmente “Mostrar fotos más recientes primero” (para que cuando accedamos a nuestra fototeca se muestren o no en primer lugar las fotos más recientes).

Y ahora pasemos a ver el funcionamiento de cada uno de los canales.

Pestaña “Lectura”

En esta pestaña nos encontramos con dos tipos de OCR que nos permite reconocer el texto que estemos enfocando para que la app nos lo lea en voz. Tenemos a nuestra disposición un OCR en tiempo real y un OCR clásico. Para el primero no es necesario realizar una captura de imagen, pero para el segundo sí. Para seleccionar uno u otro tipo basta con presionar el botón “Alineación del documento”. Veámoslo:

OCR en tiempo real

Si el botón “Alineación del documento” está desactivado, la app nos lee en voz alta y al instante el texto que estemos enfocando con la cámara trasera del móvil. Se trata de algo totalmente automático. No tenemos que pulsar ningún botón. La lectura empieza de forma inmediata y el reconocimiento no precisa de Internet, realizándose íntegramente en nuestro dispositivo.

La forma de emplear esto, es la misma que con cualquier otro OCR, colocando el documento en una superficie fija y enfocándolo con la cámara trasera del móvil a una distancia de unos 20 o 30 cm. Hay que tener muy presente que mientras la app está leyendo en voz alta, si Esta detecta una imagen más clara de lo que está enfocando en ese instante, puede empezar a leer de nuevo desde el principio, por lo que es muy importante mantener el móvil o más firme posible.

Con esta utilidad podemos reconocer todo tipo de textos de forma rápida, ya sean documentos, libros, carteles, cartas e incluso la pantalla del ordenador o la de electrodomésticos.

Debajo del botón “Alineación del documento” está el botón “Reconocimiento de español”. Desde aquí podemos seleccionar otro idioma en el caso que precisemos reconocer textos en otra lengua. Originalmente viene seleccionado inglés, por lo que hay que entrar para cambiar el idioma.

OCR clásico

Si el botón “Alineación del documento” está activado, pasamos a emplear el OCR que precisa realizar una captura de pantalla. Además, el reconocimiento se hace a través de Internet. Lo bueno es que en esta modalidad la aplicación nos guía verbalmente a la hora de enfocar el documento a escanear. No hace falta presionar el botón “Hacer foto”, pues la captura se realiza de forma automática en cuanto se detecta que el documento está bien enfocado. No obstante, ese botón está presente por si deseamos hacerla manualmente.

Para realizar la captura, lo ideal es colocar la página a escanear en una superficie plana que ofrezca un buen contraste con respecto al documento, mantener el móvil próximo a éste, con la cámara trasera enfocándolo, y luego, poco a poco irlo alejando hacia arriba, retirándolo del documento y realizando los ajustes que nos va indicando la app, hasta que nos avisa de que ya nos tenemos que quedar quietos. En ese instante, la fotografía de la captura se dispara automáticamente, por lo que no hay que presionar ningún botón. Finalmente, se escucha una especie de musiquita que indica que el proceso se está realizando.

En cuanto el reconocimiento llega a su fin, se abre una nueva pantalla en la que nos encontramos el texto reconocido y varios botones:

En la parte superior de la pantalla Están los botones “Agregar página” (para escanear más de una página e ir sumándolas al escaneado) y “Más”. Dentro de este segundo botón nos encontramos con los botones “Información de página” (para saber la orientación del documento al ser escaneado, por si queremos grapar los folios de papel y hacerlo correctamente sin que hayan páginas “boca abajo”), “Volver a examinar la página actual” (para repetir el escaneado), y “Eliminar página actual” y “Eliminar todas las páginas” (para eliminar una o todas las páginas escaneadas).
En la parte inferior están los botones “Reproducir/Pausa” y otro para compartir el resultado del escaneo. Si presionamos este segundo botón de “Compartir”, se nos ofrece la posibilidad de compartir el texto como imagen o como texto. Es decir, como una foto o un texto que aparecerá tal cual por ejemplo en un mensaje de WhatsApp, aunque si la guardamos en una nube como Dropbox, se transforma en un archivo txt.

El texto reconocido se presenta con su formato original y lo podemos explorar por medio de VoiceOver, o reproducir con la voz que hayamos seleccionado en la configuración de Seeing AI. Esto último empleando los botones de reproducción ya mencionados anteriormente.

Para salir de aquí y volver a la pantalla principal, hay que presionar el botón “Atrás” que hay en la esquina superior izquierda.

Pestaña “Descripción”

Esta pestaña nos permite obtener la descripción de lo que capturemos con la cámara trasera o delantera del móvil. El reconocimiento se hace online empleando Inteligencia Artificial, por lo que precisamos de conexión a Internet. En versiones anteriores de la app se podía formular alguna pregunta concreta acerca de algún detalle de la fotografía, pero en el momento de actualizar esta entrada esa función ha desaparecido. Puede que vuelva a aparecer, pues estaba en versión beta.

Nos encontramos con los siguientes botones:

“Examinar fotos”. Para reconocer fotografías que ya tengamos en la fototeca del móvil.
“Hacer foto”. Para realizar una fotografía a la escena de la cual queremos obtener su descripción. Si estamos enfocando a una persona, el sistema nos verbaliza la posición de la cara detectada. Muy útil para centrarla a la hora de tomar la foto. Es más, si hemos entrenado a la aplicación a reconocer a una persona determinada, su nombre se anuncia de forma automática en cuanto se detecta.
“Reconocimiento facial”. Desde aquí podemos entrenar al sistema para reconocer la cara de las personas que deseemos. Una vez lo hayamos entrenado, en cuanto enfoquemos a esa persona nos dirá su nombre en tiempo real. Un poco más abajo, en la descripción del canal “Persona”, explico cómo funciona el proceso de entrenamiento.
“Cambiar a cámara parte frontal”. Este botón nos permite alternar el uso entre las cámaras trasera y frontal del móvil.

Al presionar el botón “Hacer foto”. se escucha el sonido de tomar la foto y a continuación una musiquita que indica el proceso del reconocimiento, el cual es bastante rápido. Una vez finalizado se abre una nueva pantalla en la que encontramos lo siguiente:

“La descripción de lo que aparece en la escena capturada”.
“Guardar foto”. Para guardar la fotografía en nuestra fototeca.
“Explorar la foto”. Al entrar aquí vuelve a escucharse la música del reconocimiento y a continuación nos dice cuántos elementos se han detectado. Pueden ser personas, objetos o incluso textos. El objetivo de esta función es poder ubicar todo ello en el espacio deslizando el dedo por la pantalla. Es decir, con la equivalencia de cómo se encuentran ubicados en el escenario real. Ideal para saber la localización espacial de todo lo que aparece en la fotografía. También se leen los textos que pueda haber en la imagen, a no ser que no lo queramos, en cuyo caso debemos presionar el botón “Ocultar bloques de textos” que aparece en esta pantalla de exploración. Para salir de aquí, hay que presionar el botón “Atrás”.
“Compartir”. Para compartir la fotografía por otras aplicaciones como WhatsApp, mail… o guardarla en nubes como Dropbox, etc.

Pestaña “Más”

Al presionar en esta pestaña se activa un selector ajustable que nos permite acceder al resto de canales de la app. Al presionarla queda seleccionada y para acceder a los canales propiamente dichos hay que realizar un flick hacia la derecha con un dedo, es decir, que el selector queda por debajo de las tres pestañas.

Desde este selector, realizando flicks hacia arriba o abajo con un dedo, podemos ir cambiando entre los canales. El orden en el que aparecen es configurable, por lo que igual os los encontraréis ordenados de forma distinta a cómo los tengo yo. Los canales son los siguientes:

Canal “Producto”

Esta función nos permite reconocer códigos de barras y códigos QR. Gracias a ello podemos identificar distintos productos o acceder a la información de los códigos QR (los códigos de barra se deben encontrar en la base de datos empleada por la aplicación).

El reconocimiento se realiza en tiempo real, y para facilitarnos la localización de los códigos, se nos guía por medio de unos bips acústicos. Tan sólo hay que ir girando el envase del producto delante de la cámara trasera de nuestro móvil. Cuanto más rápida e intensamente suenan los bips, significa que el código está más cerca. Al detectarse uno, la app verbaliza el nombre asociado e incluso permite acceder a su información a través de el botón “Más información” (los datos se obtienen desde Internet).

Canal “Persona”

Esta utilidad nos permite examinar nuestro entorno para averiguar cuántas personas nos rodean, su proximidad y expresiones faciales. Si hemos enseñado a Seeing AI a reconocer a alguien, nos dirá su nombre en cuanto esté a la vista y sea reconocido. El reconocimiento de la identidad de la persona se realiza en tiempo real, sin realizar ninguna captura, pero si deseamos obtener su descripción, entonces ya sí que tenemos que realizar una fotografía.

También se nos indica en qué posición se encuentra la cara que se está detectando, lo cual es muy útil para tomar la foto. Tras tomarla, la aplicación realiza una valoración de las expresiones y las características físicas de la persona, realizando una estimación de su edad, sexo y emociones. Esto también se puede hacer desde la cámara frontal para hacernos un selfie y obtener nuestra propia descripción valorativa.

En este canal nos encontramos los siguientes botones:

“Hacer foto”. Para disparar la fotografía que nos permitirá obtener la valoración/descripción de alguien.
“Reconocimiento facial”. Al entrar aquí podemos enseñarle a la aplicación a identificar individuos concretos. De esta forma, cuando enfoquemos a alguien desde este canal, si ha sido guardado previamente, en vez de decir una persona, nos verbalizará su nombre. Para realizar este proceso, deberemos tomarle tres fotografías en distintos ángulos. Es recomendable pedirle a la propia persona que se realice las capturas. Por defecto está seleccionada la cámara frontal, pero se puede seleccionar la cámara trasera desde un botón que hay para tal efecto. Una vez se han tomado las tres fotografías, hay que asignarle el nombre. Si deseamos ver el listado de personas que tenemos guardadas, al entrar en este botón, hay que presionar el botón “Close” que hay en la esquina superior izquierda, de esta forma, accedemos a ese listado y aún botón “Agregar” que nos permite añadir a alguien más.
“Cambiar a cámara parte frontal”. Desde aquí podemos cambiar a la cámara frontal del móvil por si nos deseamos hacer un auto reconocimiento.

Canal “Divisa”

Funcionalidad que nos permite saber en tiempo real el valor de un billete cuando lo colocamos frente a la cámara trasera del móvil. La identificación es inmediata, sin necesidad de tocar ningún botón y sin precisar de conexión a Internet. Eso sí, desde la propia aplicación advierten que no se distinguen los billetes reales de los falsos. Tampoco identifica monedas, tan sólo billetes de papel.

En este canal tan sólo está el botón “Reconociendo + el nombre de la divisa seleccionada”. Por si deseamos cambiar la divisa que se está reconociendo por la utilizada en otro país.

Canal “Mundo”

Se trata de un canal que tan sólo está disponible en los iPhone que tienen sensor LIDAR, es decir, en los iPhone Pro y Pro Max, pero eso sí, a partir del 12 pro.

Nada más seleccionar este canal la aplicación ya empieza automáticamente a captar por medio de la cámara trasera y del LIDAR lo que estamos enfocando, de forma que Se nos informa de ello en tiempo real. Y lo hace a través de voz, vibraciones hápticas y sonido espacial. El objetivo de esta función es poder explorar el entorno que nos rodea e identificar objetos. Incluso podemos marcarlos para localizarlos posteriormente.

Comentar que las vibraciones hápticas que vamos percibiendo están diseñadas para informarnos de a qué distancia se encuentran los distintos elementos identificados. Además, La voz se percibe con sonido espacial 3D, informándonos de la ubicación real de los elementos por medio de su localización en el panorama estéreo. Ah, y esto segundo es Compatible con el seguimiento de la cabeza, pero claro, tan sólo si disponemos de unos auriculares compatibles con el audio espacial de iOS, como los AirPods 3 y los AirPods Pro.

Desde el botón “Filtros” podemos filtrar el tipo de elementos de los que deseamos obtener la localización. Se puede seleccionar “Personas”, “Objetos” y “Sensor de proximidad” (esto último para obtener información de a qué distancia se encuentran los distintos elementos).

En el botón “Acciones” encontramos las siguientes funciones:

“Resumen espacial”. Esto Nos verbaliza los elementos que se han detectado en la exploración previa que hayamos llevado a cabo, realizándolo en forma de resumen en sonido espacial.
“Colocar señal”. Esta función nos permite marcar uno de los objetos detectados para poder encontrarlo entre el resto de los que haya en el entorno, guiándonos hacia él por medio de sonido y vibración háptica.
“Personas reconocibles”. Desde aquí podemos agregar personas, que al ser captadas por la aplicación, serán reconocidas automáticamente con el nombre que les hayamos asignado previamente.

Nota: En anteriores versiones de la aplicación había una funcionalidad llamada “Navegación interna”, la cual nos permitía grabar rutas en el interior de edificios para poder ser recorridas en momentos posteriores. Incluso podían ser compartidas con otros usuarios. Lamentablemente, esta funcionalidad, que también estaba disponible para los móviles sin sensor Lidar, ha desaparecido. Pero bueno, igual vuelve a aparecer.

Canal “Encontrar mis cosas”

Esta función Tan sólo está disponible en iOS 14 o superior.

Sirve para encontrar objetos personales que previamente hemos introducido en la aplicación. Es decir, que Debemos entrenar a Seeimg AI a reconocer esos objetos. Puede ser muy útil para encontrar algo que se nos haya caído, por ejemplo, los auriculares, la cartera, o por si alguien nos ha cambiado de sitio nuestra mochila, la chaqueta, etc.

Para entrenar el reconocimiento de estos objetos, debemos tomar cuatro vídeos breves en los que la aplicación nos guía con indicaciones de audio. El proceso es muy sencillo y desde Microsoft se nos asegura que esos videos no salen de nuestro dispositivo, vamos que la privacidad se supone que está garantizada. También hay disponible un tutorial desde el cual podemos aprender a localizar los objetos, familiarizándonos con los sonidos que emite la aplicación en el proceso de búsqueda.

Al entrar en esta función, nos encontramos con los botones “Agregar” (para introducir los objetos que deseemos localizar posteriormente), “Ayuda rápida” (para acceder a la explicación de esta función y al tutorial que explica cómo localizar los objetos) y un listado con los objetos personales que hayamos introducido (realizando flicks hacia abajo con un dedo encima de estos, podemos eliminarlos del listado).

Cómo agregar un objeto

Presionamos el botón “Agregar”.
Nos encontramos en un cuadro de edición para ponerle un nombre al objeto. Lo escribimos o dictamos y presionamos el botón “Aceptar” que hay en la esquina inferior del teclado en pantalla.
Aparece un texto explicando que la aplicación necesitará ver el objeto en cuatro condiciones distintas, que hay que marcar la ubicación del objeto enfocándolo desde muy cerca (a unos 5 cm) y luego grabar un video alejándonos de él lentamente. Para iniciar el proceso hay que presionar el botón “Primeros pasos”.
El primer paso consiste en colocar el objeto en una mesa en la que no haya ningún otro objeto alrededor. Una vez hemos hecho eso, presionamos “Siguiente”.
Ahora hay que poner el teléfono con la cámara trasera enfocando el objeto desde muy cerca, a unos 5 cm, y pulsar el botón “Marcar ubicación”.
Se nos pide que nos alejemos del objeto muy lentamente. Se irán escuchando unos efectos sonoros con un porcentaje que indica el proceso de grabación del video. Al finalizar el proceso, se escucha un sonido característico de finalización. Tras ello, presionamos “Siguiente”.
El segundo paso consiste en voltear o girar el objeto para que se muestre un lado distinto. Tras hacerlo, presionamos “Siguiente”.
Se nos vuelve a solicitar que marquemos la ubicación igual que antes, es decir, poniendo la cámara del móvil a unos 5 cm. Luego, presionamos “Marcar ubicación”.
Se nos pide que nos alejemos lentamente. Se escuchan los efectos y el porcentaje del proceso.
El tercer paso consiste en poner el objeto en el suelo, en una silla o en cualquier lugar más cercano al suelo. Tras ponerlo, presionamos el botón “Siguiente”.
Marcamos la ubicación del objeto tal y como hemos hecho en los dos pasos anteriores.
El cuarto paso consiste en poner el objeto en un fondo distinto, por ejemplo, encima de un cojín. Luego presionamos “Siguiente”, marcamos la ubicación como en los pasos anteriores, y al finalizar, ya queda añadido al listado de los objetos.

Cómo buscar un objeto

Buscar un objeto es sencillo:

Nos desplazamos al listado de los objetos que hemos guardado y presionamos encima del nombre del que deseamos encontrar.
Presionamos el botón “Buscar”.
Se escucha una especie de “tictac” muy flojito que indica que el proceso de búsqueda se ha iniciado. Nos empezamos A desplazar por nuestro entorno, enfocando con la cámara trasera del móvil por todos lados. Hay que hacerlo lentamente. Si movemos el móvil demasiado rápido, sentiremos una vibración. Se nos guía con efectos sonoros, por lo que es recomendable escuchar el tutorial que hay en la ayuda rápida de esta función para aprender los sonidos. Un “Clin” indica que se ha localizado, por lo que tenemos que dirigirnos en esa dirección. Unos pitidos nos indican la cercanía al objeto. Éstos se van acelerando a medida que nos acercamos. Si el objeto sale de la vista de la cámara, los pitidos bajan de tono. La dirección y la distancia al objeto también se muestran en la parte superior de la pantalla (lamentablemente, la distancia se marca en pies).
Tras encontrar el objeto, se escucha un efecto sonoro característico y se nos notifica que la búsqueda se ha realizado de forma correcta. Para salir de esta pantalla y dejar de escuchar los efectos, presionamos el botón “Listo”. En cualquier momento podemos abandonar la búsqueda presionando el botón “cancelar” que hay en la parte superior de la pantalla.

Cómo renombrar un objeto

Cambiarle el nombre a un objeto es fácil. Lo Presionamos en la lista y luego pulsamos el botón “Cambiar nombre”. Aparece el teclado en pantalla para ponerle un nombre nuevo. Tras escribirlo o dictarlo, presionamos el botón “Aceptar” de la esquina inferior derecha del teclado en pantalla.

Canal “Color”

Función que identifica y verbaliza el color de los objetos, prendas de vestir o superficies que está enfocando la cámara trasera del móvil. El reconocimiento se produce en tiempo real, sin necesidad de presionar ningún botón y sin precisar conexión a Internet.

Comentar que tal y como ocurre con otras aplicaciones que proporcionan esta misma utilidad, la identificación correcta del color está supeditada a distintos factores como la iluminación o la presencia de sombras sobre la superficie que se está explorando.

Canal “Luz”

Esta funcionalidad detecta fuentes luminosas. La app emite un tono que marca la intensidad de la luz detectada. Cuanto más agudo es el tono generado, más intensa es la luz.

Descripción de imágenes y vídeos provenientes de otras aplicaciones

Esta utilidad no está presente en los canales propiamente dichos, pero se trata de algo muy útil y completo, pues al reconocer una imagen nos ofrece tres tipos de reconocimiento simultáneo: descripción de la escena, descripción valorativa de la persona o personas que aparecen, y en el caso de que se detecte también algún texto, se le aplica un OCR.

En cuanto al reconocimiento de video, comentar que en el momento de la elaboración de esta entrada tan sólo existe compatibilidad con el formato “MP4” y que hay un límite para reconocer 10 videos al día. Dependiendo de la longitud del archivo, el tiempo de procesamiento del reconocimiento puede ser bastante largo. Una vez finalizado el proceso, el video se empieza a reproducir mientras la voz seleccionada en la app nos va describiendo las distintas escenas que lo conforman, eso sí, pausándolo brevemente en los instantes en los que se verbaliza la descripción. En la pantalla podemos encontrar una barra de reproducción que nos permite reproducir/pausar el vídeo, así como saltar hacia delante o hacia atrás.

A esta función se accede desde el botón “Compartir” presente en otras apps, seleccionando posteriormente la opción “Reconocer con Seeing AI”. De esta forma podemos obtener una descripción de imágenes y vídeos desde la fototeca, o desde WhatsApp, Telegram, Mail, Twitter etc.

Por ejemplo, para obtener la descripción de una fotografía recibida por WhatsApp, debemos situarnos encima de la foto, realizar flicks hacia abajo con un dedo hasta seleccionar y pulsar la opción “Reenviar”, luego presionar también el botón “Compartir” que hay en la esquina inferior derecha, y finalmente pulsar “Reconocer con Seeing AI”. Tras ello, se abre una nueva pantalla en la que, Tal y como ya os he avanzado antes, se nos ofrece una descripción somera de la escena, si hay alguna persona se realiza una descripción valorativa de sus expresiones y características físicas, y en el caso de que hubiera algún texto presente, también se nos muestra el resultado del reconocimiento OCR. Asimismo, está disponible el botón “Explorar la foto”, por si deseamos explorar con el dedo la imagen para hacernos una idea de la distribución espacial de los elementos localizados en ella.

En esta pantalla no aparece ningún botón que nos permita guardar o compartir el texto que se haya podido reconocer en una fotografía. No obstante, si nos interesa hacerlo, podemos conseguirlo empleando el fantástico y socorrido gesto de VoiceOver que nos permite copiar en el portapapeles lo último que se ha verbalizado. Los pasos para realizar estos serían los siguientes:

Estando situados en la pantalla del resultado del reconocimiento, realizamos flicks hacia la derecha con un dedo hasta llegar al apartado del texto. Como VoiceOver lo verbaliza por completo de un tirón, nada más empezar a leerlo, realizamos cuatro toques con tres dedos en medio de la pantalla. No hace falta esperar a que VoiceOver termine su lectura para realizar el gesto.
Ya tenemos copiado todo el texto en el portapapeles, de forma que ahora tan sólo tenemos que irnos a una aplicación de edición de texto como por ejemplo “Notas”, y abrir una nueva nota.
Una vez estamos en el cuadro de edición de la nota, realizamos el gesto del rotor hasta la opción “Editar”, luego hacemos flicks hacia abajo con un dedo hasta la opción “Pegar”, y finalmente realizamos un doble toque con un dedo en medio de la pantalla para pegar el contenido del portapapeles.

He puesto el ejemplo de la aplicación “Notas”, pero puede servir cualquier otra. Incluso podemos compartir el texto por correo electrónico o WhatsApp, pegándolo en el cuadro de edición de un nuevo mail o mensaje de texto.

Por cierto, para salir de la pantalla en la que se nos presenta el reconocimiento de una imagen, hay que presionar el botón “Cerrar” que hay en la parte inferior de la pantalla.

Reconocimiento de documentos PDF, incluso de los inaccesibles por ser una imagen escaneada

Esta funcionalidad, al igual que la anterior, no se encuentra en los canales. Se accede a ella desde el menú compartir de otras aplicaciones, seleccionando “Reconocer con Seeing AI”, y nos permite acceder a la visualización de documentos PDF, tanto si son accesibles como inaccesibles por ser una imagen escaneada. En este último caso le aplica un OCR.

Una vez abierto el documento, podemos explorar lo por medio de VoiceOver, o reproducirlo con la voz del sistema empleando el botón “Reproducir” de la parte inferior de la pantalla.

Si el documento tiene más de una página, hay botones para navegar entre ellas y visualizar la que nos interesa.

También hay un botón “Compartir” para compartirlo en formato “TXT” o “HTML”. Si lo compartimos, por ejemplo por WhatsApp, se comparte el texto íntegro, mientras que si lo guardamos en una nube como Dropbox, se guarda en formato “TXT”.

Cómo configurar los accesos directos o atajos de Siri con Seeing AI

Si entramos en el botón “Menú” de la esquina superior izquierda de la pantalla principal de esta aplicación, y posteriormente en “Configuración”, nos encontramos diversos botones entre los que se encuentra el de “Configurar accesos directos de Siri”. Pues bien, al entrar ahí, podemos seleccionar los canales que queremos activar a través de una orden verbal dirigida al asistente Siri, de forma que cuando la verbalicemos, se abra la aplicación ya directamente con esa función ya lista para ser empleada.

El proceso es bastante sencillo:

Entramos en el canal al que le deseamos activar un acceso directo, accediendo de esta forma a la edición del atajo.
En el cuadro de edición que se encuentra debajo de “Al decir”, podemos escribir la frase que deseamos emplear para dispararlo. Ya viene una por defecto, pero Podemos cambiarla por otra.
Para añadirlo a Siri, pulsamos el botón “Añadir a Siri”.
Automáticamente volvemos a la pantalla anterior, y vemos que el atajo ha quedado seleccionado. A partir de ahora, cuando invoquemos a Siri y le digamos la frase configurada, se abrirá automáticamente la aplicación Seeing AI con este canal listo para ser usado.
Si deseamos desactivar o eliminar alguno de los accesos directos creados, basta con entrar en él, y pulsar el botón “Eliminar atajo” que hay en la parte inferior de la pantalla.
Y si queremos cambiar la orden verbal de alguno de ellos, entramos en el deseado, modificamos la frase y finalmente pulsamos el botón “Guardar atajo”.

Los atajos o accesos directos que creemos desde aquí, también podemos encontrarlos en la aplicación “Atajos”, en la pestaña “Mis atajos”. Si le modificamos el nombre o lo eliminamos desde esta otra aplicación, el cambio se aplica automáticamente en ambos sitios.

Enlaces

Descarga Seeing AI desde AppStore.

Autor, Jaime Franco

Relacionado

4 respuestas a «Seeing AI, aplicación multifunción con diversas utilidades de reconocimiento de imagen y OCR»

Hola Jaime, Soy de Chile.
Saber cuando estará disponible esta app para sudamérica.
Atte.
Raúl Gutiérrez

Hola Raúl.
Desconozco cuando estará disponible Seeing AI en tu país, pero no creo que tarde mucho. Ya hace cuatro meses que se tradujo al español y me consta que está disponible en cuatro países de Latinoamérica: Argentina, México, Brasil y Jamaica. Así que imagino que no tardará en estarlo en el tuyo. Ciertamente, es curioso que esté tardando tanto en llegar a vuestras AppStore.
De todas formas, a continuación te comparto el correo electrónico de contacto que aparece en la propia aplicación, donde se pueden enviar comentarios y preguntas. Allí podrás plantearles tu inquietud. Por cierto, si obtienes respuesta, no dudes en compartirla con nosotros, pues seguro que hay más personas interesadas en el tema.
SeeingAI@Microsoft.com
Saludos.

Hola Jaime, muy buena la descripción de este programa, muchas gracias por tus detalles.

Gracias, Lucia. 👌

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Comentario *

Nombre *

Correo electrónico *

Web

He leído y acepto la Política de Privacidad.

Información básica sobre protección de datos Ver más

Responsable: Grupo SucDePoma.
Finalidad: Moderar los comentarios.
Legitimación: Por consentimiento del interesado.
Destinatarios y encargados de tratamiento: No se ceden o comunican datos a terceros para prestar este servicio.
Derechos: Acceder, rectificar y suprimir los datos.
Información Adicional: Puede consultar la información detallada en la Política de Privacidad.

Recibir un correo electrónico con cada nueva entrada.

Current ye@r *