Categorías
Artículos

Seeing AI, aplicación multifunción con diversas utilidades de reconocimiento de imagen y OCR

En SucDePoma no podía faltar un tutorial acerca de una de las aplicaciones gratuitas más completas que podemos instalar actualmente en nuestros iPhone e iPad. Con hasta un total de nueve utilidades que emplean todo el potencial de la Inteligencia Artificial, Seeing AI es toda una “navaja suiza” del reconocimiento de imagen y OCR. Sin duda, Microsoft, la empresa que la ha desarrollado, ha creado y puesto a nuestro alcance una estupenda y más que útil herramienta para que las personas ciegas y con baja visión podamos llegar a ser un poco más autosuficientes en el día a día. A mi parecer, se trata de una de las apps “imprescindibles” que no pueden faltar en nuestros dispositivos. Así que pasemos a ver qué es lo que nos ofrece y cómo funciona.

 

Instalación de Seeing AI

Esta aplicación se puede descargar desde aquí. Una vez instalada, la primera vez que la abrimos nos pide permiso para emplear la cámara, seguidamente nos muestra un tutorial con diversas páginas donde se nos describe algunas de sus funciones y finalmente, se nos solicita que marquemos una casilla para aceptar los términos de uso de la aplicación. Tras marcarla, ya podemos pulsar el botón “Empezar”.

Ahora se nos muestra la descripción del primero de los canales ofrecidos por esta aplicación, “Texto breve” (aclarar que Microsoft denomina “canal” a cada una de las funciones de esta app). Una vez hayamos leído esta ayuda descriptiva, debemos pulsar el botón “Cerrar” que hay en la esquina superior izquierda de la pantalla.

Esto mismo ocurre la primera vez que seleccionamos cada uno de los restantes canales de la aplicación, por lo que tendremos que ir cerrando cada una de estas ayudas en sucesivas ocasiones. Pero esto tan sólo pasa la primera vez, luego ya no se muestran.

 

Descripción del interfaz

La distribución del interfaz de Seeing AI es muy simple. Hay tres zonas claramente diferenciadas:

  1. En la parte inferior de la pantalla nos encontramos con un ajustable desde el cual, al hacer flick hacia arriba o abajo con un dedo, podemos acceder a las distintas funciones o canales que nos ofrece esta app.
  2. En el medio de la pantalla nos aparecen los botones disponibles para el funcionamiento de cada uno de los canales, por lo que esta zona muestra distintos elementos dependiendo del canal en el que nos encontramos.
  3. Y en la parte superior nos encontramos con los botones “Menú” y “Ayuda rápida”. Este segundo botón, ubicado en la esquina superior derecha de la pantalla, nos ofrece ayuda acerca del canal que tenemos seleccionado, mientras que el primero, ubicado en la esquina superior izquierda, nos permite acceder a diversos apartados, entre los que destacan los siguientes:

 

  • “Examinar fotos”. Para acceder a nuestra fototeca y obtener la descripción de las fotografías que tenemos ahí.
  • “Ayuda”. Desde aquí podemos leer un manual de ayuda sobre Seeing AI y sus funciones.
  • “Comentarios”. Al pulsar este botón se nos abre la aplicación mail para enviar un correo electrónico a los desarrolladores de Seeing AI. La dirección de destino ya nos la encontramos cumplimentada, por lo que tan sólo tenemos que escribir nuestras sugerencias o comentarios.
  • “Configuración”. Aquí dentro encontramos los botones “Divisa” (para seleccionar el tipo de divisa que queremos emplear en el canal de reconocimiento de billetes), “Configurar accesos directos de Siri” (esto lo veremos con detenimiento más adelante, pero es algo que nos permite abrir canales específicos de esta aplicación por medio de Siri), “Configurar accesos directos de Haptic Touch” (para seleccionar los canales a los que deseamos acceder desde el icono de Seeing AI del escritorio cuando desplegamos su menú contextual), “Reordenar Canales” (para seleccionar que canales deseamos que se muestre en el interfaz de la aplicación, así como ordenar el orden en el que se encuentran), “Administrar la iluminación” (para que la aplicación ajuste de forma automática el flash de la cámara dependiendo de las condiciones de iluminación), “Seleccionar voz” (para seleccionar la voz con la que se leen los textos reconocidos en el canal “Documento” si los reproducimos con el botón “Reproducir”. También es la voz con la que las personas que no tienen activado VoiceOver escucharán el reconocimiento obtenido en los distintos canales), “Velocidad de voz” (un ajustable que nos permite seleccionar la velocidad de la voz elegida en el botón anterior), y finalmente “Mostrar fotos más recientes primero” (para que cuando accedamos a nuestra fototeca se muestren o no en primer lugar las fotos más recientes).

 

Y ahora pasemos a ver el funcionamiento de cada uno de los canales.

 

Texto breve

Función que nos lee en voz alta y al instante el texto que enfocamos con la cámara trasera del móvil. Se trata de algo totalmente automático. No tenemos que pulsar ningún botón. La lectura empieza de forma inmediata y el reconocimiento no precisa de Internet, realizándose íntegramente en nuestro dispositivo.

La forma de emplear esto, es la misma que con cualquier otro OCR, colocando el documento en una superficie fija y enfocándolo con la cámara trasera del móvil a una distancia de unos 20 o 30 cm. Hay que tener muy presente que mientras la app está leyendo en voz alta, si Esta detecta una imagen más clara de lo que está enfocando en ese instante, puede empezar a leer de nuevo desde el principio, por lo que es muy importante mantener el móvil o más firme posible.

Con esta utilidad podemos reconocer todo tipo de textos de forma rápida, ya sean documentos, libros, carteles, cartas e incluso la pantalla del ordenador o la de electrodomésticos.

Al seleccionar este canal, tan sólo nos encontramos con dos botones en la parte media de la pantalla:

  • “Pausar anuncios”. Para detener y volver a activar el reconocimiento automático. Una vez presionado este botón, pasa a llamarse “Reanudar anuncios”.
  • “Reconociendo Spanish”. Desde aquí podemos seleccionar otro idioma en el caso de que precisemos reconocer textos en otra lengua.

 

Documento

Se trata de un OCR clásico que ya sí que precisa de que realicemos una captura de pantalla, además, el reconocimiento se hace a través de Internet.

Este canal tan sólo presenta dos botones:

  • “Hacer foto”. En principio no hace falta presionar este botón, pues la captura se realiza de forma automática, pero está presente por si deseamos hacerla manualmente.
  • “Pausar anuncios”. La aplicación nos guía verbalmente a la hora de enfocar el documento a escanear, pero si deseamos detener esa ayuda verbal, podemos pulsar este botón. Al pulsarlo pasa a mostrar el nombre “Reanudar anuncios”. Si estamos mucho rato sin enfocar nada, por ejemplo, con el móvil apoyado encima de la mesa, la app se pausa automáticamente. Al elevarlo, se reanuda el guiado verbal.

 

Lo bueno de este OCR, tal y como ya he adelantado antes, es que nos proporciona una serie de instrucciones verbales para guiarnos a la hora de capturar el documento. En cuanto todos sus bordes están visibles, la aplicación nos dice que no movamos la cámara, momento en el que la foto se dispara de forma automática.

Para realizar la captura, lo ideal es colocar la página a escanear en una superficie plana que ofrezca un buen contraste con respecto al documento, mantener el móvil próximo a éste, con la cámara trasera enfocándolo, y luego, poco a poco irlo alejando hacia arriba, retirándolo del documento y realizando los ajustes que nos va indicando la app, hasta que nos avisa de que ya nos tenemos que quedar quietos. En ese instante, la fotografía de la captura se dispara automáticamente, por lo que no hay que presionar ningún botón. Finalmente, se escucha una especie de musiquita que indica que el proceso se está realizando.

En cuanto el reconocimiento llega a su fin, se abre una nueva pantalla en la que nos encontramos el texto reconocido y una serie de botones en su parte inferior. “Reproducir/Pausa”, “Detener”, otros dos para aumentar y reducir el tamaño de la fuente, y finalmente otro para compartir el resultado del escaneo.

Si presionamos el botón de “Compartir”, se nos ofrece la posibilidad de compartir el texto como imagen o como texto. Es decir, como una foto o un texto que aparecerá tal cual por ejemplo en un mensaje de WhatsApp, aunque si la guardamos en una nube como Dropbox, se transforma en un archivo txt.

El texto reconocido se presenta con su formato original y lo podemos explorar por medio de VoiceOver, o reproducir con la voz que hayamos seleccionado en la configuración de Seeing AI. Esto último empleando los botones de reproducción ya mencionados anteriormente.

Para salir de aquí y volver a la pantalla principal, hay que presionar el botón “Atrás” que hay en la esquina superior izquierda.

 

Producto

Esta función, que tan sólo es compatible con iPhone 6 y superiores, permite reconocer códigos de barras para identificar el producto al cual pertenece. Eso sí, siempre y cuando se encuentre en la base de datos empleada por la aplicación.

El reconocimiento se realiza en tiempo real, y para facilitarnos la localización del código de barras, se nos guía por medio de unos bips acústicos. Tan sólo hay que ir girando el envase del producto delante de la cámara trasera de nuestro móvil. Cuanto más rápida e intensamente suenan los bips, significa que el código de barras está más cerca. Al detectarse y reconocerse el código, la app verbaliza el nombre del producto, y si hay más información disponible acerca de él, aparecerá el botón “Más información” (los datos se obtienen desde Internet).

En este canal tan sólo se muestra el botón “Pausar anuncios”, que nos permite detener/reactivar el escaneo del código de barras.

 

Persona

Esta utilidad nos permite examinar nuestro entorno para averiguar cuántas personas nos rodean, su proximidad y expresiones faciales. Si hemos enseñado a Seeing AI a reconocer a alguien, nos dirá su nombre en cuanto esté a la vista y sea reconocido. El reconocimiento de la identidad de la persona se realiza en tiempo real, sin realizar ninguna captura, pero si deseamos obtener su descripción, entonces ya sí que tenemos que realizar una fotografía.

También se nos indica en qué posición se encuentra la cara que se está detectando, lo cual es muy útil para tomar la foto. Tras tomarla, la aplicación realiza una valoración de las expresiones y las características físicas de la persona, realizando una estimación de su edad, sexo y emociones. Esto también se puede hacer desde la cámara frontal para hacernos un selfie y obtener nuestra propia descripción valorativa.

En este canal nos encontramos los siguientes botones:

  • “Hacer foto”. Para disparar la fotografía que nos permitirá obtener la valoración/descripción de alguien.
  • “Reconocimiento facial”. Al entrar aquí podemos enseñarle a la aplicación a identificar individuos concretos. De esta forma, cuando enfoquemos a alguien desde este canal, si ha sido guardado previamente, en vez de decir una persona, nos verbalizará su nombre. Para realizar este proceso, deberemos tomarle tres fotografías en distintos ángulos. Es recomendable pedirle a la propia persona que se realice las capturas. Por defecto está seleccionada la cámara frontal, pero se puede seleccionar la cámara trasera desde un botón que hay para tal efecto. Una vez se han tomado las tres fotografías, hay que asignarle el nombre. Si deseamos ver el listado de personas que tenemos guardadas, al entrar en este botón, hay que presionar el botón “Close” que hay en la esquina superior izquierda, de esta forma, accedemos a ese listado y aún botón “Agregar” que nos permite añadir a alguien más.
  • “Pausar anuncios”. Para detener/reactivar la identificación/detección de personas.
  • “Cambiar a cámara parte frontal”. Desde aquí podemos cambiar a la cámara frontal del móvil por si nos deseamos hacer un auto reconocimiento.

 

Divisa

Funcionalidad que nos permite saber en tiempo real el valor de un billete cuando lo colocamos frente a la cámara trasera del móvil. La identificación es inmediata, sin necesidad de tocar ningún botón y sin precisar de conexión a Internet. Eso sí, desde la propia aplicación advierten que no se distinguen los billetes reales de los falsos. Tampoco identifica monedas, tan sólo billetes de papel. Por cierto, esta función no funciona en iPhone con sistema operativo inferior a iOS 11.

En este canal tan sólo hay dos botones:

  • “Pausar anuncios”. Para detener/reactivar la identificación de los billetes.
  • “Reconociendo + el nombre de la divisa seleccionada”. Por si deseamos cambiar la divisa que se está reconociendo por la empleada en otro país.

 

Escena

Esta utilidad nos describe la escena que capturamos con la cámara trasera del móvil. Se trata de una descripción general, meramente orientativa. El reconocimiento se hace on Line, por lo que precisamos de conexión a Internet.

Una vez realizada la captura, aparte de encontrar la descripción de la imagen, podemos guardar la foto, compartirla o explorar la con el dedo.

En este canal tan sólo encontramos el botón “Hacer foto”, por medio del cual realizamos la captura. Al presionar este botón, se escucha un sonidito y tras ello se abre una nueva pantalla en la que encontramos lo siguiente:

  • “La descripción orientativa de lo que aparece en la escena capturada”.
  • “Guardar foto”. Para guardar la fotografía en nuestra fototeca.
  • “Compartir”. Para compartir la fotografía por otras aplicaciones como WhatsApp, mail… o guardarla en nubes como Dropbox, etc.
  • “Explorar la foto”. Al entrar aquí podemos deslizar el dedo por la pantalla para identificar y localizar los distintos objetos o personas que aparecen en la escena capturada. Eso sí es que se ha reconocido más de un elemento. Ideal para saber la localización espacial de todo lo que aparece en la fotografía. También se leen los textos que pueda haber en la imagen, a no ser que no lo queramos, en cuyo caso debemos presionar el botón “Ocultar bloques de textos” que aparece en esta pantalla de exploración. Para salir de aquí, hay que presionar el botón “Atrás”.

 

Color

Función que identifica y verbaliza el color de los objetos, prendas de vestir o superficies que está enfocando la cámara trasera del móvil. El reconocimiento se produce en tiempo real, sin necesidad de presionar ningún botón y sin precisar conexión a Internet.

Comentar que tal y como ocurre con otras aplicaciones que proporcionan esta misma utilidad, la identificación correcta del color está supeditada a distintos factores como la iluminación o la presencia de sombras sobre la superficie que se está explorando.

En este canal tan sólo nos encontramos el botón para detener y reactivar los anuncios, de forma que podamos pausar la identificación.

 

Luz

Esta funcionalidad detecta fuentes luminosas. La app emite un tono que marca la intensidad de la luz detectada. Cuanto más agudo es el tono generado, más fuerte es la luz.

En este canal tan sólo nos encontramos el botón para detener y reactivar los anuncios, de forma que podamos pausar la detección lumínica.

 

Descripción de imágenes provenientes de otras aplicaciones

Esta utilidad no está presente en los canales propiamente dichos, pero se trata de algo muy útil y completo, pues nos ofrece tres tipos de reconocimiento simultáneo: descripción de la escena, descripción valorativa de la persona o personas que aparecen, y en el caso de que se detecte también algún texto, se le aplica un OCR.

A esta función se accede desde el botón “Compartir” presente en otras apps, seleccionando posteriormente la opción “Reconocer con Seeing AI”. De esta forma podemos obtener una descripción de las imágenes de nuestra fototeca, o de las que recibamos por ejemplo a través de WhatsApp, Telegram, Mail, Twitter etc.

Por ejemplo, para obtener la descripción de una fotografía recibida por WhatsApp, debemos situarnos encima de la foto, realizar flicks hacia abajo con un dedo hasta la opción “Reenviar”, activarla realizando un doble toque con un dedo en medio de la pantalla, y luego activar también el botón “Compartir” que hay en la esquina inferior derecha. Tras ello, se abre una nueva pantalla en la que, Tal y como ya os he avanzado antes, se nos ofrece una descripción somera de la escena, si hay alguna persona se realiza una descripción valorativa de sus expresiones y características físicas, y en el caso de que hubiera algún texto presente, también se nos muestra el resultado del reconocimiento OCR. Asimismo, está disponible el botón “Explorar la foto”, por si deseamos explorar con el dedo la imagen para hacernos una idea de la distribución espacial de los elementos localizados en ella.

En esta pantalla no aparece ningún botón que nos permita guardar o compartir el texto que se haya podido reconocer en una fotografía. No obstante, si nos interesa hacerlo, podemos conseguirlo empleando el fantástico y socorrido gesto de VoiceOver que nos permite copiar en el portapapeles lo último que se ha verbalizado. Los pasos para realizar estos serían los siguientes:

  1. Estando situados en la pantalla del resultado del reconocimiento, realizamos flicks hacia la derecha con un dedo hasta llegar al apartado del texto. Como VoiceOver lo verbaliza por completo de un tirón, nada más empezar a leerlo, realizamos cuatro toques con tres dedos en medio de la pantalla. No hace falta esperar a que VoiceOver termine su lectura para realizar el gesto.
  2. Ya tenemos copiado todo el texto en el portapapeles, de forma que ahora tan sólo tenemos que irnos a una aplicación de edición de texto como por ejemplo “Notas”, y abrir una nueva nota.
  3. Una vez estamos en el cuadro de edición de la nota, realizamos el gesto del rotor hasta la opción “Editar”, luego hacemos flicks hacia abajo con un dedo hasta la opción “Pegar”, y finalmente realizamos un doble toque con un dedo en medio de la pantalla para pegar el contenido del portapapeles.

 

He puesto el ejemplo de la aplicación “Notas”, pero puede servir cualquier otra. Incluso podemos compartir el texto por correo electrónico o WhatsApp, pegándolo en el cuadro de edición de un nuevo mail o mensaje de texto.

Por cierto, para salir de la pantalla en la que se nos presenta el reconocimiento de la fotografía, hay que presionar el botón “Cerrar” que hay en la parte inferior de la pantalla.

 

Cómo configurar los accesos directos o atajos de Siri con Seeing AI

Si entramos en el botón “Menú” de la esquina superior izquierda de la pantalla principal de esta aplicación, y posteriormente en “Configuración”, nos encontramos diversos botones entre los que se encuentra el de “Configurar accesos directos de Siri”. Pues bien, al entrar ahí, podemos seleccionar los canales que queremos activar a través de una orden verbal dirigida al asistente Siri, de forma que cuando la verbalicemos, se abra la aplicación ya directamente con esa función ya lista para ser empleada.

El proceso es bastante sencillo:

  1. Entramos en el canal al que le deseamos activar un acceso directo, accediendo de esta forma a la edición del atajo.
  2. En el cuadro de edición que se encuentra debajo de “Al decir”, podemos escribir la frase que deseamos emplear para dispararlo. Ya viene una por defecto, pero Podemos cambiarla por otra.
  3. Para añadirlo a Siri, pulsamos el botón “Añadir a Siri”.
  4. Automáticamente volvemos a la pantalla anterior, y vemos que el atajo ha quedado seleccionado. A partir de ahora, cuando invoquemos a Siri y le digamos la frase configurada, se abrirá automáticamente la aplicación Seeing AI con este canal listo para ser usado.
  5. Si deseamos desactivar o eliminar alguno de los accesos directos creados, basta con entrar en él, y pulsar el botón “Eliminar atajo” que hay en la parte inferior de la pantalla.
  6. Y si queremos cambiar la orden verbal de alguno de ellos, entramos en el deseado, modificamos la frase y finalmente pulsamos el botón “Guardar atajo”.

 

Los atajos o accesos directos que creemos desde aquí, también podemos encontrarlos en la aplicación “Atajos”, en la pestaña “Mis atajos”. Si le modificamos el nombre o lo eliminamos desde esta otra aplicación, el cambio se aplica automáticamente en ambos sitios.

 

Descarga Seeing AI desde AppStore.

 

Autor, Jaime Franco

 

2 respuestas a «Seeing AI, aplicación multifunción con diversas utilidades de reconocimiento de imagen y OCR»

Hola Jaime, Soy de Chile.
Saber cuando estará disponible esta app para sudamérica.
Atte.
Raúl Gutiérrez

Hola Raúl.
Desconozco cuando estará disponible Seeing AI en tu país, pero no creo que tarde mucho. Ya hace cuatro meses que se tradujo al español y me consta que está disponible en cuatro países de Latinoamérica: Argentina, México, Brasil y Jamaica. Así que imagino que no tardará en estarlo en el tuyo. Ciertamente, es curioso que esté tardando tanto en llegar a vuestras AppStore.
De todas formas, a continuación te comparto el correo electrónico de contacto que aparece en la propia aplicación, donde se pueden enviar comentarios y preguntas. Allí podrás plantearles tu inquietud. Por cierto, si obtienes respuesta, no dudes en compartirla con nosotros, pues seguro que hay más personas interesadas en el tema.
SeeingAI@Microsoft.com
Saludos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Información básica sobre protección de datos Ver más

  • Responsable Grupo SucDePoma .
  • Finalidad Moderar los comentarios. Responder las consultas.
  • Legitimación Tu consentimiento.
  • Destinatarios Grupo SucDePoma.
  • Derechos Acceder, rectificar y suprimir los datos.
  • Información Adicional Puedes consultar la información detallada en la Política de Privacidad.