Categorías
Artículos

Seeing AI, aplicación multifunción con diversas utilidades de reconocimiento de imagen y OCR

Entrada actualizada a la versión 5.0, que incorpora la función “Navegación interior”, la cual nos permite grabar rutas en el interior de edificios para poder recorrer posteriormente o incluso compartir con otros usuarios.

 

En SucDePoma no podía faltar un tutorial acerca de una de las aplicaciones gratuitas más completas que podemos instalar actualmente en nuestros iPhone e iPad. Con hasta un total de 12 utilidades que emplean todo el potencial de la Inteligencia Artificial, Seeing AI es toda una “navaja suiza” del reconocimiento de imagen y OCR. Sin duda, Microsoft, la empresa que la ha desarrollado, ha creado y puesto a nuestro alcance una estupenda y más que útil herramienta para que las personas ciegas y con baja visión podamos llegar a ser un poco más autosuficientes en el día a día. A mi parecer, se trata de una de las apps “imprescindibles” que no pueden faltar en nuestros dispositivos. Así que pasemos a ver qué es lo que nos ofrece y cómo funciona.

 

Instalación de Seeing AI

Esta aplicación se puede descargar desde aquí. Una vez instalada, la primera vez que la abrimos nos pide permiso para emplear la cámara, seguidamente nos muestra un tutorial con diversas páginas donde se nos describe algunas de sus funciones y finalmente, se nos solicita que marquemos una casilla para aceptar los términos de uso de la aplicación. Tras marcarla, ya podemos pulsar el botón “Empezar”.

Ahora se nos muestra la descripción del primero de los canales ofrecidos por esta aplicación, “Texto breve” (aclarar que Microsoft denomina “canal” a cada una de las funciones de esta app). Una vez hayamos leído esta ayuda descriptiva, debemos pulsar el botón “Cerrar” que hay en la esquina superior izquierda de la pantalla.

Esto mismo ocurre la primera vez que seleccionamos cada uno de los restantes canales de la aplicación, por lo que tendremos que ir cerrando cada una de estas ayudas en sucesivas ocasiones. Pero esto tan sólo pasa la primera vez, luego ya no se muestran.

 

Descripción del interfaz

La distribución del interfaz de Seeing AI es muy simple. Hay tres zonas claramente diferenciadas:

  1. En la parte inferior de la pantalla nos encontramos con un ajustable desde el cual, al hacer flick hacia arriba o abajo con un dedo, podemos acceder a las distintas funciones o canales que nos ofrece esta app.
  2. En medio de la pantalla nos aparecen los botones disponibles para el funcionamiento de cada uno de los canales, por lo que esta zona muestra distintos elementos dependiendo del canal en el que nos encontramos.
  3. Y en la parte superior nos encontramos con los botones “Menú” y “Ayuda rápida”. Este segundo botón, ubicado en la esquina superior derecha de la pantalla, nos ofrece ayuda acerca del canal que tenemos seleccionado, mientras que el primero, ubicado en la esquina superior izquierda, nos permite acceder a diversos apartados, entre los que destacan los siguientes:

 

  • “Examinar fotos”. Para acceder a nuestra fototeca y obtener la descripción de las fotografías que tenemos ahí.
  • “Ayuda”. Desde aquí podemos leer un manual de ayuda sobre Seeing AI y sus funciones.
  • “Comentarios”. Al pulsar este botón se nos abre la aplicación mail para enviar un correo electrónico a los desarrolladores de Seeing AI. La dirección de destino ya nos la encontramos cumplimentada, por lo que tan sólo tenemos que escribir nuestras sugerencias o comentarios.
  • “Configuración”. Aquí dentro encontramos los botones “Divisa” (para seleccionar el tipo de divisa que queremos emplear en el canal de reconocimiento de billetes), “Configurar accesos directos de Siri” (esto lo veremos con detenimiento más adelante, pero es algo que nos permite abrir canales específicos de esta aplicación por medio de Siri), “Configurar accesos directos de Haptic Touch” (para seleccionar los canales a los que deseamos acceder desde el icono de Seeing AI del escritorio cuando desplegamos su menú contextual), “Reordenar Canales” (para seleccionar que canales deseamos que se muestre en el interfaz de la aplicación, así como ordenar el orden en el que se encuentran), “Administrar la iluminación” (para que la aplicación ajuste de forma automática el flash de la cámara dependiendo de las condiciones de iluminación), “Seleccionar voz” (para seleccionar la voz con la que se leen los textos reconocidos en el canal “Documento” si los reproducimos con el botón “Reproducir”. También es la voz con la que las personas que no tienen activado VoiceOver escucharán el reconocimiento obtenido en los distintos canales), “Velocidad de voz” (un ajustable que nos permite seleccionar la velocidad de la voz elegida en el botón anterior), y finalmente “Mostrar fotos más recientes primero” (para que cuando accedamos a nuestra fototeca se muestren o no en primer lugar las fotos más recientes).

 

Funcionamiento de los canales.

 

Texto breve

Función que nos lee en voz alta y al instante el texto que enfocamos con la cámara trasera del móvil. Se trata de algo totalmente automático. No tenemos que pulsar ningún botón. La lectura empieza de forma inmediata y el reconocimiento no precisa de Internet, realizándose íntegramente en nuestro dispositivo.

La forma de emplear esto, es la misma que con cualquier otro OCR, colocando el documento en una superficie fija y enfocándolo con la cámara trasera del móvil a una distancia de unos 20 o 30 cm. Hay que tener muy presente que mientras la app está leyendo en voz alta, si Esta detecta una imagen más clara de lo que está enfocando en ese instante, puede empezar a leer de nuevo desde el principio, por lo que es muy importante mantener el móvil o más firme posible.

Con esta utilidad podemos reconocer todo tipo de textos de forma rápida, ya sean documentos, libros, carteles, cartas e incluso la pantalla del ordenador o la de electrodomésticos.

Al seleccionar este canal, tan sólo nos encontramos con dos botones en la parte media de la pantalla:

  • “Pausar anuncios”. Para detener y volver a activar el reconocimiento automático. Una vez presionado este botón, pasa a llamarse “Reanudar anuncios”.
  • “Reconociendo Spanish”. Desde aquí podemos seleccionar otro idioma en el caso de que precisemos reconocer textos en otra lengua.

 

Documento

Se trata de un OCR clásico que ya sí que precisa de que realicemos una captura de pantalla, además, el reconocimiento se hace a través de Internet.

Este canal tan sólo presenta dos botones:

  • “Hacer foto”. En principio no hace falta presionar este botón, pues la captura se realiza de forma automática, pero está presente por si deseamos hacerla manualmente.
  • “Pausar anuncios”. La aplicación nos guía verbalmente a la hora de enfocar el documento a escanear, pero si deseamos detener esa ayuda verbal, podemos pulsar este botón. Al pulsarlo pasa a mostrar el nombre “Reanudar anuncios”. Si estamos mucho rato sin enfocar nada, por ejemplo, con el móvil apoyado encima de la mesa, la app se pausa automáticamente. Al elevarlo, se reanuda el guiado verbal.

 

Lo bueno de este OCR, tal y como ya he adelantado antes, es que nos proporciona una serie de instrucciones verbales para guiarnos a la hora de capturar el documento. En cuanto todos sus bordes están visibles, la aplicación nos dice que no movamos la cámara, momento en el que la foto se dispara de forma automática.

Para realizar la captura, lo ideal es colocar la página a escanear en una superficie plana que ofrezca un buen contraste con respecto al documento, mantener el móvil próximo a éste, con la cámara trasera enfocándolo, y luego, poco a poco irlo alejando hacia arriba, retirándolo del documento y realizando los ajustes que nos va indicando la app, hasta que nos avisa de que ya nos tenemos que quedar quietos. En ese instante, la fotografía de la captura se dispara automáticamente, por lo que no hay que presionar ningún botón. Finalmente, se escucha una especie de musiquita que indica que el proceso se está realizando.

En cuanto el reconocimiento llega a su fin, se abre una nueva pantalla en la que nos encontramos el texto reconocido y una serie de botones en su parte inferior. “Reproducir/Pausa”, “Detener”, otros dos para aumentar y reducir el tamaño de la fuente, y finalmente otro para compartir el resultado del escaneo.

Si presionamos el botón de “Compartir”, se nos ofrece la posibilidad de compartir el texto como imagen o como texto. Es decir, como una foto o un texto que aparecerá tal cual por ejemplo en un mensaje de WhatsApp, aunque si la guardamos en una nube como Dropbox, se transforma en un archivo txt.

El texto reconocido se presenta con su formato original y lo podemos explorar por medio de VoiceOver, o reproducir con la voz que hayamos seleccionado en la configuración de Seeing AI. Esto último empleando los botones de reproducción ya mencionados anteriormente.

Para salir de aquí y volver a la pantalla principal, hay que presionar el botón “Atrás” que hay en la esquina superior izquierda.

 

Producto

Esta función, que tan sólo es compatible con iPhone 6 y superiores, permite reconocer códigos de barras para identificar el producto al cual pertenece. Eso sí, siempre y cuando se encuentre en la base de datos empleada por la aplicación.

El reconocimiento se realiza en tiempo real, y para facilitarnos la localización del código de barras, se nos guía por medio de unos bips acústicos. Tan sólo hay que ir girando el envase del producto delante de la cámara trasera de nuestro móvil. Cuanto más rápida e intensamente suenan los bips, significa que el código de barras está más cerca. Al detectarse y reconocerse el código, la app verbaliza el nombre del producto, y si hay más información disponible acerca de él, aparecerá el botón “Más información” (los datos se obtienen desde Internet).

En este canal tan sólo se muestra el botón “Pausar anuncios”, que nos permite detener/reactivar el escaneo del código de barras.

 

Persona

Esta utilidad nos permite examinar nuestro entorno para averiguar cuántas personas nos rodean, su proximidad y expresiones faciales. Si hemos enseñado a Seeing AI a reconocer a alguien, nos dirá su nombre en cuanto esté a la vista y sea reconocido. El reconocimiento de la identidad de la persona se realiza en tiempo real, sin realizar ninguna captura, pero si deseamos obtener su descripción, entonces ya sí que tenemos que realizar una fotografía.

También se nos indica en qué posición se encuentra la cara que se está detectando, lo cual es muy útil para tomar la foto. Tras tomarla, la aplicación realiza una valoración de las expresiones y las características físicas de la persona, realizando una estimación de su edad, sexo y emociones. Esto también se puede hacer desde la cámara frontal para hacernos un selfie y obtener nuestra propia descripción valorativa.

En este canal nos encontramos los siguientes botones:

  • “Hacer foto”. Para disparar la fotografía que nos permitirá obtener la valoración/descripción de alguien.
  • “Reconocimiento facial”. Al entrar aquí podemos enseñarle a la aplicación a identificar individuos concretos. De esta forma, cuando enfoquemos a alguien desde este canal, si ha sido guardado previamente, en vez de decir una persona, nos verbalizará su nombre. Para realizar este proceso, deberemos tomarle tres fotografías en distintos ángulos. Es recomendable pedirle a la propia persona que se realice las capturas. Por defecto está seleccionada la cámara frontal, pero se puede seleccionar la cámara trasera desde un botón que hay para tal efecto. Una vez se han tomado las tres fotografías, hay que asignarle el nombre. Si deseamos ver el listado de personas que tenemos guardadas, al entrar en este botón, hay que presionar el botón “Close” que hay en la esquina superior izquierda, de esta forma, accedemos a ese listado y aún botón “Agregar” que nos permite añadir a alguien más.
  • “Pausar anuncios”. Para detener/reactivar la identificación/detección de personas.
  • “Cambiar a cámara parte frontal”. Desde aquí podemos cambiar a la cámara frontal del móvil por si nos deseamos hacer un auto reconocimiento.

 

Divisa

Funcionalidad que nos permite saber en tiempo real el valor de un billete cuando lo colocamos frente a la cámara trasera del móvil. La identificación es inmediata, sin necesidad de tocar ningún botón y sin precisar de conexión a Internet. Eso sí, desde la propia aplicación advierten que no se distinguen los billetes reales de los falsos. Tampoco identifica monedas, tan sólo billetes de papel. Por cierto, esta función no funciona en iPhone con sistema operativo inferior a iOS 11.

En este canal tan sólo hay dos botones:

  • “Pausar anuncios”. Para detener/reactivar la identificación de los billetes.
  • “Reconociendo + el nombre de la divisa seleccionada”. Por si deseamos cambiar la divisa que se está reconociendo por la empleada en otro país.

 

Escena

Esta utilidad nos describe la escena que capturamos con la cámara trasera del móvil. Se trata de una descripción general, meramente orientativa. El reconocimiento se hace on Line, por lo que precisamos de conexión a Internet.

Una vez realizada la captura, aparte de encontrar la descripción de la imagen, podemos guardar la foto, compartirla o explorar la con el dedo.

En este canal tan sólo encontramos el botón “Hacer foto”, por medio del cual realizamos la captura. Al presionar este botón, se escucha un sonidito y tras ello se abre una nueva pantalla en la que encontramos lo siguiente:

  • “La descripción orientativa de lo que aparece en la escena capturada”.
  • “Guardar foto”. Para guardar la fotografía en nuestra fototeca.
  • “Compartir”. Para compartir la fotografía por otras aplicaciones como WhatsApp, mail… o guardarla en nubes como Dropbox, etc.
  • “Explorar la foto”. Al entrar aquí podemos deslizar el dedo por la pantalla para identificar y localizar los distintos objetos o personas que aparecen en la escena capturada. Eso sí es que se ha reconocido más de un elemento. Ideal para saber la localización espacial de todo lo que aparece en la fotografía. También se leen los textos que pueda haber en la imagen, a no ser que no lo queramos, en cuyo caso debemos presionar el botón “Ocultar bloques de textos” que aparece en esta pantalla de exploración. Para salir de aquí, hay que presionar el botón “Atrás”.

 

Mundo

Este canal ofrece distintas funciones dependiendo de si nuestro iPhone dispone o no de sensor LIDAR. Veamos ambos supuestos:

 

Funciones disponibles en el canal “Mundo” si nuestro iPhone tiene sensor LIDAR

En el caso de que nuestro móvil tenga este sensor, al seleccionar este canal la aplicación ya empieza automáticamente a captar por medio del LIDAR lo que estamos enfocando a través de la cámara trasera y se nos va informando de ello a través de voz, vibraciones hápticas y sonido espacial. Esto nos permite explorar el entorno que nos rodea e identificar objetos e incluso marcarlos para localizarlos posteriormente.

Comentar que las vibraciones hápticas nos permiten saber a qué distancia se encuentran los distintos elementos identificados y que la voz se percibe con sonido espacial 3D compatible con el seguimiento de la cabeza, por lo que esto segundo tan sólo se puede apreciar con auriculares que sean compatibles con el audio espacial de iOS, como los AirPods 3 y los AirPods Pro.

Desde el botón “Filtros” podemos filtrar el tipo de elementos de los que deseamos obtener la localización. Se puede seleccionar “Personas”, “Objetos” y “Sensor de proximidad” (esto último para obtener información de a qué distancia se encuentran los distintos elementos).

En el botón “Acciones” encontramos las siguientes funciones:

  • “Resumen espacial”. Esto Nos verbaliza los elementos que se han detectado en la exploración previa que hayamos llevado a cabo, realizándolo en forma de resumen en sonido espacial.
  • “Colocar señal”. Esta función nos permite marcar uno de los objetos detectados para poder encontrarlo entre el resto de los que haya en el entorno, guiándonos hacia él por medio de sonido y vibración háptica.
  • “Navegación interna”. Esto nos permite grabar rutas en el interior de edificios, las cuales podremos recorrer en futuras ocasiones e incluso compartir con otros usuarios (veremos su funcionamiento más adelante).
  • “Personas reconocibles”. Desde aquí podemos agregar personas que al ser captadas por la aplicación, serán reconocidas automáticamente con el nombre que les hayamos asignado previamente.

 

Funciones disponibles en el canal “Mundo” si nuestro iPhone no dispone de sensor LIDAR

Si nuestro dispositivo no tiene este sensor, al entrar en este canal tan sólo dispondremos de la funcionalidad “Navegación interna”, cuyo funcionamiento vamos a ver a continuación.

 

Función “Navegación Interna” disponible en el canal “Mundo”

Esta funcionalidad, que está disponible tanto si nuestro iPhone tiene o no sensor LIDAR, nos permite grabar una ruta en el interior de edificios desde un punto “A” a un punto “B” para poder recorrerla en un momento posterior. Rutas que incluso podemos compartir con otros usuarios de la aplicación.

De momento tan sólo se puede recorrer una ruta en el mismo sentido en el que se grabó, por lo que si deseamos poder recorrerla en el sentido inverso, habrá que grabarla en ambas direcciones, como si se tratase de dos rutas independientes.

Esta función emplea principalmente la Realidad Aumentada, por lo que tiene algunas limitaciones: tan sólo es fiable en interiores, pues necesita tener la proximidad de elementos verticales que permitan grabar la ruta, y también necesita que haya una buena iluminación, ni muy intensa ni muy baja. De hecho, en la propia aplicación se advierte que las condiciones ambientales pueden influir en la eficacia de liado, por lo que se recomienda no descuidar nuestras técnicas de movilidad y seguridad a la hora de desplazarnos.

Comentar que aquí también se puede disfrutar de sonido espacial con seguimiento de la cabeza para complementar el guiado de las rutas (tan sólo compatible con auriculares concretos como los AirPods 3 y los AirPods Pro). Esto significa que si usamos uno de estos auriculares compatibles Seeing AI puede reproducir audio espacial en relación con la dirección a la que estamos mirando, incluso si la cámara está orientada en otra dirección. Por cierto, para disfrutar de este sonido, deberemos Conceder permiso de seguimiento de la cabeza cuando la app nos lo solicite.

Al acceder a esta función, nos encontramos con el botón “Añadir” en la esquina superior derecha (para grabar una nueva ruta) y un listado con las rutas que hayamos podido grabar previamente. Éstas se nos muestran por proximidad en el caso de que hayamos dado permiso a la aplicación para usar la localización.

 

Cómo grabar una ruta

El proceso para grabar una ruta es sencillo. La aplicación nos va guiando en todo momento.

  1. Presionamos el botón “Añadir”. Se nos muestra una pantalla explicando cómo grabar el punto de partida de la ruta. Es importante seleccionar un punto de inicio que tenga características distintivas. Evitando las grandes superficies en blanco, los materiales reflectantes y los patrones de repetición.
  2. Pulsamos en “Continuar”.
  3. La aplicación nos da instrucciones verbales para que mostremos a la cámara trasera del móvil la zona que circunda el punto de partida de la ruta. Hay que digitalizar todas las direcciones, incluida la inclinación ligeramente hacia arriba y hacia abajo. Es como pintar una esfera con nosotros en el centro. Un porcentaje nos va avisando del proceso de la creación de este punto de partida.
  4. Al completarse el porcentaje de la creación del punto inicial, se nos pide que le pongamos un nombre descriptivo. También hay un cuadro de edición para poner una nota acerca de dónde se encuentra. Algo muy importante para poder retomarlo en un futuro, asegurándonos de hacerlo en el sitio correcto, sobre todo si transcurre mucho tiempo o si queremos compartir la ruta con otras personas.
  5. Presionamos “Continuar”.
  6. Ahora ya podemos empezar a caminar a lo largo de la ruta que deseamos grabar. Es importante tener el móvil vertical, lo más estable posible, con la cámara enfocando en la dirección en la que caminamos.
  7. Al llegar al punto final pulsamos el botón “Finalizar”.
  8. Finalmente se nos pide que le pongamos un nombre al punto de destino de la ruta, así como una nota descriptiva si lo deseamos. Tras ello, pulsamos “Guardar”.

 

Cómo recorrer una ruta previamente grabada
  1. Para iniciar una ruta, la buscamos en el listado, la presionamos y seleccionamos la opción “Seguir”.
  2. Un sonido similar a un zumbido nos indica la dirección que tenemos que seguir. Cuando éste está centrado, significa que estamos enfocados en la dirección correcta. Otro sonido más contundente nos indica cuando hay cambios de dirección.
  3. Al llegar se nos avisa con otro sonido.

 

Notas:

  • Si deseamos eliminar una ruta, nos situamos encima de su nombre, realizamos flicks hacia arriba o hacia abajo con un dedo y presionamos la opción “Eliminar”.
  • Al presionar el nombre de una ruta en el listado, además de poder seguirla, también se nos ofrece la posibilidad de compartirla con otros usuarios, así como la opción “Más”, la cual nos da algunos detalles como la distancia del recorrido.

 

Color

Función que identifica y verbaliza el color de los objetos, prendas de vestir o superficies que está enfocando la cámara trasera del móvil. El reconocimiento se produce en tiempo real, sin necesidad de presionar ningún botón y sin precisar conexión a Internet.

Comentar que tal y como ocurre con otras aplicaciones que proporcionan esta misma utilidad, la identificación correcta del color está supeditada a distintos factores como la iluminación o la presencia de sombras sobre la superficie que se está explorando.

En este canal tan sólo nos encontramos el botón para detener y reactivar los anuncios, de forma que podamos pausar la identificación.

 

Escritura a mano

OCR específico para reconocer escritura manuscrita. Precisa de conexión a Internet, y a diferencia de los otros tipos de OCR que ofrece esta aplicación, aquí sí que es preciso que el texto esté bien orientado, es decir, que la hoja no esté colocada hacia abajo. Además, la propia app nos advierte de que la precisión del reconocimiento puede variar en función del estilo de escritura a mano, el cual puede diferir considerablemente de una persona a otra.

Este canal tan sólo presenta un botón, “Hacer foto”, y a diferencia del canal “Documento”, no tiene guiado verbal para el enfoque y la captura no se realiza de forma automática (al menos de momento, pues se trata de un canal que está en fase beta y a lo mejor más adelante sí que presenta estas funciones).

Para realizar la captura, lo ideal es dejar ubicado ya en un inicio el foco de VoiceOver en el botón de “Hacer foto”, colocar la página a escanear en una superficie plana que ofrezca un buen contraste con respecto al documento, mantener el móvil próximo a éste, con la cámara trasera enfocando su parte central, y luego alejarlo hacia arriba unos 15 cm. A continuación presionamos el botón que dispara la captura de la imagen, para lo cual, como ya tendremos el foco de VoiceOver ubicado en él, basta con realizar un doble toque en medio de la pantalla. Eso sí, conviene hacer este gesto de forma suave, para no mover el móvil y que eso afecte a la captura del texto.

Tras escucharse la musiquita que indica que el proceso del reconocimiento se está realizando, se nos presenta el resultado del escaneo en una nueva pantalla en la que nos encontramos con el típico botón de “Cerrar” (para volver a la pantalla principal), el texto reconocido (el cual podemos explorar por medio de VoiceOver), y los dos botones descritos a continuación:

  • “Guardar foto”. Para guardar la captura realizada como una imagen en nuestra fototeca.
  • “Compartir”. Para enviar la imagen resultante del escaneo a otras aplicaciones. Aquí, a diferencia de lo que ocurre en el canal “Documento”, lo que se comparte es una imagen, sin dar la posibilidad de guardar o enviar el resultado como texto.

 

Así pues, tal y como está este canal ahora mismo, esta función nos permite saber el contenido de una hoja donde alguien ha escrito algo a mano. Lo cual ya es mucho. Pero lamentablemente, el resultado no se puede guardar como un texto accesible. Tampoco hay botones de reproducción para leernos el resultado. Asimismo, éste tampoco se puede seleccionar con comodidad por medio de VoiceOver para copiarlo y pegarlo en otro sitio, pues tan sólo se puede seleccionar línea a línea, y éstas son muy cortas. Esperemos que todos estos inconvenientes se solucionen en versiones posteriores, pues se trata de una función beta que aún puede mejorar.

 

Luz

Esta funcionalidad detecta fuentes luminosas. La app emite un tono que marca la intensidad de la luz detectada. Cuanto más agudo es el tono generado, más fuerte es la luz.

En este canal tan sólo nos encontramos el botón para detener y reactivar los anuncios, de forma que podamos pausar la detección lumínica.

 

Descripción de imágenes provenientes de otras aplicaciones

Esta utilidad no está presente en los canales propiamente dichos, pero se trata de algo muy útil y completo, pues nos ofrece tres tipos de reconocimiento simultáneo: descripción de la escena, descripción valorativa de la persona o personas que aparecen, y en el caso de que se detecte también algún texto, se le aplica un OCR.

A esta función se accede desde el botón “Compartir” presente en otras apps, seleccionando posteriormente la opción “Reconocer con Seeing AI”. De esta forma podemos obtener una descripción de las imágenes de nuestra fototeca, o de las que recibamos por ejemplo a través de WhatsApp, Telegram, Mail, Twitter etc.

Por ejemplo, para obtener la descripción de una fotografía recibida por WhatsApp, debemos situarnos encima de la foto, realizar flicks hacia abajo con un dedo hasta seleccionar y pulsar la opción “Reenviar”, luego presionar también el botón “Compartir” que hay en la esquina inferior derecha, y finalmente pulsar “Reconocer con Seeing AI”. Tras ello, se abre una nueva pantalla en la que, Tal y como ya os he avanzado antes, se nos ofrece una descripción somera de la escena, si hay alguna persona se realiza una descripción valorativa de sus expresiones y características físicas, y en el caso de que hubiera algún texto presente, también se nos muestra el resultado del reconocimiento OCR. Asimismo, está disponible el botón “Explorar la foto”, por si deseamos explorar con el dedo la imagen para hacernos una idea de la distribución espacial de los elementos localizados en ella.

En esta pantalla no aparece ningún botón que nos permita guardar o compartir el texto que se haya podido reconocer en una fotografía. No obstante, si nos interesa hacerlo, podemos conseguirlo empleando el fantástico y socorrido gesto de VoiceOver que nos permite copiar en el portapapeles lo último que se ha verbalizado. Los pasos para realizar estos serían los siguientes:

  1. Estando situados en la pantalla del resultado del reconocimiento, realizamos flicks hacia la derecha con un dedo hasta llegar al apartado del texto. Como VoiceOver lo verbaliza por completo de un tirón, nada más empezar a leerlo, realizamos cuatro toques con tres dedos en medio de la pantalla. No hace falta esperar a que VoiceOver termine su lectura para realizar el gesto.
  2. Ya tenemos copiado todo el texto en el portapapeles, de forma que ahora tan sólo tenemos que irnos a una aplicación de edición de texto como por ejemplo “Notas”, y abrir una nueva nota.
  3. Una vez estamos en el cuadro de edición de la nota, realizamos el gesto del rotor hasta la opción “Editar”, luego hacemos flicks hacia abajo con un dedo hasta la opción “Pegar”, y finalmente realizamos un doble toque con un dedo en medio de la pantalla para pegar el contenido del portapapeles.

 

He puesto el ejemplo de la aplicación “Notas”, pero puede servir cualquier otra. Incluso podemos compartir el texto por correo electrónico o WhatsApp, pegándolo en el cuadro de edición de un nuevo mail o mensaje de texto.

Por cierto, para salir de la pantalla en la que se nos presenta el reconocimiento de la fotografía, hay que presionar el botón “Cerrar” que hay en la parte inferior de la pantalla.

 

Cómo configurar los accesos directos o atajos de Siri con Seeing AI

Si entramos en el botón “Menú” de la esquina superior izquierda de la pantalla principal de esta aplicación, y posteriormente en “Configuración”, nos encontramos diversos botones entre los que se encuentra el de “Configurar accesos directos de Siri”. Pues bien, al entrar ahí, podemos seleccionar los canales que queremos activar a través de una orden verbal dirigida al asistente Siri, de forma que cuando la verbalicemos, se abra la aplicación ya directamente con esa función ya lista para ser empleada.

El proceso es bastante sencillo:

  1. Entramos en el canal al que le deseamos activar un acceso directo, accediendo de esta forma a la edición del atajo.
  2. En el cuadro de edición que se encuentra debajo de “Al decir”, podemos escribir la frase que deseamos emplear para dispararlo. Ya viene una por defecto, pero Podemos cambiarla por otra.
  3. Para añadirlo a Siri, pulsamos el botón “Añadir a Siri”.
  4. Automáticamente volvemos a la pantalla anterior, y vemos que el atajo ha quedado seleccionado. A partir de ahora, cuando invoquemos a Siri y le digamos la frase configurada, se abrirá automáticamente la aplicación Seeing AI con este canal listo para ser usado.
  5. Si deseamos desactivar o eliminar alguno de los accesos directos creados, basta con entrar en él, y pulsar el botón “Eliminar atajo” que hay en la parte inferior de la pantalla.
  6. Y si queremos cambiar la orden verbal de alguno de ellos, entramos en el deseado, modificamos la frase y finalmente pulsamos el botón “Guardar atajo”.

 

Los atajos o accesos directos que creemos desde aquí, también podemos encontrarlos en la aplicación “Atajos”, en la pestaña “Mis atajos”. Si le modificamos el nombre o lo eliminamos desde esta otra aplicación, el cambio se aplica automáticamente en ambos sitios.

 

Descarga Seeing AI desde AppStore.

 

Autor, Jaime Franco

 

4 respuestas a «Seeing AI, aplicación multifunción con diversas utilidades de reconocimiento de imagen y OCR»

Hola Jaime, Soy de Chile.
Saber cuando estará disponible esta app para sudamérica.
Atte.
Raúl Gutiérrez

Hola Raúl.
Desconozco cuando estará disponible Seeing AI en tu país, pero no creo que tarde mucho. Ya hace cuatro meses que se tradujo al español y me consta que está disponible en cuatro países de Latinoamérica: Argentina, México, Brasil y Jamaica. Así que imagino que no tardará en estarlo en el tuyo. Ciertamente, es curioso que esté tardando tanto en llegar a vuestras AppStore.
De todas formas, a continuación te comparto el correo electrónico de contacto que aparece en la propia aplicación, donde se pueden enviar comentarios y preguntas. Allí podrás plantearles tu inquietud. Por cierto, si obtienes respuesta, no dudes en compartirla con nosotros, pues seguro que hay más personas interesadas en el tema.
SeeingAI@Microsoft.com
Saludos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Información básica sobre protección de datos Ver más

  • Responsable: Grupo SucDePoma.
  • Finalidad:  Moderar los comentarios.
  • Legitimación:  Por consentimiento del interesado.
  • Destinatarios y encargados de tratamiento:  No se ceden o comunican datos a terceros para prestar este servicio.
  • Derechos: Acceder, rectificar y suprimir los datos.
  • Información Adicional: Puede consultar la información detallada en la Política de Privacidad.

Descubre más desde SucDePoma

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo

Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos. Contiene enlaces a sitios web de terceros con políticas de privacidad ajenas que podrás aceptar o no cuando accedas a ellos. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Ver
Privacidad