Categorías
Artículos

Seeing AI, aplicación multifunción con diversas utilidades de reconocimiento de imagen y OCR

Entrada actualizada a la versión 5.4, la cual incorpora dos novedades realmente significativas: el reconocimiento de documentos PDF, incluso de los que son inaccesibles por ser una imagen escaneada, y la descripción de videos en MP4.

 

En SucDePoma no podía faltar un tutorial acerca de una de las aplicaciones gratuitas más completas que podemos instalar actualmente en nuestros iPhone e iPad. Con hasta un total de 14 utilidades que emplean todo el potencial de la Inteligencia Artificial, Seeing AI es toda una “navaja suiza” del reconocimiento de imagen y OCR. Sin duda, Microsoft, la empresa que la ha desarrollado, ha creado y puesto a nuestro alcance una estupenda y más que útil herramienta para que las personas ciegas y con baja visión podamos llegar a ser un poco más autosuficientes en el día a día. A mi parecer, se trata de una de las apps “imprescindibles” que no pueden faltar en nuestros dispositivos. Así que pasemos a ver qué es lo que nos ofrece y cómo funciona.

 

 

Instalación de Seeing AI

Esta aplicación se puede descargar desde aquí. Una vez instalada, la primera vez que la abrimos nos pide permiso para emplear la cámara, seguidamente nos muestra un tutorial con diversas páginas donde se nos describe algunas de sus funciones y finalmente, se nos solicita que marquemos una casilla para aceptar los términos de uso de la aplicación. Tras marcarla, ya podemos pulsar el botón “Empezar”.

Ahora se nos muestra la descripción del primero de los canales ofrecidos por esta aplicación, “Texto breve” (aclarar que Microsoft denomina “canal” a cada una de las funciones de esta app). Una vez hayamos leído esta ayuda descriptiva, debemos pulsar el botón “Cerrar” que hay en la esquina superior izquierda de la pantalla.

Esto mismo ocurre la primera vez que seleccionamos cada uno de los restantes canales de la aplicación, por lo que tendremos que ir cerrando cada una de estas ayudas en sucesivas ocasiones. Pero esto tan sólo pasa la primera vez, luego ya no se muestran.

 

Descripción del interfaz

La distribución del interfaz de Seeing AI es muy simple. Hay tres zonas claramente diferenciadas:

  1. En la parte inferior de la pantalla nos encontramos con un ajustable desde el cual, al hacer flick hacia arriba o abajo con un dedo, podemos acceder a las distintas funciones o canales que nos ofrece esta app.
  2. En medio de la pantalla nos aparecen los botones disponibles para el funcionamiento de cada uno de los canales, por lo que esta zona muestra distintos elementos dependiendo del canal en el que nos encontramos.
  3. Y en la parte superior nos encontramos con los botones “Menú” y “Ayuda rápida”. Este segundo botón, ubicado en la esquina superior derecha de la pantalla, nos ofrece ayuda acerca del canal que tenemos seleccionado, mientras que el primero, ubicado en la esquina superior izquierda, nos permite acceder a diversos apartados, entre los que destacan los siguientes:

 

  • “Examinar fotos”. Para acceder a nuestra fototeca y obtener la descripción de las fotografías y vídeos que tenemos ahí.
  • “Ayuda”. Desde aquí podemos leer un manual de ayuda sobre Seeing AI y sus funciones.
  • “Comentarios”. Al pulsar este botón se nos abre la aplicación mail para enviar un correo electrónico a los desarrolladores de Seeing AI. La dirección de destino ya nos la encontramos cumplimentada, por lo que tan sólo tenemos que escribir nuestras sugerencias o comentarios.
  • “Configuración”. Aquí dentro encontramos los botones “Divisa” (para seleccionar el tipo de divisa que queremos emplear en el canal de reconocimiento de billetes), “Configurar accesos directos de Siri” (esto lo veremos con detenimiento más adelante, pero es algo que nos permite abrir canales específicos de esta aplicación por medio de Siri), “Configurar accesos directos de Haptic Touch” (para seleccionar los canales a los que deseamos acceder desde el icono de Seeing AI del escritorio cuando desplegamos su menú contextual), “Reordenar Canales” (para seleccionar que canales deseamos que se muestre en el interfaz de la aplicación, así como ordenar el orden en el que se encuentran), “Administrar la iluminación” (para que la aplicación ajuste de forma automática el flash de la cámara dependiendo de las condiciones de iluminación), “Seleccionar voz” (para seleccionar la voz con la que se leen los textos reconocidos en el canal “Documento” si los reproducimos con el botón “Reproducir”. También es la voz con la que las personas que no tienen activado VoiceOver escucharán el reconocimiento obtenido en los distintos canales), “Velocidad de voz” (un ajustable que nos permite seleccionar la velocidad de la voz elegida en el botón anterior), y finalmente “Mostrar fotos más recientes primero” (para que cuando accedamos a nuestra fototeca se muestren o no en primer lugar las fotos más recientes).

 

Y ahora pasemos a ver el funcionamiento de cada uno de los canales.

 

Canal “Texto breve”

Función que nos lee en voz alta y al instante el texto que enfocamos con la cámara trasera del móvil. Se trata de algo totalmente automático. No tenemos que pulsar ningún botón. La lectura empieza de forma inmediata y el reconocimiento no precisa de Internet, realizándose íntegramente en nuestro dispositivo.

La forma de emplear esto, es la misma que con cualquier otro OCR, colocando el documento en una superficie fija y enfocándolo con la cámara trasera del móvil a una distancia de unos 20 o 30 cm. Hay que tener muy presente que mientras la app está leyendo en voz alta, si Esta detecta una imagen más clara de lo que está enfocando en ese instante, puede empezar a leer de nuevo desde el principio, por lo que es muy importante mantener el móvil o más firme posible.

Con esta utilidad podemos reconocer todo tipo de textos de forma rápida, ya sean documentos, libros, carteles, cartas e incluso la pantalla del ordenador o la de electrodomésticos.

Al seleccionar este canal, tan sólo nos encontramos con el botón “Reconocimiento de español”. Desde aquí podemos seleccionar otro idioma en el caso de que precisemos reconocer textos en otra lengua. Originalmente viene seleccionado inglés, por lo que hay que entrar para cambiar el idioma.

 

Canal “Documento”

Se trata de un OCR clásico en el que ya debemos realizar una captura de pantalla, además, el reconocimiento se hace a través de Internet. Lo bueno es que la aplicación nos guía verbalmente a la hora de enfocar el documento a escanear.

Este canal tan sólo presenta el botón “Hacer foto”. En principio no hace falta presionarlo, pues la captura se realiza de forma automática en cuanto se detecta que el documento está bien enfocado, pero está presente por si deseamos hacerla manualmente.

Tal y como ya he comentado, se nos proporciona una serie de instrucciones verbales para guiarnos a la hora de capturar el documento. En cuanto todos sus bordes están visibles, la aplicación nos dice que no movamos la cámara, momento en el que la foto se dispara de forma automática.

Para realizar la captura, lo ideal es colocar la página a escanear en una superficie plana que ofrezca un buen contraste con respecto al documento, mantener el móvil próximo a éste, con la cámara trasera enfocándolo, y luego, poco a poco irlo alejando hacia arriba, retirándolo del documento y realizando los ajustes que nos va indicando la app, hasta que nos avisa de que ya nos tenemos que quedar quietos. En ese instante, la fotografía de la captura se dispara automáticamente, por lo que no hay que presionar ningún botón. Finalmente, se escucha una especie de musiquita que indica que el proceso se está realizando.

En cuanto el reconocimiento llega a su fin, se abre una nueva pantalla en la que nos encontramos el texto reconocido y varios botones:

 

  • En la parte superior de la pantalla Están los botones “Agregar página” (para escanear más de una página e ir sumándolas al escaneado) y “Más”. Dentro de este segundo botón nos encontramos con los botones “Información de página” (para saber la orientación del documento al ser escaneado, por si queremos grapar los folios de papel y hacerlo correctamente, sin que hayan páginas “boca abajo”), “Volver a examinar la página actual” (para repetir el escaneado), y “Eliminar página actual” y “Eliminar todas las páginas” (para eliminar una o todas las páginas escaneadas).
  • En la parte inferior están los botones “Reproducir/Pausa” y otro para compartir el resultado del escaneo. Si presionamos este segundo botón de “Compartir”, se nos ofrece la posibilidad de compartir el texto como imagen o como texto. Es decir, como una foto o un texto que aparecerá tal cual por ejemplo en un mensaje de WhatsApp, aunque si la guardamos en una nube como Dropbox, se transforma en un archivo txt.

 

El texto reconocido se presenta con su formato original y lo podemos explorar por medio de VoiceOver, o reproducir con la voz que hayamos seleccionado en la configuración de Seeing AI. Esto último empleando los botones de reproducción ya mencionados anteriormente.

Para salir de aquí y volver a la pantalla principal, hay que presionar el botón “Atrás” que hay en la esquina superior izquierda.

 

Canal “Producto”

Esta función, que tan sólo es compatible con iPhone 6 y superiores, nos permite reconocer códigos de barras y códigos QR. Gracias a ello podemos identificar distintos productos o acceder a la información de los códigos QR (los códigos de barra se deben encontrar en la base de datos empleada por la aplicación).

El reconocimiento se realiza en tiempo real, y para facilitarnos la localización de los códigos, se nos guía por medio de unos bips acústicos. Tan sólo hay que ir girando el envase del producto delante de la cámara trasera de nuestro móvil. Cuanto más rápida e intensamente suenan los bips, significa que el código está más cerca. Al detectarse uno, la app verbaliza el nombre asociado e incluso permite acceder a su información a través de el botón “Más información” (los datos se obtienen desde Internet).

 

Canal “Persona”

Esta utilidad nos permite examinar nuestro entorno para averiguar cuántas personas nos rodean, su proximidad y expresiones faciales. Si hemos enseñado a Seeing AI a reconocer a alguien, nos dirá su nombre en cuanto esté a la vista y sea reconocido. El reconocimiento de la identidad de la persona se realiza en tiempo real, sin realizar ninguna captura, pero si deseamos obtener su descripción, entonces ya sí que tenemos que realizar una fotografía.

También se nos indica en qué posición se encuentra la cara que se está detectando, lo cual es muy útil para tomar la foto. Tras tomarla, la aplicación realiza una valoración de las expresiones y las características físicas de la persona, realizando una estimación de su edad, sexo y emociones. Esto también se puede hacer desde la cámara frontal para hacernos un selfie y obtener nuestra propia descripción valorativa.

En este canal nos encontramos los siguientes botones:

  • “Hacer foto”. Para disparar la fotografía que nos permitirá obtener la valoración/descripción de alguien.
  • “Reconocimiento facial”. Al entrar aquí podemos enseñarle a la aplicación a identificar individuos concretos. De esta forma, cuando enfoquemos a alguien desde este canal, si ha sido guardado previamente, en vez de decir una persona, nos verbalizará su nombre. Para realizar este proceso, deberemos tomarle tres fotografías en distintos ángulos. Es recomendable pedirle a la propia persona que se realice las capturas. Por defecto está seleccionada la cámara frontal, pero se puede seleccionar la cámara trasera desde un botón que hay para tal efecto. Una vez se han tomado las tres fotografías, hay que asignarle el nombre. Si deseamos ver el listado de personas que tenemos guardadas, al entrar en este botón, hay que presionar el botón “Close” que hay en la esquina superior izquierda, de esta forma, accedemos a ese listado y aún botón “Agregar” que nos permite añadir a alguien más.
  • “Cambiar a cámara parte frontal”. Desde aquí podemos cambiar a la cámara frontal del móvil por si nos deseamos hacer un auto reconocimiento.

 

Canal “Divisa”

Funcionalidad que nos permite saber en tiempo real el valor de un billete cuando lo colocamos frente a la cámara trasera del móvil. La identificación es inmediata, sin necesidad de tocar ningún botón y sin precisar de conexión a Internet. Eso sí, desde la propia aplicación advierten que no se distinguen los billetes reales de los falsos. Tampoco identifica monedas, tan sólo billetes de papel. Por cierto, esta función no funciona en iPhone con sistema operativo inferior a iOS 11.

En este canal tan sólo está el botón “Reconociendo + el nombre de la divisa seleccionada”. Por si deseamos cambiar la divisa que se está reconociendo por la empleada en otro país.

 

Canal “Escena”

Esta utilidad nos describe la escena que capturamos con la cámara trasera del móvil. Se trata de una descripción general, meramente orientativa. No obstante, hay un botón llamado “Más información” desde el que podemos obtener una descripción mucho más completa por medio de la inteligencia artificial. El reconocimiento se hace on Line, por lo que precisamos de conexión a Internet.

En este canal tan sólo encontramos los botones “Hacer foto” y “Examinar fotos”. El primero para realizar la fotografía de la escena de la cual queremos obtener su descripción, y el segundo, para reconocer fotografías de la fototeca del móvil.

Al presionar el botón para realizar la fotografía se escucha el sonido de tomar la foto y una musiquita que indica el proceso de reconocimiento. El proceso es bastante rápido. Una vez finalizado se abre una nueva pantalla en la que encontramos lo siguiente:

 

  • “La descripción orientativa y corta de lo que aparece en la escena capturada”.
  • “Guardar foto”. Para guardar la fotografía en nuestra fototeca.
  • “Compartir”. Para compartir la fotografía por otras aplicaciones como WhatsApp, mail… o guardarla en nubes como Dropbox, etc.
  • “Explorar la foto”. Al entrar aquí podemos deslizar el dedo por la pantalla para identificar y localizar los distintos objetos o personas que aparecen en la escena capturada. Eso sí es que se ha reconocido más de un elemento. Ideal para saber la localización espacial de todo lo que aparece en la fotografía. Aquí ya se obtiene una descripción mucho más completa, obtenida gracias a la inteligencia artificial. También se leen los textos que pueda haber en la imagen, a no ser que no lo queramos, en cuyo caso debemos presionar el botón “Ocultar bloques de textos” que aparece en esta pantalla de exploración. Para salir de aquí, hay que presionar el botón “Atrás”.
  • “Mas información”. Al presionar este botón se nos ofrece una descripción muchísimo más completa realizada empleando inteligencia artificial. No hace falta volver a realizar la captura de la imagen. Se emplea la fotografía ya realizada, aunque eso sí, se inicia de nuevo un proceso de exploración que en esta ocasión tarda bastante más tiempo. Dentro de la página en la que se muestra esta descripción hay un botón para compartir la descripción obtenida.

 

Canal “Mundo”

Este canal ofrece distintas funciones dependiendo de si nuestro iPhone dispone o no de sensor LIDAR. Veámoslas:

Exploración del espacio empleando el sensor LIDAR

En el caso de que nuestro móvil tenga sensor LIDAR, al seleccionar este canal la aplicación ya empieza automáticamente a captar por medio del LIDAR lo que estamos enfocando a través de la cámara trasera y se nos va informando de ello a través de voz, vibraciones hápticas y sonido espacial. Esto nos permite explorar el entorno que nos rodea e identificar objetos e incluso marcarlos para localizarlos posteriormente.

Comentar que las vibraciones hápticas nos permiten saber a qué distancia se encuentran los distintos elementos identificados y que la voz se percibe con sonido espacial 3D compatible con el seguimiento de la cabeza, por lo que esto segundo tan sólo se puede apreciar con auriculares que sean compatibles con el audio espacial de iOS, como los AirPods 3 y los AirPods Pro.

Desde el botón “Filtros” podemos filtrar el tipo de elementos de los que deseamos obtener la localización. Se puede seleccionar “Personas”, “Objetos” y “Sensor de proximidad” (esto último para obtener información de a qué distancia se encuentran los distintos elementos).

En el botón “Acciones” encontramos las siguientes funciones:

  • “Resumen espacial”. Esto Nos verbaliza los elementos que se han detectado en la exploración previa que hayamos llevado a cabo, realizándolo en forma de resumen en sonido espacial.
  • “Colocar señal”. Esta función nos permite marcar uno de los objetos detectados para poder encontrarlo entre el resto de los que haya en el entorno, guiándonos hacia él por medio de sonido y vibración háptica.
  • “Navegación interna”. Esto nos permite grabar rutas en el interior de edificios, las cuales podremos recorrer en futuras ocasiones e incluso compartir con otros usuarios (veremos su funcionamiento más adelante).
  • “Personas reconocibles”. Desde aquí podemos agregar personas que al ser captadas por la aplicación, serán reconocidas automáticamente con el nombre que les hayamos asignado previamente.

 

Navegación Interna

Esta función está disponible para cualquier iPhone, tenga o no sensor LIDAR. Nos permite grabar una ruta en el interior de edificios desde un punto “A” a un punto “B” para poder recorrerla en un momento posterior. Rutas que incluso podemos compartir con otros usuarios de la aplicación.

De momento tan sólo se puede recorrer una ruta en el mismo sentido en el que se grabó, por lo que si deseamos poder recorrerla en el sentido inverso, hay que grabarla en ambas direcciones, cómo si se tratase de dos rutas independientes.

Esta función emplea principalmente la Realidad Aumentada, por lo que tiene algunas limitaciones: tan sólo es fiable en interiores, pues necesita tener la proximidad de elementos verticales que permitan grabar la ruta, y también necesita que haya una buena iluminación, ni muy intensa ni muy baja. De hecho, en la propia aplicación se advierte que las condiciones ambientales pueden influir en la eficacia de liado, por lo que se recomienda no descuidar nuestras técnicas de movilidad y seguridad a la hora de desplazarnos.

Comentar que aquí también se puede disfrutar de sonido espacial con seguimiento de la cabeza para complementar el guiado de las rutas (tan sólo compatible con auriculares concretos como los AirPods 3 y los AirPods Pro). Esto significa que si usamos uno de estos auriculares compatibles Seeing AI puede reproducir audio espacial en relación con la dirección a la que estamos mirando, incluso si la cámara está orientada en otra dirección. Por cierto, para disfrutar de este sonido, deberemos Conceder permiso de seguimiento de la cabeza cuando la app nos lo solicite.

Al acceder a esta función, nos encontramos con el botón “Añadir” en la esquina superior derecha (para grabar una nueva ruta) y un listado con las rutas que hayamos podido grabar previamente. Éstas se nos muestran por proximidad en el caso de que hayamos dado permiso a la aplicación para usar la localización.

 

Cómo grabar una ruta

El proceso para grabar una ruta es sencillo. La aplicación nos va guiando en todo momento.

  1. Presionamos el botón “Añadir”. Se nos muestra una pantalla explicando cómo grabar el punto de partida de la ruta. Es importante seleccionar un punto de inicio que tenga características distintivas. Evitando las grandes superficies en blanco, los materiales reflectantes y los patrones de repetición.
  2. Pulsamos en “Continuar”.
  3. La aplicación nos da instrucciones verbales para que mostremos a la cámara trasera del móvil la zona que circunda el punto de partida de la ruta. Hay que digitalizar todas las direcciones, incluida la inclinación ligeramente hacia arriba y hacia abajo. Es como pintar una esfera con nosotros en el centro. Un porcentaje nos va avisando del proceso de la creación de este punto de partida.
  4. Al completarse el porcentaje de la creación del punto inicial, se nos pide que le pongamos un nombre descriptivo. También hay un cuadro de edición para poner una nota acerca de dónde se encuentra. Algo muy importante para poder retomarlo en un futuro, asegurándonos de hacerlo en el sitio correcto, sobre todo si transcurre mucho tiempo o si queremos compartir la ruta con otras personas.
  5. Presionamos “Continuar”.
  6. Ahora ya podemos empezar a caminar a lo largo de la ruta que deseamos grabar. Es importante tener el móvil vertical, lo más estable posible, con la cámara enfocando en la dirección en la que caminamos.
  7. Al llegar al punto final pulsamos el botón “Finalizar”.
  8. Finalmente se nos pide que le pongamos un nombre al punto de destino de la ruta, así como una nota descriptiva si lo deseamos. Tras ello, pulsamos “Guardar”.

 

Cómo recorrer una ruta previamente grabada

  1. Para iniciar una ruta, la buscamos en el listado, la presionamos y seleccionamos la opción “Seguir”.
  2. Un sonido similar a un zumbido nos indica la dirección que tenemos que seguir. Cuando éste está centrado, significa que estamos enfocados en la dirección correcta. Otro sonido más contundente nos indica cuando hay cambios de dirección.
  3. Al llegar se nos avisa con otro sonido.

 

Notas:

  • Si deseamos eliminar una ruta, nos situamos encima de su nombre, realizamos flicks hacia arriba o hacia abajo con un dedo y presionamos la opción “Eliminar”.
  • Al presionar el nombre de una ruta en el listado, además de poder seguirla, también se nos ofrece la posibilidad de compartirla con otros usuarios, así como la opción “Más”, la cual nos da algunos detalles como la distancia del recorrido.

 

Encontrar mis cosas

Esta función también está disponible para cualquier iPhone, tenga o no sensor LIDAR, pero Tan sólo funciona en iOS 14 o superior.

Sirve para encontrar objetos personales que previamente hemos introducido en la aplicación. Es decir, que Debemos entrenar a Seeimg AI a reconocer esos objetos. Puede ser muy útil para encontrar algo que se nos haya caído, por ejemplo, los auriculares, la cartera, o por si alguien nos ha cambiado de sitio nuestra mochila, la chaqueta, etc.

Para entrenar el reconocimiento de estos objetos, debemos tomar cuatro vídeos breves en los que la aplicación nos guía con indicaciones de audio. El proceso es muy sencillo y desde Microsoft se nos asegura que esos videos no salen de nuestro dispositivo, vamos que la privacidad se supone que está garantizada. También hay disponible un tutorial desde el cual podemos aprender a localizar los objetos, familiarizándonos con los sonidos que emite la aplicación en el proceso de búsqueda.

Al entrar en esta función, nos encontramos con los botones “Agregar” (para introducir los objetos que deseemos localizar posteriormente), “Ayuda rápida” (para acceder a la explicación de esta función y al tutorial que explica cómo localizar los objetos) y un listado con los objetos personales que hayamos introducido (realizando flicks hacia abajo con un dedo encima de estos, podemos eliminarlos del listado).

 

Cómo agregar un objeto

  1. Presionamos el botón “Agregar”.
  2. Nos encontramos en un cuadro de edición para ponerle un nombre al objeto. Lo escribimos o dictamos y presionamos el botón “Aceptar” que hay en la esquina inferior del teclado en pantalla.
  3. Aparece un texto explicando que la aplicación necesitará ver el objeto en cuatro configuraciones distintas, que hay que marcar la ubicación del objeto enfocándolo desde muy cerca (a unos 5 cm) y luego grabar un video alejándonos de él lentamente. Para iniciar el proceso hay que presionar el botón “Primeros pasos”.
  4. El primer paso consiste en colocar el objeto en una mesa en la que no haya ningún otro objeto alrededor. Una vez hemos hecho eso, presionamos “Siguiente”.
  5. Ahora hay que poner el teléfono con la cámara trasera enfocando el objeto desde muy cerca, a unos 5 cm, y pulsar el botón “Marcar ubicación”.
  6. Se nos pide que nos alejemos del objeto muy lentamente. Se irán escuchando unos efectos sonoros con un porcentaje que indica el proceso de grabación del video. Al finalizar el proceso, se escucha un sonido característico de finalización. Tras ello, presionamos “Siguiente”.
  7. El segundo paso consiste en voltear o girar el objeto para que se muestre un lado distinto. Tras hacerlo, presionamos “Siguiente”.
  8. Se nos vuelve a solicitar que marquemos la ubicación igual que antes, es decir, poniendo la cámara del móvil a unos 5 cm. Luego, presionamos “Marcar ubicación”.
  9. Se nos solicita que nos alejemos lentamente. Se escuchan los efectos y el porcentaje del proceso.
  10. El tercer paso consiste en poner el objeto en el suelo, en una silla o en cualquier lugar más cercano al suelo. Tras ponerlo, presionamos el botón “Siguiente”.
  11. Marcamos la ubicación del objeto tal y como hemos hecho en los dos pasos anteriores.
  12. El cuarto paso consiste en poner el objeto en un fondo distinto, por ejemplo, encima de un cojín. Luego presionamos “Siguiente”, marcamos la ubicación como en los pasos anteriores, y al finalizar, ya queda añadido al listado de los objetos.

 

Cómo buscar un objeto

Buscar un objeto es sencillo:

  1. Nos desplazamos al listado de los objetos que hemos guardado y presionamos encima del nombre del que deseamos encontrar.
  2. Presionamos el botón “Buscar”.
  3. Se escucha una especie de “tictac” muy flojito que indica que el proceso de búsqueda se ha iniciado. Nos empezamos A desplazar por nuestro entorno, enfocando con el móvil por todos lados. Hay que hacerlo lentamente. Si movemos el móvil demasiado rápido, sentiremos una vibración. Se nos guía con efectos sonoros, por lo que es recomendable escuchar el tutorial que hay en la ayuda rápida de esta función para aprender los sonidos. Un “Clin” indica que se ha localizado, por lo que tenemos que dirigirnos en esa dirección. Unos pitidos nos indican la cercanía al objeto. Éstos se van acelerando a medida que nos acercamos. Si el objeto sale de la vista de la cámara, los pitidos bajan de tono. La dirección y la distancia al objeto también se muestran en la parte superior de la pantalla (lamentablemente, la distancia se marca en pies).
  4. Tras encontrar el objeto, se escucha un efecto sonoro característico y se nos notifica que la búsqueda se ha realizado de forma correcta. Para salir de esta pantalla y dejar de escuchar los efectos, presionamos el botón “Listo”. En cualquier momento podemos abandonar la búsqueda presionando el botón “cancelar” que hay en la parte superior de la pantalla.

 

Cómo renombrar un objeto

Cambiarle el nombre a un objeto es fácil. Lo Presionamos en la lista y luego pulsamos el botón “Cambiar nombre”. Aparece el teclado en pantalla para ponerle un nombre nuevo. Tras escribirlo o dictarlo, presionamos el botón “Aceptar” de la esquina inferior derecha del teclado en pantalla.

 

Canal “Color”

Función que identifica y verbaliza el color de los objetos, prendas de vestir o superficies que está enfocando la cámara trasera del móvil. El reconocimiento se produce en tiempo real, sin necesidad de presionar ningún botón y sin precisar conexión a Internet.

Comentar que tal y como ocurre con otras aplicaciones que proporcionan esta misma utilidad, la identificación correcta del color está supeditada a distintos factores como la iluminación o la presencia de sombras sobre la superficie que se está explorando.

 

Canal “Escritura a mano”

OCR específico para reconocer escritura manuscrita. Precisa de conexión a Internet, y a diferencia de los otros tipos de OCR que ofrece esta aplicación, aquí sí que es preciso que el texto esté bien orientado, es decir, que la hoja no esté colocada hacia abajo. Además, la propia app nos advierte de que la precisión del reconocimiento puede variar en función del estilo de escritura a mano, el cual puede diferir considerablemente de una persona a otra.

Este canal tan sólo presenta un botón, “Hacer foto”, y a diferencia del canal “Documento”, no tiene guiado verbal para el enfoque y la captura no se realiza de forma automática (al menos de momento, pues se trata de un canal que está en fase beta y a lo mejor más adelante sí que presenta estas funciones).

Para realizar la captura, lo ideal es dejar ubicado ya en un inicio el foco de VoiceOver en el botón de “Hacer foto”, colocar la página a escanear en una superficie plana que ofrezca un buen contraste con respecto al documento, mantener el móvil próximo a éste, con la cámara trasera enfocando su parte central, y luego alejarlo hacia arriba unos 15 cm. A continuación presionamos el botón que dispara la captura de la imagen, para lo cual, como ya tendremos el foco de VoiceOver ubicado en él, basta con realizar un doble toque en medio de la pantalla. Eso sí, conviene hacer este gesto de forma suave, para no mover el móvil y que eso afecte a la captura del texto.

Tras escucharse la musiquita que indica que el proceso del reconocimiento se está realizando, se nos presenta el resultado del escaneo en una nueva pantalla en la que nos encontramos con el típico botón de “Cerrar” (para volver a la pantalla principal), el texto reconocido (el cual podemos explorar por medio de VoiceOver), y el botón “Compartir”. Para enviar la imagen resultante del escaneo a otras aplicaciones. Aquí, a diferencia de lo que ocurre en el canal “Documento”, lo que se comparte es una imagen, sin dar la posibilidad de guardar o enviar el resultado como texto.

 

Así pues, tal y como está este canal ahora mismo, esta función nos permite saber el contenido de una hoja donde alguien ha escrito algo a mano. Lo cual ya es mucho. Pero lamentablemente, el resultado no se puede guardar como un texto accesible. Tampoco hay botones de reproducción para leernos el resultado. Asimismo, éste tampoco se puede seleccionar con comodidad por medio de VoiceOver para copiarlo y pegarlo en otro sitio, pues tan sólo se puede seleccionar línea a línea, y éstas son muy cortas. Esperemos que todos estos inconvenientes se solucionen en versiones posteriores, pues se trata de una función beta que aún puede mejorar.

 

Canal “Luz”

Esta funcionalidad detecta fuentes luminosas. La app emite un tono que marca la intensidad de la luz detectada. Cuanto más agudo es el tono generado, más fuerte es la luz.

 

Descripción de imágenes y vídeos provenientes de otras aplicaciones

Esta utilidad no está presente en los canales propiamente dichos, pero se trata de algo muy útil y completo, pues al reconocer una imagen nos ofrece tres tipos de reconocimiento simultáneo: descripción de la escena, descripción valorativa de la persona o personas que aparecen, y en el caso de que se detecte también algún texto, se le aplica un OCR.

En cuanto al reconocimiento de video, comentar que en el momento de la elaboración de esta entrada tan sólo existe compatibilidad con el formato “MP4” y que hay un límite para reconocer 10 videos al día. Dependiendo de la longitud del archivo, el tiempo de procesamiento del reconocimiento puede ser bastante largo. Una vez finalizado el proceso, el video se empieza a reproducir mientras la voz seleccionada en la app nos va describiendo las distintas escenas que lo conforman, eso sí, pausándolo brevemente en los instantes en los que se verbaliza la descripción. En la pantalla podemos encontrar una barra de reproducción que nos permite reproducir/pausar el vídeo, así como saltar hacia delante o hacia atrás.

A esta función se accede desde el botón “Compartir” presente en otras apps, seleccionando posteriormente la opción “Reconocer con Seeing AI”. De esta forma podemos obtener una descripción de imágenes y vídeos desde la fototeca, o desde WhatsApp, Telegram, Mail, Twitter etc.

Por ejemplo, para obtener la descripción de una fotografía recibida por WhatsApp, debemos situarnos encima de la foto, realizar flicks hacia abajo con un dedo hasta seleccionar y pulsar la opción “Reenviar”, luego presionar también el botón “Compartir” que hay en la esquina inferior derecha, y finalmente pulsar “Reconocer con Seeing AI”. Tras ello, se abre una nueva pantalla en la que, Tal y como ya os he avanzado antes, se nos ofrece una descripción somera de la escena, si hay alguna persona se realiza una descripción valorativa de sus expresiones y características físicas, y en el caso de que hubiera algún texto presente, también se nos muestra el resultado del reconocimiento OCR. Asimismo, está disponible el botón “Explorar la foto”, por si deseamos explorar con el dedo la imagen para hacernos una idea de la distribución espacial de los elementos localizados en ella.

En esta pantalla no aparece ningún botón que nos permita guardar o compartir el texto que se haya podido reconocer en una fotografía. No obstante, si nos interesa hacerlo, podemos conseguirlo empleando el fantástico y socorrido gesto de VoiceOver que nos permite copiar en el portapapeles lo último que se ha verbalizado. Los pasos para realizar estos serían los siguientes:

  1. Estando situados en la pantalla del resultado del reconocimiento, realizamos flicks hacia la derecha con un dedo hasta llegar al apartado del texto. Como VoiceOver lo verbaliza por completo de un tirón, nada más empezar a leerlo, realizamos cuatro toques con tres dedos en medio de la pantalla. No hace falta esperar a que VoiceOver termine su lectura para realizar el gesto.
  2. Ya tenemos copiado todo el texto en el portapapeles, de forma que ahora tan sólo tenemos que irnos a una aplicación de edición de texto como por ejemplo “Notas”, y abrir una nueva nota.
  3. Una vez estamos en el cuadro de edición de la nota, realizamos el gesto del rotor hasta la opción “Editar”, luego hacemos flicks hacia abajo con un dedo hasta la opción “Pegar”, y finalmente realizamos un doble toque con un dedo en medio de la pantalla para pegar el contenido del portapapeles.

 

He puesto el ejemplo de la aplicación “Notas”, pero puede servir cualquier otra. Incluso podemos compartir el texto por correo electrónico o WhatsApp, pegándolo en el cuadro de edición de un nuevo mail o mensaje de texto.

Por cierto, para salir de la pantalla en la que se nos presenta el reconocimiento de una imagen, hay que presionar el botón “Cerrar” que hay en la parte inferior de la pantalla.

 

Reconocimiento de documentos PDF, incluso de los inaccesibles por ser una imagen escaneada

Esta funcionalidad, al igual que la anterior, no se encuentra en los canales. Se accede a ella desde el menú compartir de otras aplicaciones y nos permite acceder a la visualización de documentos PDF, tanto si son accesibles como inaccesibles por ser una imagen escaneada. En este último caso le aplica un OCR.

Una vez abierto el documento, podemos reproducirlo con voz (empleando el botón “Reproducir” de la parte inferior de la pantalla), o compartirlo en formato “TXT” o “HTML” (para esto último también hay un botón en la parte inferior). Si lo compartimos por ejemplo por WhatsApp, se comparte el texto íntegro, mientras que si lo guardamos en una nube como Dropbox, se guarda en formato “TXT”.

 

Cómo configurar los accesos directos o atajos de Siri con Seeing AI

Si entramos en el botón “Menú” de la esquina superior izquierda de la pantalla principal de esta aplicación, y posteriormente en “Configuración”, nos encontramos diversos botones entre los que se encuentra el de “Configurar accesos directos de Siri”. Pues bien, al entrar ahí, podemos seleccionar los canales que queremos activar a través de una orden verbal dirigida al asistente Siri, de forma que cuando la verbalicemos, se abra la aplicación ya directamente con esa función ya lista para ser empleada.

El proceso es bastante sencillo:

  1. Entramos en el canal al que le deseamos activar un acceso directo, accediendo de esta forma a la edición del atajo.
  2. En el cuadro de edición que se encuentra debajo de “Al decir”, podemos escribir la frase que deseamos emplear para dispararlo. Ya viene una por defecto, pero Podemos cambiarla por otra.
  3. Para añadirlo a Siri, pulsamos el botón “Añadir a Siri”.
  4. Automáticamente volvemos a la pantalla anterior, y vemos que el atajo ha quedado seleccionado. A partir de ahora, cuando invoquemos a Siri y le digamos la frase configurada, se abrirá automáticamente la aplicación Seeing AI con este canal listo para ser usado.
  5. Si deseamos desactivar o eliminar alguno de los accesos directos creados, basta con entrar en él, y pulsar el botón “Eliminar atajo” que hay en la parte inferior de la pantalla.
  6. Y si queremos cambiar la orden verbal de alguno de ellos, entramos en el deseado, modificamos la frase y finalmente pulsamos el botón “Guardar atajo”.

 

Los atajos o accesos directos que creemos desde aquí, también podemos encontrarlos en la aplicación “Atajos”, en la pestaña “Mis atajos”. Si le modificamos el nombre o lo eliminamos desde esta otra aplicación, el cambio se aplica automáticamente en ambos sitios.

 

Enlaces

Descarga Seeing AI desde AppStore.

 

Autor, Jaime Franco

 

4 respuestas a «Seeing AI, aplicación multifunción con diversas utilidades de reconocimiento de imagen y OCR»

Hola Jaime, Soy de Chile.
Saber cuando estará disponible esta app para sudamérica.
Atte.
Raúl Gutiérrez

Hola Raúl.
Desconozco cuando estará disponible Seeing AI en tu país, pero no creo que tarde mucho. Ya hace cuatro meses que se tradujo al español y me consta que está disponible en cuatro países de Latinoamérica: Argentina, México, Brasil y Jamaica. Así que imagino que no tardará en estarlo en el tuyo. Ciertamente, es curioso que esté tardando tanto en llegar a vuestras AppStore.
De todas formas, a continuación te comparto el correo electrónico de contacto que aparece en la propia aplicación, donde se pueden enviar comentarios y preguntas. Allí podrás plantearles tu inquietud. Por cierto, si obtienes respuesta, no dudes en compartirla con nosotros, pues seguro que hay más personas interesadas en el tema.
SeeingAI@Microsoft.com
Saludos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Información básica sobre protección de datos Ver más

  • Responsable: Grupo SucDePoma.
  • Finalidad:  Moderar los comentarios.
  • Legitimación:  Por consentimiento del interesado.
  • Destinatarios y encargados de tratamiento:  No se ceden o comunican datos a terceros para prestar este servicio.
  • Derechos: Acceder, rectificar y suprimir los datos.
  • Información Adicional: Puede consultar la información detallada en la Política de Privacidad.

Descubre más desde SucDePoma

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo

Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos. Contiene enlaces a sitios web de terceros con políticas de privacidad ajenas que podrás aceptar o no cuando accedas a ellos. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Ver
Privacidad