Entrada actualizada incluyendo un nuevo método para clonar nuestra voz y poder hacer canciones con ella. Método que se ha incorporado con el motor de creación musical 5.5. De paso se han actualizado los otros dos métodos, pues se han producido algunos cambios.
Seguro que conocéis la herramienta de creación musical por medio de Inteligencia Artificial Suno AI. En SucDePoma ya hemos publicado un par de artículos sobre ella y probablemente ya habéis hecho alguna que otra cancioncita. Pues bien, ¿qué os parecería dar un paso más allá y poder emplear vuestra propia voz para crear canciones? No hace falta que sepamos cantar. Suno se encarga de hacer magia y que de repente seamos unos cantantes estupendos. ¿A que suena bien? Pues si os interesa el tema, en este tutorial encontraréis todo lo necesario para conseguirlo. Ah, y al final hay varios ejemplos musicales empleando esta función. No os los perdáis.
Índice:
Introducción general
Ya sé que estáis impacientes por saber cómo realizar el proceso de clonar nuestra voz, pero antes, permitirme comentar algunas cosas interesantes a tener en cuenta:
- Esta guía se ha creado empleando Suno AI en el navegador Microsoft Edge, en un PC con Windows 10 y el lector de pantalla NVDA. Según mi parecer, es la combinación más accesible y usable. Por lo que puede ser distinto en otros sistemas operativos, navegadores, o en la aplicación Suno para iOS y Android. Puede que incluso resulte menos accesible. O quien sabe, igual es más accesible. No obstante, os puede servir de guía indicativa de los pasos a seguir.
- Suno denomina como “Voices” a las voces que creemos clonando nuestra voz. Pues bien, para poder crearlas hay que tener la versión de pago de Suno. No está disponible en la versión gratuita. Esto significa que, al igual que las canciones que creamos con la versión de pago, la propiedad intelectual de esas voces nos pertenece por completo. Eso sí, tal y como veremos más adelante, es muy importante que a la hora de crear la voz, desmarquemos una casilla que aparece verificada por defecto y que hace que sea pública. A no ser que os interese hacerlo así.
- La página web de Suno AI es bastante compleja, con muchos botones. Es recomendable perder un ratito en ensayar técnicas de navegación que nos simplifique la navegación. Yo uso mucho los siguientes atajos con NVDA (seguro que hay más, pero son los que mejor me funcionan):
- La combinación “Control + Inicio” la uso mucho para ir al principio de la página y poder navegar siempre desde un punto fijo de referencia.
- Una vez en el inicio de la página, siempre presiono una vez la tecla “N”, para saltarme todos los menús de la parte superior y luego ya presiono la tecla “B” para localizar los botones principales. Por ejemplo, el que permite seleccionar el modo sencillo de creación musical “Simple”, el avanzado “Advanced”, el que permite subir una muestra de audio “Add audio”, el que permite seleccionar una voz que hayamos creado previamente “Add voice”, así como para acceder a los apartados para introducir la letra de la canción “Lyrics”, o al que permite introducir el estilo de la canción “Styles”.
- Todos los botones de la página se pueden activar perfectamente presionando la barra espaciadora.
- Los apartados “Lyrics” y “Styles” se pueden expandir y contraer. Una vez les hemos introducido la información necesaria, conviene contraerlos para que el interfaz permanezca lo más simple posible. Sobre todo el de los estilos, pues aparecen una infinidad de sugerencias.
- Para ir a la tabla de resultados en las que aparecen las canciones, lo ideal es presionar “Control inicio” y luego la letra “T” (En JAWS esto último no funciona. Hay que presionar dos veces la letra “N” para llegar al botón que permite editar el título de la primera canción de la tabla y luego subir con dos pulsaciones de la flecha superior del cursor para llegar al botón de reproducción).
- Antes se podía navegar por la tabla de las canciones con las combinaciones de teclas correspondientes a las tablas, pero ahora no se puede. Lo que hago es una vez en la tabla, voy presionando la letra “N” para ir al botón que permite editar el nombre de cada canción y luego subo para arriba al botón de reproducción. Puede que en próximas actualizaciones la tabla vuelva a funcionar como antes, pero de momento me vale.
- Al reproducir una canción, podemos hacerlo desde el botón correspondiente de la tabla de resultados, pero si queremos adelantar su reproducción, o acceder al botón que permite acceder a las opciones avanzadas relacionadas para esa canción, lo adecuado es presionar “control + fin” para ir al final de la página y allí, tras presionar cursor hacia arriba varias veces, encontraremos de forma más rápida todo ello.
Introducción a los distintos métodos para clonar nuestra voz
Suno ofrece un método específico ideado expresamente para clonar nuestra voz. Este método se introdujo con la versión 5.5 de su motor de creación musical, pero antes ya había dos métodos con los que se conseguía lo mismo, y yo diría que con mejores resultados.
En primer lugar os mostraré este método específico, pues es el recomendado por Suno. Es el más rápido a la hora de clonar y crear nuestra voz. No obstante, ahora mismo presenta algunas dificultades de usabilidad y la voz que se crea clonándonos no es tan fiel a nuestra voz real como en los anteriores (a la hora de crear canciones con este método la barra de la influencia del audio debe estar muy baja, casi al 0%). Esperemos que más adelante solucionen todo eso, pues ahora mismo está en versión beta
En segundo lugar os mostraré el método que mejores resultados ofrece. Es el primero que apareció y con el que están creadas las canciones de muestra que encontraréis al final de este artículo. Durante un tiempo dejó de funcionar, pero ahora vuelve a ir bien. Al menos en el momento de escribir estas líneas. Eso sí, para que ofrezca esos resultados. La voz se debe crear empleando el anterior motor 5.0 y las canciones también se deben crear con ese motor. Ah, y poniendo la barra de la influencia del audio al 100% en ambas situaciones. Si se emplea el motor 5.5 con las voces creadas con este método, los resultados ya no son tan buenos y la barra de la influencia del audio se debe poner al 0%
Finalmente os pondré un tercer método que surgió cuando el anterior dejó de funcionar. También ofrece buenos resultados, aunque según mi parecer, no tanto como el anterior. Este último método también se debe emplear con el motor 5.0, tanto a la hora de crear la voz, como a la hora de crear canciones. Y la barra de la influencia del audio debe estar en porcentajes altos cercanos al 100%. Si se usa el motor 5.5 con las voces creadas con este método, también se obtienen buenos resultados. No tan buenos, pero pasables. Eso sí, con la precaución de bajar el porcentaje del deslizable de la influencia de Laudio a 0. Además, este nuevo motor 5.5 es mucho más fiel a la hora de reproducir la letra que introducimos. Lo cual se agradece mucho.
No obstante, antes de mostraros los distintos métodos os pondré algunos consejos a la hora de grabar la muestra de audio que sirve de base para clonar nuestra voz.
Nota: Los porcentajes de la influencia del audio son orientativos, pues no todas las voces son iguales. Conviene ir probando cual se adapta mejor a nuestra voz.
Consejos a la hora de crear nuestra muestra de audio
El proceso de clonación necesita una muestra de audio que sirva de base y de ejemplo que imitar. En esa muestra debemos cantar durante unos segundos (más abajo os doy algunas claves sobre cómo hacerlo).
Podemos clonar nuestra voz a partir de dos fuentes: Empleando una muestra de audio que hayamos grabado previamente y que luego se sube a Suno, o grabar nuestra voz directamente en Suno empleando un micrófono conectado al ordenador.
Si tenemos una buena grabadora con un micro de calidad, la primera opción quizás sea la más adecuada, pero la segunda opción es más sencilla y rápida, sobre todo si tenemos un buen micrófono conectado al ordenador.
Sea como sea, aquí tenéis algunas claves a tener en cuenta para hacerlo de forma correcta:
- No hace falta que cantemos muy bien, pero es necesario que sea una canción en la que podamos emplear varios registros y rangos vocales: graves, agudos, etc. De esta forma, la IA tendrá más información a la hora de clonarnos y el resultado será mucho mejor. No es útil subir un audio en el que tan sólo estemos hablando. En ese tipo de muestras no hay información ni referencias vocales suficientes, por lo que la IA mantendrá nuestro timbre en las partes medias, pero el resto será una interpretación genérica del modelo. Es decir, que se lo inventará y no nos reconoceremos.
- Tenemos que cantar de forma natural y clara, sin impostar la voz, pues el objetivo es conseguir algo natural y fiel al timbre y la textura de nuestra voz, a la vez que la muestra es clara y con una buena calidad de audio.
- Da igual que canción empleemos. Yo he usado una infantil de la que me acordaba y con la que me sentía a gusto al cantarla. Esto es importante, pues así no estamos concentrados en acordarnos de la letra y nos podemos centrar en lo realmente importante, es decir, en cantarla lo mejor y más natural posible.
- La canción no debe tener copyright, si no, no deja subirla.
- Yo me he decantado por la opción de grabar mi muestra aparte y he subido las canciones tanto en formato MP3 como en WAV. Suno recomienda hacerlo en WAV o FLAC, pues permite una mayor calidad de sonido (por supuesto, siempre y cuando la calidad de la grabación aproveche ese formato de mayor fidelidad).
- Según Suno, la muestra de audio debe tener entre 10 segundos y 4 minutos, pero se refiere a los límites para el audio que vamos a emplear en el proceso de clonación. No hace falta que sea tan larga. Una duración de entre 30 segundos y 1 minuto es más que suficiente.
- Podemos grabarla en una grabadora física, en la app notas de voz del móvil, o en la misma herramienta de Suno si tenemos un buen micrófono conectado al ordenador. Hay que grabarla con la mejor calidad posible. Si la grabamos en la app Notas de Voz del iPhone, hay que hacerlo con la mayor calidad, es decir, sin pérdidas y mejor en mono. Yo lo hice así, luego la compartí con el PC a través de una nube y allí la convertí a formato WAV.
Primer método. El específico para crear voces
Bien. Este es el método específico que ofrece Suno para clonar nuestra voz. Tal y como he comentado antes, ahora mismo está en versión beta. Presenta algunos problemillas de usabilidad y los resultados no son muy fieles a la voz real que se pretende imitar, pero esperemos que mejore. Su punto a favor es que es muy rápido de llevar a cabo.
Las canciones que se creen con las voces creadas con este método se deben realizar con la influencia del audio al 0%. Aunque bueno, no todas las voces son iguales y esto puede variar.
Primer paso: Seleccionar la forma de introducir nuestra muestra de audio en Suno
- En la página web de Suno AI entramos en la sección “Create”, seleccionamos el modo avanzado “Advanced” y nos aseguramos de tener seleccionado el motor 5.5.
- Presionamos en el botón “Add Voice”.
- En la nueva pantalla, presionamos en “Record or upload your voice” (bajo el título “Create VoiceNew”).
- Aparecen tres posibilidades:
- “Record”. Para grabar una muestra de audio usando el micrófono de nuestro ordenador, o uno que tengamos conectado.
- “Upload Audio”. Para subir una muestra de audio previamente grabada.
- “Select from library”. Para seleccionar una canción de la biblioteca de Suno.
- Las opciones anteriores aparecen inhabilitadas hasta que se marca la casilla con el siguiente texto que pongo traducido: “Entiendo que la creación de una Voz implica el procesamiento de datos relacionados con la voz que pueden considerarse información biométrica según ciertas leyes, y doy mi consentimiento para que Suno recopile y procese dicha información de acuerdo con los Términos de servicio y la Política de privacidad de Suno”. Así pues, si queremos seguir adelante, hay que marcarla. En inglés pone: “I understand that the creation of a Voice involves the processing of voice-related data that may be considered biometric information under certain laws, and I consent to Suno’s collection and processing of such information in”.
Segundo paso: Introducir la muestra de audio en Suno
- Si subimos una muestra de audio grabada previamente, tras presionar el botón “Upload Audio”, Se abre la típica ventana para buscar y abrir un archivo en el ordenador. Lo buscamos en la ubicación adecuada y pulsamos el botón “Abrir”. Tras ello nos aparece un cuadro que no es accesible para NVDA, pero sí para JAWS. Para llegar a ese cuadro nos vamos al final de la pantalla presionando “Control + Fin”. Una vez ahí, JAWS llega bien a él, pero con NVDA debemos activar el modo foco de NVDA, presionando “Insert más barra espaciadora” y Luego “Mayúsculas + tabulador”. Pero es preferible usar JAWS, pues va infinitamente mejor. Describo ese cuadro en el punto 3.
- Si pulsamos en “Record” para grabar nuestra voz de forma directa, nos aparece el mismo tipo de cuadro que no es accesible para NVDA, pero sí para JAWS. Así que llegaremos a él de la misma forma que he descrito en el punto anterior. Una vez en ese cuadro, pulsamos en “Audio input” para que Suno acceda al micro y luego en “Start recording” para iniciar la grabación. Para detenerla pulsamos en “Pause recording” y finalmente, para subirla pulsamos en “Done recording”.
- Bien. Este punto ya es común en los dos casos descritos anteriormente. Ahora nos aparece ese cuadro que he mencionado antes. En éste podemos seleccionar un fragmento del audio en el que creamos que se nos escucha mejor. Éste debe tener entre 10 segundos y 4 minutos. Si no queremos seleccionar un fragmento, se usará todo el audio.
- Para guardar el audio y usarlo como muestra de voz debemos volver a marcar una casilla cuyo texto es: “Doy mi consentimiento para que Suno utilice mis datos de voz con el fin de entrenar, desarrollar, ajustar o mejorar de cualquier otra forma nuestro servicio y cualquier modelo relacionado de inteligencia artificial o aprendizaje automático. Puedes retirar tu consentimiento en cualquier momento. Para obtener más información, consulta nuestros Términos de servicio y nuestra Política de privacidad”. La marcamos. En inglés pone: “I consent to Suno’s use of my voice-related data to train, develop, fine-tune or otherwise improve our service and any related artificial intelligence or machine learning models. You can withdraw your consent at any time. For more information, see our Terms of Service and Privacy Policy”.
- Tras marcar la casilla anterior pulsamos el botón “Use Voice”.
- Ahora aparece un nuevo cuadro en el que se nos pide que verbalicemos el texto de una frase que se encuentra escrita en inglés. Esto es para que demostremos que la muestra de audio es nuestra voz y que no queremos clonar a otra persona. Hay un tiempo límite de 15 segundos para leerla y la grabación empieza automáticamente. Eso sí, el foco del lector de pantalla se vuelve a perder, por lo que debemos pulsar nuevamente “Control + Fin” para ir al final de la pantalla. JAWS va directamente, pero NVDA precisa que activemos el modo foco de NVDA. Tras leer la frase, pulsamos en “Submit”. Si se acaba el tiempo podemos volver a intentarlo, pero entonces cambia el texto de la frase. Hay un botón llamado “English”, pero no ocurre nada al pulsarlo. Esperemos que eso signifique que más adelante se pueda seleccionar la frase en otros idiomas, como español.
Tercer paso: Etiquetar y guardar la voz
- Tras finalizar el proceso de leer y verificar nuestra voz con la frase, aparece una ventana para etiquetar y guardar la voz. Aquí se podría seleccionar un trozo concreto del audio para que sirva de muestra, pero si la canción que hemos subido no es muy larga y nos gusta tal y como está, no será necesario. Si deseamos seleccionar un fragmento, hay dos cuadros de edición para especificar su inicio y final. El primero es para el punto de partida y el segundo para el final de la selección. Si no lo hacemos, se usará todo el audio (no sé cuál es el límite, pues suelo subir muestras de 1 minuto).
- Etiquetamos la voz con un nombre.
- Podemos agregar una descripción. En principio no es necesario. Yo he obtenido buenas canciones sin ella, pero puede ser útil para solucionar algunas cosas. Mi consejo es que inicialmente no pongamos nada aquí, al menos hasta que comprobemos qué tal se comporta nuestra voz. Encontraréis más información sobre las descripciones en el encabezado “Descripción de la voz (identidad vocal)”.
- Es muy importante desmarcar una casilla que hay antes de donde pone «Public», pues viene activada por defecto, haciendo que nuestra voz sea pública. Al desmarcarla pasa a ser privada. A no ser que queramos que sea pública. Si nos olvidamos de hacerla privada, al abrir la voz desde el botón “ADD voice” de la pantalla principal del modo avanzado, también está esta misma casilla de verificación.
- Finalmente, la guardamos pulsando en “Save”.
Podemos crear tantas voces como deseemos. Tanto con nuestra voz, cantando distintos estilos y registros vocales, como con voces de la propia herramienta. Es decir, en ocasiones obtenemos una canción con una voz de Suno que nos gusta especialmente. Pues bien, podemos extraer los Stems de esa canción usando la función “Get Stems” y crear una nueva voz con ella. De esa forma nos aseguramos de hacer canciones con ella, pues ya sabéis que Suno emplea sus voces de forma bastante aleatoria.
Segundo método. El primero que apareció y que ofrece los mejores resultados
Este método dejó de funcionar durante un tiempo, pero ahora vuelve a ir bien (al menos en el momento de escribir estas líneas). Es el primero que apareció y con el que están creadas las canciones de muestra que hay al final de este artículo.
Para obtener los mejores resultados, tanto la voz como las canciones posteriores se deben crear empleando el anterior motor 5.0. Ah, y poniendo la barra de la influencia del audio al 100% en ambas situaciones. Si se emplea el motor 5.5, los resultados ya no son tan buenos y la barra de la influencia del audio se debe poner al 0% (todo esto es orientativo y puede variar según la voz).
Aquí están los pasos:
Primer paso: Introducir nuestra muestra de audio en Suno
- En la página web de Suno AI entramos en la sección “Create” y seleccionamos el modo avanzado “Advanced”.
- Presionamos en el botón multifunción “Add audio – Browse, upload, or record audio”.
- Nos vamos al final de la página y presionamos en “Upload” para subir la grabación (también aparece la opción “Record” para grabar directamente, por si tenemos un buen micrófono conectado al ordenador). Si seleccionamos la carga del audio se abre la típica ventana para buscar y abrir un archivo en el ordenador.
- Una vez hemos subido el audio, éste aparece ya directamente en la tabla de las canciones. Es el primero de todos.
Segundo paso: Crear un sample con la muestra que hemos introducido
- Reproducimos la muestra que hemos introducido, la pausamos, nos vamos al final de la página y presionamos el botón “More menu contents”. En el desplegable que se abre, presionamos primero en el submenú “Remix/Edit”, y luego en “Sample this song”.
- Aparentemente no ocurre nada, pero ahora ya tenemos cargado ese audio como un sample para hacer una canción. Si nos vamos por arriba, debajo de un botón llamado SampleBeta, encontramos un reproductor con el audio cargado. Podemos reproducirlo un instante para asegurarnos de que es el correcto y luego lo pausamos. Aquí no hay que hacer nada. Se podría seleccionar una zona de la grabación para que sirva de sample. Hay dos cuadros de edición para especificar la franja que queremos seleccionar. Si no especificamos nada, se emplea todo el audio.
Tercer paso: Crear canciones con el sample hasta obtener la adecuada
Ahora debemos ir creando canciones hasta que consigamos una que nos guste. Pasos a seguir:
- En el cuadro de edición de la letra “Lyrics”, no ponemos nada, pues se trata de que Suno emplee el sample que hemos creado como un instrumento más y en éste ya está la letra de nuestra canción.
- En el cuadro de edición del estilo, ponemos:
Clear spanish male voice vocals with piano solo.
Se puede escribir en español, pero Suno suele hacernos más caso si lo hacemos en inglés.
Si somos mujer, ponemos female en vez de male. Y podemos especificar el idioma, o incluso si queremos que tenga cierto acento, por si la aplicación no lo capta bien.
Se trata de conseguir una canción con solo un instrumento, pues luego hay que aislar la pista vocal, y de esa forma quedará mejor.
Obtendremos algunas canciones sólo instrumentales y otras que inicialmente también lo parecen, pero que al rato sale la voz. Esto segundo es lo habitual, por lo que hay que escucharlas hasta el final. Según he observado, por regla general la voz suele aparecer hacia la mitad de la canción. En ocasiones incluso más tarde.
- Antes de crear la canción hay que ir al “More Options” que hay encima del cuadro de edición para ponerle un título a la canción, desplegarlo, y poner los deslizables de las rarezas Weirdness en cero, el de Style Influence en 50, y el de Audio Influence al 100%. Todo esto es para que la voz resultante sea lo más fiel posible a la del audio original. Conviene ir probando distintos porcentajes para comprobar los resultados, pues no todas las voces responden igual.
- Le ponemos un título e iniciamos la creación pulsando en “Create song”. Hemos de crear varias, hasta conseguir una que nos guste, en la que nuestra voz se nos parezca. A la hora de crear más canciones con ese sample, no hay que volver a cargar su audio, permanece ya ahí, por lo que podemos ir creando canción tras canción hasta obtener la que nos guste.
- Empezamos a reproducir la canción obtenida en la tabla de las canciones, pero tras iniciar su reproducción es mejor pausarla e ir al final de la página, al reproductor inferior. Allí la volvemos a reproducir y nos vamos a la barra deslizable del tiempo, la activamos con barra espaciadora y con cursor derecho vamos avanzando para ver si aparece nuestra voz cantando. De esta forma se ahorra mucho tiempo. Si bajamos muy deprisa, inmediatamente después de obtener la canción, y empezamos a avanzar rápidamente con este deslizable, llegará un momento en el que se detendrá la reproducción. Imagino que esto es debido a que la herramienta aún está creando la pista y nosotros vamos más rápidos que ella. Así que paciencia.
- Para escuchar la segunda de las canciones que obtenemos con cada creación musical no hace falta subir a la tabla superior de las canciones, desde el reproductor inferior podemos pasar a escucharla pulsando el botón “Next Song button”. También podemos escuchar las canciones previas desde aquí, en este caso presionando en “Previous Song button”.
Cuarto paso: Separar las pistas vocal e instrumental de la canción que nos gusta
Bien. Ya tenemos una canción en la que nuestra voz es fiel a la realidad y que nos gusta. Ahora hay que separar sus pistas vocal e instrumental para aprovechar la que tiene nuestra voz. Suno denomina a estas pistas con el nombre de Stems. Los pasos:
- Cuando obtengamos una canción que nos guste especialmente, la pausamos y pulsamos el “More menu contents” que hay al final de la página. En el desplegable seleccionamos “Get Stems”, para separar la pista vocal y la instrumental.
- Se nos ofrecen dos opciones para separar las pistas de la canción: una Full Song, que cuesta 50 créditos y que es capaz de separar hasta 12 instrumentos y voces distintas, y otra que cuesta 10 créditos, que tan sólo separa una pista vocal y otra instrumental. Se selecciona esta segunda. Ya es suficiente.
- Las pistas o Stems no se muestran inicialmente en la tabla de los resultados. Para que se muestren, antes de la tabla aparece un botón que dice algo así como “4 new clips hidden by current filters”. Lo pulsamos. Llegaremos directamente a él, presionando primero “Control + Inicio” para ir al inicio de la página, y luego la letra “T” (al menos en NVDA, en JAWS, tal y como he comentado anteriormente, es distinto y llegaremos pulsando varias veces la letra “N”). Es importante que hagamos esto en este paso, pues si cerramos el navegador, o realizamos cualquier otra acción dentro de la página, como por ejemplo, crear una nueva canción, ya no se muestra ese botón. Si se da el caso y ya no vemos los Stems, debemos presionar en el botón “Filters (3)” que hay por encima de la tabla, después nos vamos al final de la página y presionamos en el botón “Hide Stems”. Entonces ya se vuelven a mostrar.
- Ahora buscamos el Stems en el que está la voz sola. Yo siempre consigo como resultado 4 Stems (2 vocales y 2 instrumentales). Vale la pena escuchar bien los dos vocales, pues aunque parezcan idénticos, suele haber diferencia en la calidad de sonido. En algunos se escucha algo de ruido blanco de fondo y en otros el sonido está totalmente limpio. También suele haber diferencia en la reverberación que se le aplica a nuestra voz. En ocasiones, en uno de los audios aparece algo distorsionada. Seleccionamos el que tenga mejor calidad.
Quinto paso: Crear la voz con el Stems vocal ideal
Ya estamos en el último paso. Ahora toca crear la voz clonada:
- Tras comprobar qué Stems vocal suena mejor. Pausamos el que más nos gusta y nos vamos al final de la página para pulsar el botón “More menu contents”. Luego desplegamos el submenú “Create” y finalmente pulsamos en “Voice”.
- Aparece una ventana para etiquetar y guardar la voz. Aquí se podría seleccionar un trozo concreto del audio para que sirva de muestra, pero si la canción que hemos subido no es muy larga y nos gusta tal y como está, no será necesario. Si deseamos seleccionar un fragmento, hay dos cuadros de edición para especificar su inicio y final. El primero es para el punto de partida y el segundo para el final de la selección. Si no lo hacemos, se usará todo el audio (no sé cuál es el límite, pues suelo subir muestras de 1 minuto).
- Etiquetamos la voz con un nombre.
- Podemos agregar una descripción. En principio no es necesario. Yo he obtenido buenas canciones sin ella, pero puede ser útil para solucionar algunas cosas. Mi consejo es que inicialmente no pongamos nada aquí, al menos hasta que comprobemos qué tal se comporta nuestra voz. Encontraréis más información sobre las descripciones en el encabezado “Descripción de la voz (identidad vocal)”.
- Es muy importante desmarcar una casilla que hay antes de donde pone «Public», pues viene activada por defecto, haciendo que nuestra voz sea pública. Al desmarcarla pasa a ser privada. A no ser que queramos que sea pública. Si nos olvidamos de hacerla privada, al abrir la voz desde el botón “ADD voice” de la pantalla principal del modo avanzado, también está esta misma casilla de verificación.
- Finalmente, la guardamos pulsando en “Save”.
Y bueno, para concluir, comentar que podemos crear tantas voces como deseemos. Tanto con nuestra voz, cantando distintos estilos y registros vocales, como con voces de la propia herramienta. Es decir, en ocasiones obtenemos una canción con una voz de Suno que nos gusta especialmente. Pues bien, podemos extraer los Stems de esa canción usando la función “Get Stems” y crear una nueva voz con ella. De esa forma nos aseguramos de hacer canciones con ella, pues ya sabéis que Suno emplea sus voces de forma bastante aleatoria.
Tercer método: El alternativo que surgió cuando fallaba el primero de todos
Este método se empezó a emplear cuando el primero que surgió dejó de funcionar. También ofrece buenos resultados, aunque según mi parecer, no tanto como el anterior. Se debe emplear con el motor 5.0, tanto a la hora de crear la voz, como a la hora de crear canciones. Y la barra de la influencia del audio debe estar en porcentajes altos cercanos al 100% (esto es orientativo y puede variar según la voz).
Si se usa el motor 5.5 con las voces creadas con este método, también se obtienen resultados aceptables, aunque no tan buenos. Eso sí, con la precaución de bajar el porcentaje del deslizable de la influencia del audio a 0. Además, el nuevo motor 5.5 es mucho más fiel a la hora de reproducir la letra que introducimos. Lo cual se agradece.
El método es muy similar al anterior. Tan sólo varía la primera parte del segundo paso y el primer punto del tercer paso.
Primer paso: Introducir nuestra muestra de audio en Suno
- En la página web de Suno AI entramos en la sección “Create” y seleccionamos el modo avanzado “Advanced”.
- Presionamos en el botón multifunción “Add audio – Browse, upload, or record audio”.
- Nos vamos al final de la página y presionamos en “Upload” para subir la grabación (también aparece la opción “Record” para grabar directamente, por si tenemos un buen micrófono conectado al ordenador). Si seleccionamos la carga del audio se abre la típica ventana para buscar y abrir un archivo en el ordenador.
- Una vez hemos subido el audio, éste aparece ya directamente en la tabla de las canciones. Es el primero de todos.
Segundo paso: Crear un sample con la muestra que hemos introducido
Ahora tenemos dos posibilidades:
- La primera es quizás la más sencilla. Consiste en tener escrita previamente la letra de lo que hemos cantado en la muestra que hemos subido, incluyendo las meta etiquetas básicas de la estructura. La necesitamos para pegarla luego en el cuadro de la letra “Lyrics”.
- La otra opción es copiar la letra de lo que hemos subido desde el Editor de Audio de Suno. Para esto, tras reproducir y pausar la muestra que hemos introducido, nos vamos abajo del todo de la página, al botón “More menu contents” correspondiente a nuestro audio y lo pulsamos. En el desplegable que se abre, presionamos primero en el submenú “Remix/Edit”, luego vamos más abajo y presionamos en “Open in Editor”. Una vez en la pantalla del editor, tenemos que copiar la letra de la canción que la IA ha reconocido en la muestra que hemos subido. Aparece incluso con las meta etiquetas de la estructura. Copiamos todo y la pegamos momentáneamente en una nota del Bloc de Notas. Finalmente, volvemos a la pantalla principal de creación avanzada “Advanced” pulsando el enlace “créate” que hay en el menú superior.
A continuación realizamos lo siguiente:
- Reproducimos la muestra que hemos introducido, la pausamos, nos vamos al final de la página y presionamos el botón “More menu contents”. En el desplegable que se abre, presionamos primero en el submenú “Remix/Edit”, y luego en “Sample this song”.
- Aparentemente no ocurre nada, pero ahora ya tenemos cargado ese audio como un sample para hacer una canción. Si nos vamos por arriba, debajo de un botón llamado SampleBeta, encontramos un reproductor con el audio cargado. Podemos reproducirlo un instante para asegurarnos de que es el correcto y luego lo pausamos. Aquí no hay que hacer nada. Se podría seleccionar una zona de la grabación para que sirva de sample. Hay dos cuadros de edición para especificar la franja que queremos seleccionar. Si no especificamos nada, se emplea todo el audio.
Tercer paso: Crear canciones con el sample hasta obtener la adecuada
Ahora debemos ir creando canciones hasta que consigamos una que nos guste:
- Nos desplazamos al cuadro de edición de la letra “Lyrics”, lo activamos y pegamos la letra que hemos copiado previamente ya sea desde el editor, o la que habíamos escrito nosotros.
- En el cuadro de edición del estilo, ponemos:
Clear spanish male voice vocals with piano solo.
Se puede escribir en español, pero Suno suele hacernos más caso si lo hacemos en inglés.
Si somos mujer, ponemos female en vez de male. Y podemos especificar el idioma, o incluso si queremos que tenga cierto acento, por si la aplicación no lo capta bien.
Se trata de conseguir una canción con solo un instrumento, pues luego hay que aislar la pista vocal, y de esa forma quedará mejor.
- Antes de crear la canción hay que ir al “More Options” que hay encima del cuadro de edición para ingresar un título a la canción, desplegarlo, y poner los deslizables de las rarezas Weirdness en cero, el de Style Influence en 50, y el de Audio Influence al 100%. Todo esto es para que la voz resultante sea lo más fiel posible a la del audio original. Conviene ir probando distintos porcentajes para comprobar los resultados, pues no todas las voces responden igual.
- Le ponemos un título e iniciamos la creación pulsando en “Create song”. Hemos de crear varias, hasta conseguir una que nos guste, en la que nuestra voz se nos parezca. A la hora de crear más canciones con ese sample, no hay que volver a cargar su audio, permanece ya ahí, por lo que podemos ir creando canción tras canción hasta obtener la que nos guste. Aquí, a diferencia de en el anterior método, nuestra voz aparece prácticamente al principio de la canción, por lo que no hay que ir avanzando su reproducción desde la barra inferior.
Cuarto paso: Separar las pistas vocal e instrumental de la canción que nos gusta
- Cuando obtengamos una canción que nos guste especialmente, la pausamos y pulsamos el “More menu contents” que hay al final de la página. En el desplegable seleccionamos “Get Stems”, para separar la pista vocal y la instrumental.
- Se nos ofrecen dos opciones para separar las pistas de la canción: una Full Song, que cuesta 50 créditos y que es capaz de separar hasta 12 instrumentos y voces distintas, y otra que cuesta 10 créditos, que tan sólo separa una pista vocal y otra instrumental. Se selecciona esta segunda. Ya es suficiente.
- Las pistas o Stems no se muestran inicialmente en la tabla de los resultados. Para que se muestren, antes de la tabla aparece un botón que dice algo así como “4 new clips hidden by current filters”. Lo pulsamos. Llegaremos directamente a él, presionando primero “Control + Inicio” para ir al inicio de la página, y luego la letra “T” (al menos en NVDA, en JAWS, tal y como he comentado anteriormente, es distinto y llegaremos pulsando varias veces la letra “N”). Es importante que hagamos esto en este paso, pues si cerramos el navegador, o realizamos cualquier otra acción dentro de la página, como por ejemplo, crear una nueva canción, ya no se muestra ese botón. Si se da el caso y ya no vemos los Stems, debemos presionar en el botón “Filters (3)” que hay por encima de la tabla, después nos vamos al final de la página y presionamos en el botón “Hide Stems”. Entonces ya se vuelven a mostrar.
- Ahora buscamos el Stems en el que está la voz sola. Yo siempre consigo como resultado 4 Stems (2 vocales y 2 instrumentales). Vale la pena escuchar bien los dos vocales, pues aunque parezcan idénticos, suele haber diferencia en la calidad de sonido. En algunos se escucha algo de ruido blanco de fondo y en otros el sonido está totalmente limpio. También suele haber diferencia en la reverberación que se le aplica a nuestra voz. En ocasiones, en uno de los audios aparece algo distorsionada. Seleccionamos el que tenga mejor calidad.
Quinto paso: Crear la voz con el Stems vocal ideal
- Tras comprobar qué Stems vocal suena mejor. Pausamos el que más nos gusta y nos vamos al final de la página para pulsar el botón “More menu contents”. Luego desplegamos el submenú “Create” y finalmente pulsamos en “Voice”.
- Aparece una ventana para etiquetar y guardar la voz. Aquí se podría seleccionar un trozo concreto del audio para que sirva de muestra, pero si la canción que hemos subido no es muy larga y nos gusta tal y como está, no será necesario. Si deseamos seleccionar un fragmento, hay dos cuadros de edición para especificar su inicio y final. El primero es para el punto de partida y el segundo para el final de la selección. Si no lo hacemos, se usará todo el audio (no sé cuál es el límite, pues suelo subir muestras de 1 minuto).
- Etiquetamos la voz con un nombre.
- Podemos agregar una descripción. En principio no es necesario. Yo he obtenido buenas canciones sin ella, pero puede ser útil para solucionar algunas cosas. Mi consejo es que inicialmente no pongamos nada aquí, al menos hasta que comprobemos qué tal se comporta nuestra voz. Encontraréis más información sobre las descripciones en el encabezado “Descripción de la voz (identidad vocal)”.
- Es muy importante desmarcar una casilla que hay antes de donde pone «Public», pues viene activada por defecto, haciendo que nuestra voz sea pública. Al desmarcarla pasa a ser privada. A no ser que queramos que sea pública. Si nos olvidamos de hacerla privada, al abrir la voz desde el botón “ADD voice” de la pantalla principal del modo avanzado, también está esta misma casilla de verificación.
- Finalmente, la guardamos pulsando en “Save”.
Y bueno, ya sabéis que podemos crear tantas voces como deseemos. Tanto con nuestra voz, cantando distintos estilos y registros vocales, como con voces de la propia herramienta. Es decir, en ocasiones obtenemos una canción con una voz de Suno que nos gusta especialmente. Pues bien, podemos extraer los Stems de esa canción usando la función “Get Stems” y crear una nueva voz con ella. De esa forma nos aseguramos de hacer canciones con ella, pues ya sabéis que Suno emplea sus voces de forma bastante aleatoria.
Descripción de la voz (identidad vocal)
Introducción a la Descripción de la voz
A la hora de guardar nuestra voz por primera vez, o a la hora de editar una que ya tengamos creada, nos encontramos con un cuadro de edición para incluir una descripción que le agregará cierta identidad vocal. Se podría decir que es una especie de dosier con sus características vocales. El objetivo es definir cómo es la voz que está cantando, no el género de la canción, y que Suno lo tenga en cuenta a la hora de crear las canciones. Para lo segundo, para definir el género o estilo, ya hay un cuadro de edición llamado “Styles”, que no es necesario rellenar. A no ser que nos queramos dedicar a cantar un estilo musical muy concreto, que además se corresponda con la canción que hemos subido de muestra.
Tal y como he comentado anteriormente, en principio no es necesario añadir nada en la descripción. Es más, mi consejo es que inicialmente no se ponga nada en este campo y probar a ir haciendo canciones con la voz a ver qué tal se comporta en los distintos estilos musicales. Si se nota alguna carencia o problema, entonces ya sí que se puede probar a solucionarlo con la descripción. Por ejemplo, algo que suele ocurrir es que nuestra voz cante con un acento que no es el nuestro. Eso es algo que me ocurría a mí de forma esporádica, pero que se ha solucionado con la descripción. Otra cosa que me ocurre, es que como mi voz es muy suave y no soy capaz de grabar una muestra de mi voz cantando de forma enérgica y alcanzando notas altas (al menos sin sentir que falseo mi voz de forma poco natural), cuando me pongo a crear canciones que requieren ese tipo de voz, como Suno no tiene esa información vocal, tiende a inventarse cómo sería mi voz en esas circunstancias, y claro, ahí ya no me reconozco. Soy consciente de que he de intentar esforzarme más para realizar una muestra que suministre esa información vocal, pero ya digo, me resulta complicado hacerlo sin falsear mi voz. Lo he intentado, pero la voz resultante no me convence. No me reconozco en ella. Pues bien, mientras encuentro una solución, he especificado en la descripción ciertos detalles que palían algo el tema (al menos en ciertos estilos musicales, en otros, es imposible).
Lo que escribamos aquí se puede hacer en español, pero al igual que con lo que se introduce en el campo del estilo de la canción a crear, si lo hacemos en inglés suele ser más efectivo.
Por cierto, hay que tener cuidado de no incluir palabras, ya sea en español o inglés, que se correspondan con el nombre de un grupo musical o con una franquicia relacionada con la música. Si no, nos dará un error y no podremos guardar la voz con esa descripción. Por ejemplo, si ponemos en inglés que la voz es tal y cual, en inglés es “The voice” y no nos lo permite. En su lugar hemos de poner que su voz es tal y cual.
Comentar también que al añadir una descripción a una voz ya creada, puede darse el caso de que suene distinta. Por supuesto, esto puede ser por no acertar en su descripción, pero me he encontrado que con un ajuste distinto del deslizable de la influencia del audio la voz vuelve a sonar bien, y además, beneficiándose de lo que he añadido en la descripción. Me ha pasado con una de mis voces. Tuve que bajar ese deslizable desde el 100% al 89% para que volviese a sonar como siempre, pero curiosamente, al día siguiente, tuve que volverlo a poner al 100%. Igual fue una anomalía de la versión beta, pero bueno, lo comento por si os pasa.
No os preocupéis si al añadir una descripción desgraciáis una voz, basta con acceder a su edición y eliminar lo que hayáis puesto en la descripción. Al hacer eso y guardar los cambios, afortunadamente vuelve todo a la normalidad.
Aspectos a añadir en la descripción
A continuación tenéis algunos ejemplos orientativos de lo que se puede añadir en el cuadro de la descripción. Por supuesto, se puede poner cualquier otra cosa que se nos ocurra y que creamos que puede ser útil para mejorar la voz, pero cuidadito con lo que se hace:
- Demografía e idioma: Se puede especificar el género (masculino/femenino), la edad aproximada, la nacionalidad y el acento (por ejemplo, español de España con un acento castellano neutro).
- Timbre vocal: Si lo sabemos, podemos definir el tipo de voz (tenor, barítono, bajo, soprano, mezzo-soprano o contralto). También se puede describir la textura física de la voz (si es rasposa en registros bajos, si es suave, aireada, clara, desgastada o nasal). Si no tenemos ni idea de estas cosas, no pasa nada y no lo especificamos. Mejor no agregar cosas que puedan desgraciar nuestra voz.
- Entrega Técnica: Podemos detallar cómo es nuestra voz al cantar. Por ejemplo, si usa un falsete suave, si tiene una enunciación clara y precisa, un arrastre perezoso, si tiende a usar un vibrato, o una cadencia rápida tipo rap. También podemos especificar el tema de la dinámica, es decir, si solemos pasar de un susurro rudo a una entrega potente, o si usamos cambios dinámicos frecuentes.
- Contexto Emocional: podemos definir el sentimiento habitual de nuestra voz, como melancólica, agresiva, vulnerable, confiada, alegre, o siniestra.
La descripción debe ser clara en los conceptos y no muy larga, pues si no, puede confundir a la IA y afectar negativamente a nuestra voz, dejando de ser útil. Se debe enfocar estrictamente en las características que creamos realmente importantes y que controlemos, evitando introducir cosas innecesarias, así como nomenclatura técnica que desconozcamos.
Si hacemos bien la descripción, no tan sólo se solucionarán aquellas carencias que hayamos observado en nuestra voz, también permitirá que ésta se mantenga consistente aunque el género musical cambie radicalmente (por ejemplo, al pasar de una balada pop a una canción de rock). No obstante, hay voces que a pesar de todos nuestros intentos, no quedarán bien con ciertos estilos musicales, pues la IA hará lo posible para hacerla encajar, rellenando las carencias de la muestra original, y es muy probable que no nos reconozcamos en la canción resultante. Tenemos que ser conscientes de nuestro tipo de voz y limitarnos a emplearla en aquellos estilos en los que encaje.
Ejemplos de Descripciones
Ejemplo de una descripción bastante técnica:
Cantante masculino de unos 30 años. Español de España con acento castellano neutro. Tenor, con una voz suave, pero con un ligero toque rasposo. La entrega es emocionalmente vulnerable, utilizando falsetes frecuentes y una enunciación clara pero melancólica. El tono tiene una calidez natural similar a la de un artista de indie-folk contemporáneo.
En mi caso, no me he complicado mucho, y tras probar varias cosas, en la descripción de mi voz tan sólo he añadido algunos detalles que me han resultado especialmente útiles. Ya que Os he comentado antes las carencias y problemas que tenía con la muestra de mi voz, os los comparto a modo de ejemplo (os los pongo en español, pero a la hora de incluirlos en la descripción, los he traducido al inglés):
Cantante masculino de unos 40 años. Español con acento castellano neutro de Madrid. Su voz es dulce, cadenciosa y lenta. Se mantiene constante con esa cadencia y características durante todo el transcurso de la canción. Incluso en registros altos o cuando la intensidad aumenta, su voz mantiene esas características.
He puesto lo del idioma y acento para solucionar cierto acento andaluz que aparecía de forma esporádica en las canciones. Por otro lado, aunque mi voz no es especialmente lenta, al ponerlo evito que la IA la suba en intensidad y deje de reconocerme en ella. Además, en según qué estilos musicales, también añado instrucciones precisas en el cuadro del estilo musical para intentar evitar situaciones en las que mi voz deja de ser reconocible. De todas formas, hay algunos estilos en los que cualquier intento es infructuoso. Soy consciente de que estos problemas se solucionarían con una muestra de audio en la que cante con más registros vocales. Así que intentaré hacerlo.
Cómo seleccionar, utilizar y gestionar las voces que hemos creado
Cómo seleccionar y utilizar una voz
Tras crear una voz, ya queda seleccionada para poder hacer canciones de forma inmediata con ella. Pero si cerramos el navegador, deberemos seleccionarla. Para ello:
- Cuando deseemos crear una canción empleando nuestra voz, seleccionamos el modo “Advanced” y presionamos en “Add voice”.
- En la pantalla que se abre pulsamos «Intro» en el gráfico de la voz. El lector de pantalla dice que es un clickeable.
- Iniciamos el proceso de creación musical de la forma habitual.
Cómo cambiar de voz
- Si deseamos cambiar de voz, estando en la pantalla de creación “Advanced”, debajo del botón con el nombre de la voz que tenemos seleccionada en ese instante, hay un botón llamado “Remove selected voice”. Esto borra su selección. No la elimina. Lo pulsamos.
- Luego seleccionamos otra voz desde el botón “Add voice”.
Nota: En alguna ocasión, al cambiar de voz, la que he seleccionado a continuación no se ha mostrado en la pantalla de creación. En esos casos reinicio el navegador y la cargo desde cero.
Cómo eliminar una voz
Para eliminar una voz:
- Estando en el modo “Advanced”, pulsamos el botón “Add voice” y luego seleccionamos la voz que deseamos eliminar.
- Una vez tenemos la voz en la pantalla de creación, entramos en ella, pulsando en su nombre.
- Presionamos en el “More options” que hay un poco más abajo de su nombre y en el submenú que se despliega pulsamos en “Move to Trash”.
- Tras eliminarla, volvemos a encontrarnos en la pantalla de la voz. Pulsamos el botón “Create with voice” que hay un poco más arriba del “More options” que hemos presionado anteriormente. Esto nos lleva a la pantalla principal de creación.
- A pesar de haberla eliminado, la voz sigue estando en la pantalla principal de creación. Pulsamos el botón “Remove selected voice”.
Cómo editar una voz
Si deseamos cambiarle el nombre a una voz, así como añadir o modificar su descripción:
- Estando en el modo “Advanced”, primero hacemos que la voz que deseamos editar aparezca en la pantalla principal de este modo. Ya sabéis, pulsamos el botón “Add voice” y luego seleccionamos la voz que nos interesa.
- Entramos en la voz, presionando en su nombre.
- Presionamos en el “More options” que hay un poco más abajo de su nombre y en el submenú que se despliega pulsamos en “Edit”.
- Una vez dentro de la edición, modificamos lo que nos interesa y luego pulsamos en “Save”.
- Tras guardar los cambios, volvemos a encontrarnos en la pantalla de la voz. Pulsamos el botón “Create with voice” que hay un poco más arriba del “More options” que hemos presionado anteriormente. Con esto volvemos a la pantalla principal de creación.
Cómo perfeccionar nuestras voces
Si en la muestra original con la que hemos creado una voz no hemos cantado muy bien que digamos y nos gustaría que ese clon cantase aún mejor, o si simplemente queremos mejorarlo aún más, recomiendo crear una nueva voz a partir de la mejor voz que hayamos conseguido previamente. El objetivo es mejorarla, pero de forma que aún nos sigamos reconociendo en ella. Para esto hay que realizar lo siguiente:
- Debemos crear una canción con nuestra voz, con la letra que deseemos y con tan sólo un instrumento. Puede servir el estilo descrito en el tercer paso de los métodos 2 y 3. Es decir, Clear spanish male voice vocals with piano solo. Se trata de conseguir una canción con la menor presencia de instrumentos posible, en la que cantemos bien y en la que nos reconozcamos perfectamente.
- Una vez la conseguimos, la pausamos, nos vamos al final de la página, pulsamos en el botón “More menu contents” y luego en “Get Stems”, para separar las pistas vocal e instrumental.
- Seleccionamos la opción básica de 10 créditos.
- Nos vamos a la tabla de los resultados y presionamos en el botón “4 new clips hidden by current filters”, para mostrar los Stems.
- Reproducimos los Stems vocales y nos quedamos con el que mejor se escuche. Lo pausamos.
- Luego nos vamos al final de la página para pulsar en el botón “More menu contents”, después en “Create” y finalmente en “Voice”.
- Le ponemos un nombre a la nueva voz, desmarcamos la casilla que la hace pública y la guardamos.
Canciones de muestra con voces clonadas
A continuación tenéis varias muestras de lo que se puede hacer con esta nueva funcionalidad de Suno. Son cinco canciones en las que cantamos tres personas de las que conocéis sobradamente nuestras voces: Ricardo Abad, Enrique Varela y un servidor, Jaime franco. El hecho de que conozcáis nuestras voces os ayudará a valorar la eficacia de esta herramienta a la hora de clonar las voces. Hay un poco de todo, para que podáis comprobar su tremendo potencial y los resultados. Tal y como ya he comentado anteriormente, estas canciones se han creado con el segundo método descrito en este artículo, es decir, el primero que apareció, y empleando el motor 5.0.
Canción “Sixteen Tons”. Por Ricardo Abad.
Canción “Kansas City Fusion”. Por Ricardo Abad.
Canción “Mrs. Otis Regrets”. Por enrique Varela.
Canción “Bienvenido y bienvenida a SucDePoma”. Por Jaime Franco.
Canción “De pequeñito quería ser cantante”. Por Jaime franco.
Agradecimientos
A Ricardo Abad, por haberme descubierto esta nueva funcionalidad de suno, pues hacía algún tiempo que no creaba canciones con esta herramienta y la desconocía. Además, nos ha compartido un par de canciones estupendas en las que su impresionante voz queda genial.
Gracias también a Enrique Varela, con el que Ricardo y yo estamos colaborando en la elaboración de una guía con el proceso descrito en este artículo y que se compartirá en breve. Sus aportes han sido realmente valiosos e interesantes. Él también nos ha compartido una hermosa canción en la que su voz queda genial.
Enlace de interés
Enlace a la página de suno AI.
Autor, Jaime Franco
