IA de Audio

Tabla de Contenidos

¿Qué es el nodo IA de Audio y para qué sirve?
Configuraciones
- Seleccionar fuente (Source)
- Ajustes de voz y formato de salida
Tips de uso

El nodo IA de Audio en AI Content Labs te permite generar archivos de audio a partir de texto o crear transcripciones a partir de un archivo de sonido. Este artículo explica en detalle sus principales funciones y configuraciones, para que puedas integrarlo sin complicaciones en tus flujos de trabajo.

¿Qué es el nodo IA de Audio y para qué sirve?

El nodo IA de Audio convierte el texto que recibe en un archivo de sonido alojado temporalmente (la URL resultante estará disponible durante 7 días). También puede, con algunos modelos, reconocer audio y transcribirlo a texto.
En flujos complejos, es común usar un nodo Prompt para generar texto y luego enviarlo al nodo IA de Audio, obteniendo una respuesta hablada. De igual forma, podrías utilizarlo junto con un nodo Divisor de texto para dividir el contenido y generar múltiples archivos de audio.

Configuraciones

Cada proveedor de IA ofrece modelos y parámetros distintos. Puedes consultar esta lista de modelos de IA de Audio disponibles para saber qué opciones están habilitadas en la plataforma. A continuación, se describen los ajustes que encontrarás al abrir la configuración del nodo:

Seleccionar fuente (Source)

En el campo Source, eliges el servicio y el modelo específico que deseas usar. Ejemplos comunes incluyen:

OpenAI (tts-1, tts-1-hd, whisper-1)
Eleven Labs.

Ajustes de voz y formato de salida

Dependiendo del modelo elegido, verás opciones como:

Voice / Voice ID: El nombre o ID de la voz seleccionada (por ejemplo, “Alloy”, “Aria” o cualquier voz personalizada).
Response Format / Output Format: El tipo de archivo de salida (por ejemplo, MP3, WAV).
Speed o Apply Text Normalization: Velocidad a la que se reproduce la voz y modificaciones automáticas del texto (como eliminación de puntuación innecesaria).

Tips de uso

Uso con otros nodos: Puedes encadenar un nodo Prompt para generar el texto y luego convertirlo en audio con el nodo IA de Audio. Si quieres crear múltiples audios, podrías usar un nodo Divisor de texto antes para dividir el texto en partes más manejables.
Formatos de salida: Si vas a publicar audios en tu sitio web, MP3 suele ser la mejor opción por su compatibilidad. Para aplicaciones de edición más avanzada, WAV puede darte mayor calidad.
Personaliza voces: Muchos modelos ofrecen voces con distintos acentos o velocidades. Ajusta estos parámetros según la necesidad del proyecto o la preferencia de tu audiencia.
Validez de la URL: Una vez generado el audio, la ruta de descarga es temporal. Si necesitas almacenarlo de forma permanente, descarga el archivo o utiliza algún servicio de hosting.
Considera la transcripción: Algunos modelos (como whisper-1) sirven para transformar audio en texto. Esto resulta útil si quieres generar subtítulos o un resumen narrado junto con tu flujo.

Para finalizar, recuerda que los Output Settings (ocultar la salida final, no enviar al webhook, etc.) son configuraciones generales disponibles en casi todos los nodos. Úsalas según te convenga, pero no influyen en la funcionalidad básica de la generación del audio o la transcripción.

Al combinar este nodo con otros en tu flujo, tendrás la posibilidad de producir contenido de voz en distintos idiomas y con diferentes matices, aprovechar módulos de texto para generar contenidos más dinámicos y, en definitiva, personalizar la experiencia de usuario de manera muy flexible.

Con el nodo IA de Audio, transformar texto en audio o transcribirlo nunca había sido tan sencillo. Experimenta con los distintos parámetros y modelos para encontrar la combinación que mejor se adapte a tus proyectos.