Voicebox: la alternativa gratuita y de código abierto a ElevenLabs

binance

Voicebox es una alternativa gratuita y local a ElevenLabs capaz de clonar voces con resultados sorprendentemente realistas en Windows, macOS y Linux.


Voicebox permite clonar voces gratis y funciona sorprendentemente bien

La clonación de voz mediante inteligencia artificial ha avanzado muchísimo en muy poco tiempo. Hace apenas unos años, conseguir una voz sintética mínimamente creíble requería herramientas profesionales, configuraciones complejas y bastante paciencia. Ahora basta con unos segundos de audio para generar una copia sorprendentemente realista de una voz humana.

En ese terreno, ElevenLabs se ha convertido en una de las plataformas más populares gracias a la naturalidad de sus voces y sus funciones de texto a voz. El problema es que muchas de sus mejores herramientas requieren suscripción, además de funcionar completamente en la nube. Para algunos usuarios eso supone un límite, tanto por coste como por privacidad.

Ahí es donde entra Voicebox. Se trata de una aplicación gratuita y de código abierto que permite clonar voces directamente desde el PC, sin depender de servidores externos. Está disponible para Windows, macOS y Linux, y no solo sirve para crear voces sintéticas: también integra herramientas de transcripción, perfiles personalizados y distintos modelos de generación de voz con IA. Lo más llamativo es que, pese a ser un proyecto open source, la calidad de los resultados puede llegar a rivalizar con opciones comerciales mucho más conocidas.

Cómo convertir YouTube a MP3 de forma segura (herramientas gratis y mejores métodos)


Qué es Voicebox y por qué se está haciendo popular

voicebox web

Voicebox es un “estudio de voz con IA” que funciona completamente de forma local. En lugar de enviar tus grabaciones a la nube, todo el procesamiento se realiza en tu ordenador. Esto tiene varias ventajas importantes: mayor privacidad, ausencia de límites mensuales y la posibilidad de usar la herramienta gratis sin depender de suscripciones.

Además, el proyecto es de código abierto y su desarrollo puede seguirse desde su repositorio oficial en GitHub.

Entre sus funciones principales destacan:

  • clonación de voz mediante IA
  • generación de texto a voz
  • transcripción automática usando Whisper
  • soporte para distintos modelos TTS
  • grabación desde micrófono o audio del sistema
  • perfiles personalizados de voz

La aplicación también es compatible con modelos modernos como Qwen3-TTS, uno de los motores más recomendados actualmente por su baja latencia y buenos resultados tanto en inglés como en español.


Descarga, instalación y primera configuración

Tan sencillo como instalar cualquier otro programa

Para empezar, lo primero es descargar Voicebox desde la página oficial del proyecto.

Página oficial de descarga de Voicebox

La descarga comienza automáticamente y el proceso de instalación es muy simple. Basta con ejecutar el instalador, elegir la carpeta de destino y completar el asistente como harías con cualquier otra aplicación de escritorio.

voicebox setup

Una vez abierto por primera vez, Voicebox muestra una pantalla inicial de configuración antes de llevarte a la interfaz principal. Aquí es donde tendrás que descargar los modelos necesarios para empezar a generar voces.

La aplicación permite elegir entre distintos motores TTS, aunque actualmente uno de los más recomendables es Qwen3-TTS 1.7B. Este modelo destaca por ofrecer buena calidad de voz, tiempos de respuesta relativamente rápidos y soporte bastante sólido para varios idiomas, incluido el español.

Durante esta fase inicial también conviene descargar Whisper, el sistema encargado de transcribir automáticamente las grabaciones de voz. Dependiendo del modelo elegido, la descarga puede ocupar varios gigabytes.

binance

Eso sí, hay un detalle importante: aunque Voicebox puede funcionar en muchos equipos, la experiencia mejora muchísimo si cuentas con una GPU NVIDIA moderna y al menos 16 GB de RAM. El procesamiento sigue funcionando en CPU, pero será bastante más lento.

Otra ventaja interesante es que Voicebox también puede instalarse mediante Pinokio, una plataforma pensada para gestionar aplicaciones de IA locales con instalaciones de un solo clic. Para usuarios menos técnicos puede ser una opción incluso más cómoda que la instalación manual.


Clonar una voz en Voicebox

El resultado puede llegar a ser sorprendentemente realista

voicebox user interface after opening the app

Con todo configurado, llega la parte más interesante: crear un clon de voz.

El proceso empieza pulsando el botón “Create Voice”. Desde ahí, Voicebox ofrece tres métodos distintos para añadir una muestra de audio:

  • subir un archivo desde el ordenador
  • grabar directamente desde el micrófono
  • capturar el audio del sistema
recording voice using voicebox to create a profile

La aplicación recomienda usar muestras cortas, normalmente de entre 10 y 30 segundos. Aun así, algunos modelos modernos son capaces de generar resultados bastante convincentes incluso con fragmentos mucho más breves.

El sitio How-To Geek probó la aplicación utilizando un micrófono dinámico USB para conseguir una grabación más limpia y sin ruido de fondo. Tras completar la grabación, Voicebox utiliza Whisper para transcribir automáticamente el contenido hablado y rellenar el texto de referencia necesario para entrenar el perfil.

Después solo queda asignar un nombre al perfil de voz, seleccionar el idioma y guardar la configuración.

A partir de ahí, Voicebox abre una nueva ventana desde la que puedes generar audio utilizando la voz recién clonada. El funcionamiento es bastante sencillo: escribes el texto que quieres convertir en voz, eliges el modelo TTS, seleccionas el idioma y aplicas efectos opcionales si quieres modificar el resultado.

generating a speech in voicebox using my recorded audio sample

La primera generación suele tardar un poco más porque el sistema necesita descargar y cargar el modelo seleccionado. En la prueba realizada por How-To Geek, el modelo utilizado fue Qwen3-TTS 1.7B, precisamente uno de los más populares actualmente dentro de la comunidad.

Y aquí llega la parte realmente llamativa: la calidad del clon de voz.

Según la experiencia compartida en la prueba original, escuchar una versión artificial de tu propia voz resulta mucho más impactante que oír demos de terceros. La entonación, el ritmo y ciertos matices consiguen acercarse bastante a la grabación original, especialmente si la muestra utilizada tiene buena calidad y poco ruido de fondo.

Evidentemente, no es perfecto. En algunos casos todavía pueden aparecer pequeñas inconsistencias en pronunciación o naturalidad. Pero para tratarse de una herramienta gratuita, local y de código abierto, los resultados están muy por encima de lo que muchos esperarían.


Una alternativa muy seria a ElevenLabs

Voicebox demuestra hasta qué punto han evolucionado las herramientas de voz con IA en muy poco tiempo. Lo que antes requería servicios caros y procesamiento en la nube ahora puede ejecutarse directamente desde un PC doméstico con resultados sorprendentemente buenos.

Puede que ElevenLabs siga teniendo ventaja en pulido general y facilidad de uso, pero para quienes buscan una alternativa gratuita, privada y sin límites mensuales, Voicebox se está convirtiendo rápidamente en una de las opciones más interesantes del momento.

Eneba
Tagged:
About the Author

Marco es fundador y Editor en Jefe de Tecnobits.net desde 2016. Experto en hardware y gaming con más de dos décadas de experiencia práctica, publica guías útiles, comparativas y análisis reales de PCs, consolas, Windows, Linux y Android.
Su misión: ayudar a los lectores a entender y disfrutar la tecnología con información clara y probada.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *