Presentan API de voz que conversa como humano

Deepgram, una plataforma especializada en inteligencia artificial de voz para empresas, acaba de lanzar oficialmente su Voice Agent API, una herramienta que podría cambiar la manera en la que interactuamos con máquinas. Esta API permite a los desarrolladores crear asistentes de voz capaces de mantener conversaciones naturales, con respuestas rápidas y sin interrupciones incómodas.

¿Y eso qué significa para ti como usuario común? Piensa en los sistemas automatizados que responden llamadas: menús eternos, voces robóticas, respuestas fuera de lugar. Ahora imagina que, al llamar a un negocio, una voz natural entiende lo que dices, te responde como si fuera una persona real, no te interrumpe y te resuelve rápido. Eso es lo que promete esta tecnología.


¿Qué hace diferente a esta API?

Hoy en día, quienes desarrollan asistentes de voz enfrentan dos caminos poco ideales: o usan plataformas muy cerradas que no se pueden personalizar, o construyen todo desde cero, lo cual requiere tiempo, dinero y conocimientos técnicos avanzados.

La Voice Agent API de Deepgram soluciona ese dilema al unir en un solo paquete todo lo necesario: transcripción de voz a texto, generación de voz natural desde texto, y una lógica de conversación inteligente basada en modelos de lenguaje de última generación. Además, los desarrolladores pueden usar las herramientas de Deepgram o conectar las suyas propias. Todo con una sola interfaz.


¿Dónde ya se está usando?

Empresas como Aircall, Jack in the Box, StreamIt y OpenPhone ya están usando esta tecnología para reducir los tiempos de espera, mejorar la experiencia del cliente y ahorrar costos.

Scott Chancellor, CEO de Aircall, afirma que con esta API lograron crear un agente que “responde de forma natural, incluso si lo interrumpes a mitad de frase”. Mientras que Doug Cook, director tecnológico de Jack in the Box, cree que “los asistentes de voz con IA serán clave para la eficiencia operativa en los próximos años”.


Conversaciones sin fricción

Para que un asistente suene y actúe como humano, necesita más que solo entender palabras. Debe saber cuándo hablar, cuándo callar, si lo están interrumpiendo, y adaptar su respuesta al momento. Todo eso es lo que hace esta API por sí sola, sin que los desarrolladores tengan que construirlo desde cero.

Por ejemplo, OpenPhone pudo integrar sus propios modelos de voz, y aún así usar toda la infraestructura de Deepgram para que las conversaciones fluyeran como entre personas reales.


¿Y el costo?

Para las empresas que usan toda la tecnología integrada de Deepgram, el precio es fijo: $4.50 dólares por hora de uso. Eso permite planear gastos sin sorpresas. Además, si usan sus propios modelos de voz o lenguaje, obtienen descuentos.


¿Qué viene después?

Deepgram ofrece documentación clara, herramientas interactivas y $200 dólares en créditos gratuitos para que cualquier equipo pueda probar la API y crear su propio asistente de voz. Esto podría beneficiar desde centros de atención al cliente hasta aplicaciones que ayudan a personas mayores o con discapacidades.

En un futuro no tan lejano, hablar con una máquina podría sentirse igual de cómodo que hablar con un humano. Y Deepgram quiere ser la voz de esa nueva era.