Cómo pasar de audio a texto con la IA Whisper, es gratis

La IA te permite pasar grabaciones de audio o vídeo a formato texto en minutos. Hubo un tiempo en que la gente transcribía entrevistas dándole al pause (II) y al play (▷) y se pasaba largas horas y días con la grabadora pegada al oído. También hubo un tiempo en que era necesario que los estudiantes tomaran apuntes. Hoy en día, puedes escuchar al profesor o entrevistar a alguien sin preocuparte de tomar apuntes ya que la inteligencia artificial (IA) lo hará por ti y te permitirá tener todo lo hablado en archivos de texto.

La mejor herramienta de transcripción de audio a texto es Whisper, una IA desarrollada por Open AI, la «fundación» creadora de ChatGPT. Whisper es gratis. Pero gratis de verdad, por lo que puede ser usada en clases y sin preocuparte de que te cobren por acceder al servicio premium. Hay muchas otras herramientas de transcripción de audio a texto pero en todas las buenas debes pagar. Aunque Whisper es la mejor, no ha sido usada masivamente debido a que requiere instalarse en Python y escribir algo de código. Y esto asusta a mucha gente.

En este tutorial, explico cómo usar Whisper sin necesidad de instalar nada en tu ordenador y sin pagar nada.

Necesitas una cuenta de Gmail, ir a Google Drive, y crear un archivo de Google Colaboratory. En Drive: Nuevo > Más > Google Colaboratory. Si no te aparece en Drive, ves a colab.research.google.com > Archivo > Nuevo cuaderno

Google Colab es una herramienta que permite a los usuarios escribir, ejecutar, y compartir código en la nube. Además, ofrece acceso a hardware acelerado como GPU. Esto quiere decir que estamos usando una especie de ordenador virtual para ejecutar análisis y funciones que necesitan mucha potencia.

Cámbiale el nombre al archivo de Google Colab (por ejemplo, Probando Whisper), el cual quedará guardado en tu unidad de Google Drive, y dale clic al icono de la carpeta

Posteriormente, vamos a subir el archivo de audio. Para ello dale clic al icono de subir un archivo y busca el audio en tu ordenador.

Es mejor que el archivo de audio esté en alguna carpeta de tu Drive, así suele funcionar mejor. No puede ser una carpeta compartida de Drive. Debe estar el archivo de audio en tu Drive. Si tienes el archivo de audio en tu Drive puedes darle acceso a Google Colab para que acceda a tus carpetas de Drive. Para ello dale clic a la carpeta con el símbolo de Drive.

Una vez subido el archivo de audio, los códigos para instalar y ejecutar Whisper están en el repositorio de GitHub. Para no hacer el tutorial eterno, pego aquí directamente los códigos que se deben ejecutar en Google Coalb.

Pega el siguiente código en el archivo de Google Colab para instalar Whisper y dale clic al icono de ejecutar (▷), como aparece en la foto de abajo.

pip install -U openai-whisper

Crea una nueva línea de código debajo. Para hacerlo debes darle clic donde pone + Código

En la nueva línea pega el siguiente código y dale clic al icono de ejecutar (▷):

! sudo apt update && sudo apt install ffmpeg

El siguiente paso es crear una nueva línea de código

En esta nueva línea debes pegar todo este código, pero no ejecutes todavía que lo vamos a cambiar

import whisper
model = whisper.load_model("medium")
result = model.transcribe("audio.mp3")
print(result["text"])

Antes de ejecutar este código debemos copiar la ruta donde está el archivo de audio. Es decir, decirle a Whisper donde tienes el archivo de audio. En la hoja de Google Colab, donde está el archivo de audio, hay que darle clic a esos tres puntos (o botón derecho en el mouse) y darle clic a «Copiar ruta».

Esa ruta debemos pegarla y sustituirla en el código anterior donde ponía «audio.mp3». Debes conservar las comillas. Por tanto, el código definitivo quedaría así

import whisper
model = whisper.load_model("medium")
result = model.transcribe("/content/22 feb, 17.25_.m4a")
print(result["text"])

Una vez sustituida la ruta podemos darle clic al icono de ejecutar (▷). La transcripción tarda según la duración del audio. Hay que ser paciente ya que para transcribir un audio de 10 minutos Whisper tarda unos 20 minutos. ¿Hay alguna forma para que transcriba más rápido? Sí, pero pierde calidad la transcripción. En el último código podemos sustituir el modelo de Whisper de «medium» a «small», quedando el código así:

import whisper
model = whisper.load_model("small")
result = model.transcribe("/content/22 feb, 17.25_.m4a")
print(result["text"])

Pero creo que lo recomendable es obtener una transcripción de calidad que nos ahorrará tiempo y energía de tener que corregirla. Por tanto, sé paciente mientras se ejecuta la transcripción.

¿Y donde está mi transcripción? Aparece en la última línea. Puedes seleccionarla dándole doble clic, copiarla y pegarla en un documento Word.

Algunos comentarios y recomendaciones para concluir:

Dice Open AI que el español es uno de los idiomas que mejor reconoce Whisper, por tanto, hay que aprovechar que somos líderes en algo.
Whisper soporta formatos de audio como mp3, m4a, mp4 , mpeg , mpga , wav , y webm. Si tu audio está en otro formato (lo cual es raro porque estos son los principales), toca convertir en archivo con alguna herramienta.
Los archivos de audio no pueden ser de más de 25MB. Si tu audio es enorme, la solución es partirlo.
Si tu archivo es un vídeo en mp4 y, por tanto, muy grande de tamaño, es recomendable convertirlo a mp3 primero, y después subirlo a Whisper en formato mp3.
Whisper reconoce el idioma del audio, pero si hubiera algún problema o en el audio se mezclan idiomas, habría que ejecutar un código para decirle a Whisper qué idioma ha de reconocer. Toda esa información puedes encontrarla en el repositorio Github de Whisper.
Hay varios modelos de Whisper (tiny, base, small, medium, large). Cuanto más grande el modelo, más lenta la ejecución, pero más calidad la transcripción. Mi recomendación es usar el «medium» ya que el resultado es satisfactorio.
¿Puede Whisper inventarse algo en la transcripción? Como toda IA, también Whisper puede alucinar, pero suele hacerlo muy pero muy poco.

Espero que el uso de esta herramienta de IA te sea útil, te ahorre horas de trabajo de transcripción y así puedas dedicar más tiempo al análisis y la interpretación, que al final y al cabo son lo entretenido de la investigación y la educación. Si te gustó este artículo, por favor, compártelo por Twitter, Facebook, Whatsapp, LinkedIn o email.

Cómo pasar de audio a texto con la IA Whisper, es gratis

Apúntate a la newsletter de IA: tutoriales y cosas de valor, sin spam

Publicado por

Julian Cardenas

Uso de cookies