Hace un par de días leí en la prensa especializada un artículo sobre
cómo la Universidad de Oslo había implementado un servicio automático
de creación de subtítulos en vídeo. Habían utilizado un sistema
llamado Whisper de OpenAI.

No sé por qué, quizás porque yo también trabajo en la Universidad de
Oslo, pero esta vez me picó la curiosidad y decidí investigar un poco
más sobre el tema. Inteligencia artificial y aprendizaje de máquinas
son términos que estamos escuchando constantemente en los últimos
tiempos y suenan a menudo a ciencia ficción para muchos.

Según OpenAI, Whisper es un sistema automático de reconocimiento de
voz y ha sido entrenado con más de 680.000 horas de audios
multilingües y multitareas recopilados de internet. Se puede utilizar
para transcribir audio en multitud de lenguajes y para traducir estos
audios al inglés.

Whisper utiliza el lenguaje de programación Python, la biblioteca de
aprendizaje automático Pytorch, la biblioteca de análisis numérico
NumPy, el número de aprendizaje profundo de Hugin Face Transformers y
FFmpeg para codificar y convertir diferentes formatos de audio a
vídeo.

Yo soy un neófito de la materia y solamente tengo conocimientos
teóricos bastante básicos sobre cómo estos sistemas funcionan. No
tengo experiencia práctica en cómo programarlos internamente. ¿Podría
yo instalar un sistema de estos en mi laboratorio casero sin utilizar
muchos recursos? ¿Podría conseguir algún resultado práctico de su uso?
Vamos a verlo en este artículo.

Por cierto, esta introducción ha sido generada por OpenAI Whisper,
cree un archivo de audio con mi voz y la introducción en
español. Luego use Whisper, primero para transcribir el audio a texto
y ver si reconocía bien mi acento andaluz cuando hablo español y
segundo para traducir el audio al inglés antes de copiar y pegar el
texto sin modificaciones en este artículo. Debo decir que estoy
impresionado con el resultado después de tan poco esfuerzo por mi
parte.