Hace un par de dias lei en la prensa especializada un articulo sobre
como la Universidad de Oslo habia implementado un servicio automatico
de creacion de subtitulos en videos. Habian utilizado un sistema
llamado Whisper de OpenAI.

No se porque, quizas porque yo tambien trabajo en la Universidad de
Oslo, pero esta vez me pico la curiosidad y decidi investigar un poco
mas sobre el tema. Inteligencia artificial y aprendizaje de maquinas
son terminos que estamos escuchando constantemente en los ultimos
tiempos y suenan a menudo a ciencia ficcion para muchos.

Segun OpenAI, Whisper es un sistema automatico de reconocimiento de
voz y ha sido entrenado con mas de 680.000 horas de audios
multilingües y multitarea recopilados de internet. Se puede utilizar
para transcribir audio en multitud de lenguajes y para traducir estos
audios al ingles.

Whisper utiliza el lenguaje de programacion Python, la biblioteca de
aprendizaje automático PyTorch, la biblioteca de analisis numerico
NumPy, el modelo de aprendizaje profundo de HuggingFace Transformers y
ffmpeg para codificar y convertir diferentes formatos de audio y
video.

Yo soy un neofito en la materia y solamente tengo conocimientos
teoricos bastantes basicos sobre como estos sistemas funcionan, no
tengo experiencia practica en como programarlos internamente. Podria
yo instalar un sistema de estos en mi laboratorio casero sin utilizar
muchos recursos?. Podria conseguir algun resultado practico de su uso?
Vamos a verlo en este articulo.

Por cierto, esta introduccion ha sido generada por OpenAI Whisper,
cree un archivo de audio con mi voz y la introduccion en
español. Luego use Whisper, primero para transcribir el audio a texto
y ver si reconocia bien mi acento andaluz cuando hablo español, y
segundo, para traducir el audio al ingles antes de copiar y pegar el
texto sin modificaciones en este articulo. Debo decir que estoy
impresionado con el resultado despues de tan poco esfuerzo por mi
parte.