Hace un par de dias lei en la prensa especializada un articulo sobre como la Universidad de Oslo habia implementado un servicio automatico de creacion de subtitulos en videos. Habian utilizado un sistema llamado Whisper de OpenAI. No se porque, quizas porque yo tambien trabajo en la Universidad de Oslo, pero esta vez me pico la curiosidad y decidi investigar un poco mas sobre el tema. Inteligencia artificial y aprendizaje de maquinas son terminos que estamos escuchando constantemente en los ultimos tiempos y suenan a menudo a ciencia ficcion para muchos. Segun OpenAI, Whisper es un sistema automatico de reconocimiento de voz y ha sido entrenado con mas de 680.000 horas de audios multilingües y multitarea recopilados de internet. Se puede utilizar para transcribir audio en multitud de lenguajes y para traducir estos audios al ingles. Whisper utiliza el lenguaje de programacion Python, la biblioteca de aprendizaje automático PyTorch, la biblioteca de analisis numerico NumPy, el modelo de aprendizaje profundo de HuggingFace Transformers y ffmpeg para codificar y convertir diferentes formatos de audio y video. Yo soy un neofito en la materia y solamente tengo conocimientos teoricos bastantes basicos sobre como estos sistemas funcionan, no tengo experiencia practica en como programarlos internamente. Podria yo instalar un sistema de estos en mi laboratorio casero sin utilizar muchos recursos?. Podria conseguir algun resultado practico de su uso? Vamos a verlo en este articulo. Por cierto, esta introduccion ha sido generada por OpenAI Whisper, cree un archivo de audio con mi voz y la introduccion en español. Luego use Whisper, primero para transcribir el audio a texto y ver si reconocia bien mi acento andaluz cuando hablo español, y segundo, para traducir el audio al ingles antes de copiar y pegar el texto sin modificaciones en este articulo. Debo decir que estoy impresionado con el resultado despues de tan poco esfuerzo por mi parte.