Hace un par de días leí en la prensa especializada un artículo sobre cómo la Universidad de Oslo había implementado un servicio automático de creación de subtítulos en vídeo. Habían utilizado un sistema llamado Whisper de OpenAI. No sé por qué, quizás porque yo también trabajo en la Universidad de Oslo, pero esta vez me picó la curiosidad y decidí investigar un poco más sobre el tema. Inteligencia artificial y aprendizaje de máquinas son términos que estamos escuchando constantemente en los últimos tiempos y suenan a menudo a ciencia ficción para muchos. Según OpenAI, Whisper es un sistema automático de reconocimiento de voz y ha sido entrenado con más de 680.000 horas de audios multilingües y multitareas recopilados de internet. Se puede utilizar para transcribir audio en multitud de lenguajes y para traducir estos audios al inglés. Whisper utiliza el lenguaje de programación Python, la biblioteca de aprendizaje automático Pytorch, la biblioteca de análisis numérico NumPy, el número de aprendizaje profundo de Hugin Face Transformers y FFmpeg para codificar y convertir diferentes formatos de audio a vídeo. Yo soy un neófito de la materia y solamente tengo conocimientos teóricos bastante básicos sobre cómo estos sistemas funcionan. No tengo experiencia práctica en cómo programarlos internamente. ¿Podría yo instalar un sistema de estos en mi laboratorio casero sin utilizar muchos recursos? ¿Podría conseguir algún resultado práctico de su uso? Vamos a verlo en este artículo. Por cierto, esta introducción ha sido generada por OpenAI Whisper, cree un archivo de audio con mi voz y la introducción en español. Luego use Whisper, primero para transcribir el audio a texto y ver si reconocía bien mi acento andaluz cuando hablo español y segundo para traducir el audio al inglés antes de copiar y pegar el texto sin modificaciones en este artículo. Debo decir que estoy impresionado con el resultado después de tan poco esfuerzo por mi parte.