¿Qué es Whisper?
Whisper es un sistema de reconocimiento de voz automático entrenado con 680,000 horas de audio en varios idiomas y acentos.
Utiliza una arquitectura de Transformers para transcribir audio a texto y traducirlo al inglés si es necesario.
El sistema detecta el idioma, divide el audio en segmentos de 30 segundos, y transcribe utilizando codificadores y decodificadores.
Además de transcribir, Whisper puede identificar idiomas, marcar tiempos y procesar voz multilingüe.
Está diseñado para ser escalable y manejar grandes cantidades de audio con características avanzadas de procesamiento de lenguaje natural.
Creación de Aplicación Paso a Paso:
Objetivo de la Aplicación
Crear una aplicación web que permita:
- Subir un archivo de audio o video en formatos MP3, WAV, MP4.
- Convertirlo a un formato reconocible por Whisper.
- Seleccionar el idioma del audio para transcribir.
- Descargar la transcripción en un archivo de texto y también en formato SRT.
Herramientas y Tecnologías Necesarias que vamos a utilizar
- Python: Lenguaje de programación para el backend.
- Visual Studio Code (VS Code): Editor de código.
- Flask: Framework web para Python.
- Whisper: Modelo de OpenAI para transcripción de audio.
- FFmpeg: Herramienta para manejar archivos de audio.
- Bootstrap: Framework CSS para mejorar la interfaz de usuario.