manejo del audio con fast whisper (python)
This commit is contained in:
		
							
								
								
									
										56
									
								
								chunks_fast_whisper.md
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										56
									
								
								chunks_fast_whisper.md
									
									
									
									
									
										Normal file
									
								
							| @ -0,0 +1,56 @@ | ||||
| # Flujo de Audio desde el Navegador hasta el Modelo de Procesamiento (Fast Whisper - python) | ||||
| ```bash | ||||
|     [ Navegador (micrófono) ] | ||||
|                 │ | ||||
|                 ▼ | ||||
|     [ WebSocket - envío de chunks ] | ||||
|                 │ | ||||
|                 ▼ | ||||
|     [ Servidor - recibe chunks ] | ||||
|                 │ | ||||
|                 ▼ | ||||
|     [ Buffer de audio interno ] | ||||
|                 │ | ||||
|                 ▼ | ||||
|     [ Cola de procesamiento ] | ||||
|                 │ | ||||
|                 ▼ | ||||
|     [ Worker - procesamiento de voz ] | ||||
|                 │ | ||||
|                 ▼ | ||||
|     [ Modelo de transcripción / análisis ] | ||||
| ``` | ||||
|  | ||||
| ### 1. Captura del Audio (Web) | ||||
| El usuario habla, y el navegador graba el audio mediante el micrófono. | ||||
|  | ||||
| El audio se divide en pequeños fragmentos (chunks) en tiempo real. | ||||
|  | ||||
| Estos chunks se envían al servidor mediante una conexión WebSocket. | ||||
|  | ||||
| ### 2. Recepción del Audio (Servidor) | ||||
| El servidor escucha los mensajes entrantes del WebSocket. | ||||
|  | ||||
| Cada mensaje recibido contiene un chunk de audio. | ||||
|  | ||||
| Si el audio no está en el formato esperado (por ejemplo, no es de 16 kHz), se resamplea a la frecuencia adecuada. | ||||
|  | ||||
| ### 3. Preprocesamiento | ||||
| Cada chunk de audio es enviado a una función que lo almacena temporalmente en un buffer interno. | ||||
|  | ||||
| Una vez que el buffer acumula suficiente audio (por ejemplo, 1 segundo), se forma un bloque más grande. | ||||
|  | ||||
| Este bloque es enviado a una cola de procesamiento. | ||||
|  | ||||
| ### 4. Cola de Procesamiento | ||||
| La cola permite que el sistema siga recibiendo audio aunque el procesamiento tarde un poco. | ||||
|  | ||||
| Actúa como un intermediario entre la recepción y el análisis, para evitar pérdidas. | ||||
|  | ||||
| ### 5. Procesamiento de Audio | ||||
| Un componente de fondo ("worker") toma los bloques de la cola. | ||||
|  | ||||
| Este worker realiza tareas como: | ||||
| - Detección de voz (saber cuándo alguien empieza a hablar) | ||||
| - Detección de palabra clave (wake word) | ||||
| - Preparación para la transcripción | ||||
		Reference in New Issue
	
	Block a user