P1 FFT - TiempoReal - 1

RESUMEN
En el presente reporte se documentará la ejecución de códigos, los cuales contienen

códigos para la ejecución de procesamiento de audio y un reconocimiento de voz el cual
nos indicará si la persona que habla es mujer u hombre
INTRODUCCIÓN
El Procesamiento Digital de Señales (PDS) es una disciplina fundamental en la ingeniería que

revoluciona la forma en que interactuamos con el mundo digital. Consiste en la
manipulación de señales eléctricas mediante algoritmos computacionales, lo que permite
el análisis, la interpretación y la mejora de señales que varían en el tiempo, como las de
audio, video, imágenes, señales biomédicas y muchas otras.
El PDS ha transformado la manera en que se realizan diversas tareas, desde la comunicación

hasta la medicina y la industria. Al aplicar técnicas de PDS, es posible eliminar ruido de una
señal, comprimirla para facilitar su almacenamiento o transmisión, mejorar la calidad de
audio o video, entre otros procesos.
Procesamiento de audio:
El procesamiento de audio se refiere a la aplicación de algoritmos computacionales para

analizar, manipular y sintetizar señales de sonido. Estas señales pueden provenir de diversas
fuentes, como música, habla, efectos de sonido y otros sonidos ambientales.
Dentro de las aplicaciones del Procesamiento de Audio se encuentran las siguientes:
 Reducción de Ruido: Eliminación o atenuación de ruidos no deseados en la señal de

audio.
 Ecualización: Ajuste de la respuesta de frecuencia de la señal de audio para realzar
o reducir ciertas frecuencias.
 Compresión de Audio: Reducción del tamaño de los archivos de audio mediante
algoritmos de compresión.
 Reconocimiento de Patrones de Audio: Identificación automática de características
específicas en la señal de audio, como palabras en el reconocimiento de voz.
Técnicas para el procesamiento de Audio:
 Filtrado: Aplicación de filtros para suavizar o realzar ciertas frecuencias en la señal

de audio.
 Análisis Espectral: Descomposición de la señal de audio en sus componentes de
frecuencia.
 Síntesis de Voz: Generación artificial de señales de voz a partir de modelos
computacionales.
Reconocimiento de voz mediante la FFT:
El proceso de reconocimiento de voz mediante la FFT implica dividir la señal de voz en sus
componentes de frecuencia, lo que significa separar en frecuencias bajas y frecuencias
altas.Esto se logra mediante el cálculo de la FFT de la señal de voz, lo que proporciona una
representación en el dominio de la frecuencia de la señal original.
Aplicaciones del reconocimiento de voz:
 Asistentes de voz y dispositivos inteligentes: Tecnologías como Siri de Apple, Google

Assistant, Amazon Alexa y otros asistentes de voz utilizan el reconocimiento de voz
para entender comandos y preguntas habladas por los usuarios.
 Sistemas de dictado y transcripción: Los sistemas de reconocimiento de voz se
utilizan para convertir la voz hablada en texto escrito, lo que facilita la creación de
documentos y transcripciones de manera rápida y eficiente.
 Control de dispositivos y sistemas: El reconocimiento de voz se utiliza en sistemas
de control de voz para dispositivos domésticos, automóviles, sistemas de seguridad
y más. Permite a los usuarios controlar y operar dispositivos y sistemas simplemente
hablando comandos.
 Interacción hombre-máquina: El reconocimiento de voz facilita la interacción
natural entre humanos y máquinas, permitiendo que los usuarios controlen y
accedan a diversas funciones y servicios utilizando comandos de voz.
 Accesibilidad: Las aplicaciones de reconocimiento de voz son especialmente útiles
para personas con discapacidades que tienen dificultades para utilizar dispositivos
de entrada tradicionales, como teclados y ratones. El reconocimiento de voz les
permite interactuar con computadoras y dispositivos electrónicos de manera más
accesible.
 Servicios de traducción y transcripción: El reconocimiento de voz se utiliza en
servicios de traducción automática y transcripción de idiomas, lo que facilita la
comunicación entre personas que hablan diferentes idiomas y la creación de
subtítulos automáticos en contenido multimedia.
DESARROLLO.
Para realizar los distintos procesamientos se utilizaron códigos y al mismo tiempo nos dio
resultados visuales, los cuales se pudieron observar mediante gráficas
Procesamiento 1. Definición Matemática de la Transformada Discreta de Fourier:
Imagen 1: Código implementado

Este código muestra cómo calcular y visualizar la Transformada de Fourier de una señal en
tiempo discreto, así como la generación y visualización de una señal compuesta en el
dominio del tiempo.
Imagen 2: Amplitud de una señal compuesta en función del tiempo
Imagen 3: Señal en el dominio de la frecuencia

Procesamiento 2: Identificación de Notas Musicales con Audio Real:
El reconocimiento de notas musicales a partir de grabaciones de audio es un área

importante en el procesamiento de señales y la música asistida por computadora. Este texto
presenta un método para identificar notas musicales basado en la frecuencia dominante en
una grabación de audio
Imagen 4: Código implementado
Con ayuda de este código se puede cargar un archivo de audio, reproduce su sonido,
muestra la forma de onda en el dominio del tiempo y representa la magnitud de su
Transformada de Fourier en función de la frecuencia.
Imagen 5: Análisis espectral de la frecuencia dominante de la señal del audio
Imagen 6: Se muestra la transformada de Fourier de la señal de audio
Procesamiento 3, Análisis Espectral en tiempo Real Usando Entrada de Micrófono

El análisis espectral en tiempo real utilizando la entrada de micrófono es una técnica
avanzada que permite la captura y representación dinámica de las características
frecuenciales de una señal de audio en tiempo real. Este proceso implica la adquisición de
datos de audio a través del micrófono de un dispositivo, seguido por la transformación de
la señal en el dominio de la frecuencia mediante técnicas como la Transformada Rápida de
Fourier (FFT).
Procedimiento:
 Configuración del entorno: Se realiza la instalación y se importa PyAudio para la

adquisición de audio en tiempo real, definiendo parámetros como el tamaño y la
lectura continua de audio en paquetes de tamaño especificado. Para obtener el
espectro de frecuencias aplicamos la transformada de Fourier de cada paquete de
datos y finalmente se identifica la frecuencia dominante en cada paquete de datos.
 Creación de una interfaz gráfica: Se configuran las gráficas para visualizar la señal
temporal y el espectro de la señal en tiempo real, para esto se utiliza Matplotlip.
 Adquisición y Procesamiento de Datos: Se abre el canal de audio para la lectura de
datos en tiempo real del micrófono. Se lee continuamente el audio en paquetes de
tamaño especificado. Se realiza la Transformada de Fourier de cada paquete de
datos para obtener el espectro de frecuencias. Se identifica la frecuencia dominante
en cada paquete de datos.
 Visualización y Actualización: Se actualizan dinámicamente las gráficas con los datos
adquiridos en tiempo real. Se muestra la señal temporal y el espectro de frecuencias
en las gráficas correspondientes.
Imagen 7: Codigo implementado
Imagen 8: Persona 1 hablando

Imagen 9: Persona 2 hablando
Con las gráficas obtenidas en tiempo real y con los datos proporcionado es la consola de
Python se puede concluir que, la persona número 1 que estaba hablando la podemos
asociar con un hombre y por consiguiente la persona 2 se deduce que es mujer.
Se puede notar un cambio en los datos que la consola arrojo, dándonos unos posibles
rangos en los cuales se puede diferenciar una voz de otra
CONCLUSION:
En la actividad práctica de la Transformada de Fourier Rápida (FFT) en tiempo real con
Python, se resaltó la capacidad de analizar señales en tiempo real, haciendo énfasis en la
eficiencia de la FFT en descomponer y comprender las diferentes componentes de
frecuencia presentes en una señal. Este enfoque resulta fundamental en diversas
aplicaciones de procesamiento digital de señales, ya que nos permite una comprensión
detallada de la estructura de las señales.
Podemos concluir que la FFT es una herramienta muy eficaz en el procesamiento de señales,
ya que esta nos permite transformar una señal del dominio del tiempo al dominio de la
frecuencia de manera eficiente, la capacidad de implementar la FFT en tiempo real con
Python destaca la importancia del procesamiento digital de señales en una gran variedad
de aplicaciones, demostrando su utilidad para comprender y aprovechar la información
contenida en las señales de tiempo real.
BIBLIOGRAFIA
Libretexts. (2022, 1 noviembre). 13.2: La Transformada Rápida de Fourier (FFT). LibreTexts Español.
https://espanol.libretexts.org/Ingenieria/Se%C3%B1ales_y_Sistemas_(Baraniuk_et_al.)/13%3A_Te
mas_de_procesamiento_de_se%C3%B1ales_de_Capstone/13.02%3A_La_Transformada_R%C3%A
1pida_de_Fourier_(FFT)
Subiza Martínez, B. (2002). Transformada rápida de Fourier con muestreo no uniforme (NUFFT)
aplicada al procesado SAR. España: (n.p.).
"Analysis of the fundamental frequency of voice signals for gender recognition"
Autores: Kartik Sreenivasan, Nivedita Vasant Naik, Priyanka Rajput, y Ramesh Babu D R
Publicación: 2016 International Conference on Advances in Computing, Communications and

Informatics (ICACCI)
¿Qué es el reconocimiento del habla? | IBM. (s. f.). https://www.ibm.com/mx-es/topics/speech-

recognition
RecFaces. (2022, 13 octubre). Cómo funciona la tecnología de reconocimiento de voz.

RecFaces. https://recfaces.com/es/articles/reconocimiento-voz

P1 FFT - TiempoReal - 1

Cargado por

Copyright:

Formatos disponibles

P1 FFT - TiempoReal - 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

P1 FFT - TiempoReal - 1

Cargado por

Copyright:

Formatos disponibles

RESUMEN

En el presente reporte se documentará la ejecución de códigos, los cuales contienen

El Procesamiento Digital de Señales (PDS) es una disciplina fundamental en la ingeniería que

El PDS ha transformado la manera en que se realizan diversas tareas, desde la comunicación

El procesamiento de audio se refiere a la aplicación de algoritmos computacionales para

Dentro de las aplicaciones del Procesamiento de Audio se encuentran las siguientes:

 Reducción de Ruido: Eliminación o atenuación de ruidos no deseados en la señal de

 Filtrado: Aplicación de filtros para suavizar o realzar ciertas frecuencias en la señal

Reconocimiento de voz mediante la FFT:

Aplicaciones del reconocimiento de voz:

 Asistentes de voz y dispositivos inteligentes: Tecnologías como Siri de Apple, Google

Procesamiento 1. Definición Matemática de la Transformada Discreta de Fourier:

Imagen 1: Código implementado

Imagen 2: Amplitud de una señal compuesta en función del tiempo

Imagen 3: Señal en el dominio de la frecuencia

El reconocimiento de notas musicales a partir de grabaciones de audio es un área

Imagen 4: Código implementado

Imagen 6: Se muestra la transformada de Fourier de la señal de audio

Procesamiento 3, Análisis Espectral en tiempo Real Usando Entrada de Micrófono

 Configuración del entorno: Se realiza la instalación y se importa PyAudio para la

Imagen 7: Codigo implementado

Imagen 8: Persona 1 hablando

"Analysis of the fundamental frequency of voice signals for gender recognition"

Publicación: 2016 International Conference on Advances in Computing, Communications and

¿Qué es el reconocimiento del habla? | IBM. (s. f.). https://www.ibm.com/mx-es/topics/speech-

RecFaces. (2022, 13 octubre). Cómo funciona la tecnología de reconocimiento de voz.

También podría gustarte