Analisis Espectrografico

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 14

Análisis espectrográfico

Juan Byron

Resumen
En principio se presenta una descripción escueta de la fonética y su objeto de estudio.
A seguida se establece una clasificación de esta disciplina. Posteriormente, se define,
también de forma escueta, la fonética articulatoria y la perceptiva. Luego se define la
fonética acústica y algunos de los programas informáticos que se emplean para los
análisis acústicos. Después se presentan los medios de almacenamiento de los sonidos
del habla. Finalmente, se describen el espectrograma y sus clases.

Palabras clave: fonética acústica, espectrograma, armónico, formante.

Introducción

La fonética es la disciplina que se encarga del estudio de los sonidos lingüísticos


(fonos), sin tomar en cuenta su carácter distintivo, lo que corresponde a la fono-
logía. El interés de la fonética es el estudio de los sonidos desde el punto de vis-
ta físico y fisiológico.

La fonética se encuentra dividida en tres ramas: la articulatoria o fisiológica, la


acústica y la perceptiva. La primera se encarga del estudio de los órganos articu-
latorios, de la descripción de los sonidos que resultan de la actividad de estos
órganos y de la clasificación de los sonidos lingüísticos, en tanto que la percep-
tiva es una rama ligada a la psicología y se encarga del estudio de los sonidos
desde el punto de vista del oyente.

1
Por otro lado, la fonética acústica se encarga del estudio de las propiedades físi-
cas de los sonidos lingüísticos, de su estructura acústica. Para ello se apoya en
un conjunto de conceptos de la física acústica y se vale de dispositivos electró-
nicos, que en años recientes han sido sustituidos por programas informáticos,
como el Speech Analyzer, el WaveSurfer, el Speech Filing System y el Praat,
que pueden instalarse en cualquier computadora con al menos 1 GB de memoria
RAM y un procesador, como, por ejemplo, Athlon II x2 de AMD o core 2 duo
de Intel.

En la actualidad, los sonidos lingüísticos, como todos los sonidos, pueden gra-
barse, guardarse o almacenarse en memorias USB, en discos compactos o
DVDs, en grabadoras digitales, en los antiguos casetes, en el disco duro de una
computadora o en un disco duro externo. Luego estos archivos fónicos, a través
de uno de los programas de análisis del habla (el Speech Analyzer es muy reco-
mendable), deben convertirse en ficheros Wav –en caso de que ya no estén con-
vertidos– para que puedan recuperarse, modificarse y analizarse por medio de
estos programas de análisis del habla. Algunos programas reconocen ficheros
Mp3, aiff, voc, au, wma, entre otros.

Actualmente, la fonética acústica se vale de una serie de análisis para el estudio


de los fonos o sonidos del habla. Uno de los análisis más utilizados es el espec-
trográfico o sonográfico.

1. Espectrograma
Un espectrograma o sonograma se puede definir como una sucesión de espec-
tros. Es la representación de las variaciones de la frecuencia en la ordenada (eje
vertical: abajo-arriba) de la señal sonora a lo largo del tiempo en la abscisa (eje
horizontal: izquierda-derecha). También se puede decir que el espectrograma
corresponde a la distribución frecuencial (espectro) de la señal (eje vertical) re-
gistrada en función del tiempo (eje horizontal).

La escala de la frecuencia, medida en Hz o KHz (hercios o kilohercios), puede


variarse generalmente desde los 3500 Hz (para un estudio más detallado de las
vocales) hasta los 11,000 Hz (para estudiar las consonantes). En relación con el
tiempo, la escala puede estar dividida en segundos o milisegundos.

2
El análisis espectrográfico o sonográfico involucra en todo caso una ventana
temporal. Esta ventana es la parte de la onda lingüística objeto de observación
en un momento dado con el propósito de determinar sus componentes frecuen-
ciales.

Los espectrogramas se clasifican en espectrogramas de banda estrecha (con fil-


tro de 45 Hz) y de banda ancha (con filtro de 300 Hz). Incluso el programa de
análisis del habla Speech Analyzer permite un espectrograma de banda media
(con filtro de 172 Hz), en tanto que el WaveSurfer permite una variación conti-
nua del ancho de los formantes. Otro tanto sucede con el Praat, pero la variación
del ancho de banda se realiza, en este caso, mediante la asignación de un valor
numérico (por ejemplo, 0.004 o 4 ms) a la longitud de la ventana (window
length).

A diferencia del espectro, el análisis espectrográfico o sonográfico es un análisis


de las propiedades dinámicas de los sonidos del habla, puesto que se desarrollan
a través del tiempo.

2. Espectrograma de banda estrecha


En el análisis de banda estrecha se usa un ancho de banda de 45 Hz y una venta-
na de aproximadamente 100 milisegundos. Por tanto, en esta clase de espectro-
gramas se observan líneas negras muy finas que corren de izquierda a derecha y
que corresponden a los armónicos o sobretonos, que son múltiplos de la fre-
cuencia fundamental.

La modificación de la amplitud de los armónicos está determinada por el fenó-


meno de la resonancia. Todo cuerpo tiene una frecuencia de vibración propia
(frecuencia de resonancia) y tiende a resonar cuando recibe una onda que coin-
cide con su frecuencia de vibración natural. En el caso de las cavidades, como la
cavidad bucal o la faríngea, la forma y la dimensión de estas producen una mo-
dificación del tono laríngeo mediante el fenómeno de la resonancia. Una cavidad
pequeña refuerza los armónicos de alta frecuencia, en tanto que una cavidad
grande refuerza los armónicos de baja frecuencia.

3
Los sonidos que se producen por la vibración de las cuerdas vocales presentan
una estructura armónica. Esta estructura generalmente se muestra con claridad
en los espectrogramas de banda estrecha.

En el espectrograma de banda estrecha, al igual que en el de banda ancha, en la


dimensión vertical se muestra la frecuencia, que parte desde el fondo del gráfico
y corresponde a la frecuencia cero. Como se sabe, la unidad de medida de la fre-
cuencia en el Sistema Internacional es el hercio o hertcio (Hz), que se define
como un ciclo por segundo o una vibración por segundo.

En la dimensión horizontal (de izquierda a derecha) se presenta el tiempo, medi-


do actualmente en milésimas de segundo o milisegundos. Generalmente, la du-
ración de los segmentos oscila entre unos pocos milisegundos y 200 milisegun-
dos para los sonidos más largos, como, por ejemplo, las vocales.

En la figura 2.1 se muestra un espectrograma de banda estrecha de la palabra


tremendo [treméņdo], pronunciada por un hablante dominicano de sexo
masculino. El espectrograma se obtuvo con el programa Speech Analyzer, de
SIL International, de Estados Unidos. En el gráfico es posible observar una serie
de líneas finas negras que corren de izquierda a derecha. Estas líneas son los
armónicos o múltiplos del tono fundamental. El armónico más bajo es el
fundamental o primer armónico (F0). El fundamental de una onda periódica
compleja es igual al máximo común denominador de sus componentes
frecuenciales.

También se observa que algunas líneas son más oscuras que otras. Estas líneas
más oscuras son los armónicos reforzados por las resonancias del tracto vocal.
Asimismo, se observan variaciones de las líneas o armónicos. La razón de estos
cambios es la variación del tono laríngeo.

4
Fig. 2.1. Espectrograma de banda estrecha de tremendo.

En la figura 2.2 se muestra el espectrograma o sonograma de banda estrecha de


la palabra cosa [kósa]. En este caso, el programa utilizado para lograr el
espectrograma es el Speech Filing System (SFS), del Colegio Universitario de
Londres.

5
Fig. 2.2. Espectrograma de banda estrecha de la palabra cosa.

Las vibraciones de las cuerdas vocales desarrollan una estructura armónica


claramente visible, que se observa como un conjunto de líneas finas negras.
Estas lineas finas negras corresponden a los armónicos de los sonidos
periódicos. Los armónicos del primer sonido periódico (segundo en el gráfico)
corresponden a la vocal posterior media [o], mientras que los del segundo
sonido periódico (el último segmento) corresponden a la vocal central baja [a].
Pero también es posible observar dos zonas inarmónicas, en las que no aparecen
líneas horizontales separadas. La razón de esta falta de armonicidad es la
presencia de toda clase de frecuencias, no solo múltiplos del fundamental. La

6
primera zona inarmónica corresponde a la explosiva velar sorda o áfona [k], en
tanto que la segunda corresponde a la fricativa predorsoalveolar sorda [s].

En la figura 2.3 se presenta el espectrograma de banda estrecha de la secuencia


un sancocho [un saŋkóĉo]. Esta vez el programa utilizado para obtener el
espectrograma es el Praat, de la Universidad de Amsterdam. Los primeros
armónicos son los que más se destacan, ya que son los de mayor intensidad.

Fig. 2.3. Espectrograma de banda estrecha de un sancocho.

7
3. Espectrograma de banda ancha

En el análisis de banda ancha se emplea un filtro de 300 Hz y una ventana de


cerca de 5 milisegundos, lo que permite una buena resolución temporal, pero no
frecuencial. De ahí que los espectrogramas de banda ancha se vean como bandas
de frecuencia mucho más anchas que las de los armónicos. Estas bandas hori-
zontales oscuras se denominan formantes.

Los formantes son las frecuencias que caracterizan el timbre de una vocal. Son
las resonancias asociadas con las cavidades del tracto vocal. Constituyen el re-
forzamiento de la amplitud de grupos de armónicos situados alrededor de una
determinada frecuencia, lo que significa que el formante, que generalmente po-
see un ancho de banda de 300 Hz (espectrograma de banda ancha) no es una fre-
cuencia única, sino un conjunto de frecuencias. Por tanto, las mediciones de los
formantes no son absolutas, sino estadísticas, y en todo caso, se procura obtener
la frecuencia central del formante.

Los sonidos que son producidos por la vibración de las cuerdas vocales presen-
tan una estructura formántica. Además de las vocales existen otros sonidos con
estructura formántica, como las nasales, las aproximantes, las laterales y las róti-
cas.

La caracterización de las vocales se realiza mediante los tres primeros forman-


tes. En español bastan los dos primeros, debido a que las vocales posteriores
siempre son bemolizadas o redondeadas.

En los espectrogramas de banda ancha también es posible distinguir los pulsos


glotales, que se ven como líneas verticales oscuras que ocurren una detrás de
otra durante la realización de las vocales y los sonidos periódicos.

Un espectrograma de banda ancha de la secuencia es a la técnica [es a la


téγnika], realizada por un comunicador dominicano, se presenta en la figura 3.1.
En el espectrograma, logrado mediante el programa WaveSurfer, es posible
observar los formantes de los sonidos periódicos y las estrías que caracterizan a
estos sonidos. Se observa que el segundo segmento, la consonante fricativa
predorsoalveolar áfona [s] carece de estas líneas verticales porque en su
realización no se producen pulsos glotales.

8
En este espectrograma, el primer segmento corresponde a la vocal [e], y
claramente se distinguen los tres primeros formantes. Después de la [s] se
observan los formantes de la vocal central baja [a], que se encuentra solapada
con la lateral [l] y la segunda vocal [a]

Fig. 3.1. Espectrograma de banda ancha de es a la técnica.

En la figura 3.2 se muestra un espectrograma de banda ancha de la secuencia de


lleno en lo que es [de yéno en lo ke es], realizada por un profesor universitario
dominicano. El programa empleado para la obtención del espectrograma es el

9
WaveSurfer. En el gráfico es posible observar 14 segmentos, la mayoría perió-
dicos. Solo la interrupta velar áfona [k] y la fricativa predorsoalveolar áfona [s]
son aperiódicos. Es importante destacar la fase oclusiva y la fase explosiva –
barra de explosión– del segmento velar áfono, así como la turbulencia de la fri-
cativa, cuya frecuencia de inicio se sitúa a unos 3,500 hercios.

Fig. 3.2. Espectrograma de banda ancha de la secuencia de lleno en lo que es.

Otro espectrograma o sonograma, en este caso obtenido mediante el programa


WaveSurfer, de la Universidad de Estocolmo, se presenta en la figura 3.3. En el
gráfico es posible observar las estrías verticales, que representan los pulsos glo-
tales de los sonidos periódicos, que constituyen casi todos los segmentos de la

10
secuencia acerca del método [aséɾka δel métoδo], realizada por un comunicador
dominicano de sexo masculino. Solo la fricativa predorsoalveolar áfona [s] y la
interrupta dental áfona [t] son aperiódicas y, en consecuencia, carecen de pulsos
glotales. Es una característica de la fricativa el inicio de la concentración de la
energía por encima de los 3,500 hercios. En el caso de la interrupta es posible
observar la fase oclusiva, al inicio de la consonante, y la barra de explosión, que
sigue a la oclusión.

Fig. 3.3.

Finalmente, en la figura 3.4 se presenta un espectrograma de banda ancha de la


secuencia corteza terrestre [koɾtésa teréstɾe], realizada por un comunicador do-
minicano. Esta secuencia, que se obtuvo mediante el programa Speech Filing
System (SFS), consta de 15 segmentos: 9 consonánticos y 6 vocálicos. Es im-
portante señalar que cuatro de los segmentos consonánticos son interruptos: el

11
primero es una consonante velar áfona [k] y tres son consonantes dentales áfo-
nas [t]. Estas consonantes presentan durante su tensión una fase oclusiva. Estas
oclusiones se manifiestan en el espectrograma como trechos carentes de energía
o zonas carentes de formantes, que están señaladas con flechas en el gráfico.
Además, hay tres róticas: una vibrante simple y dos vibrantes múltiples. Asi-
mismo, es importante indicar que se observan dos fricativas predorsoalveolares
áfonas [s]. Al igual que en los casos anteriores, la frecuencia de inicio de la
turbulencia de estas consonantes se encuentra por encima de los 3,500 hercios.
En el caso de las vocales, cabe señalar que en la secuencia aparecen una
posterior media [o], tres anteriores medias [e] y una central baja [a].

Fig. 3.4 Espectrograma de banda ancha de la secuencia corteza terrestre

12
Conclusión

El análisis espectrográfico o sonográfico es una de las herramientas de la fonéti-


ca acústica más empleadas. Complementado con el análisis oscilográfico, el aná-
lisis espectrográfico permite la medición de la duración de los segmentos, de su
intensidad y de sus valores frecuenciales. Asimismo, permite observar las transi-
ciones, que son los movimientos que se producen en los formantes o los cambios
de frecuencia de estos.

Básicamente hay dos tipos de espectrogramas: el de banda estrecha y el de ban-


da ancha. Sin embargo, existen programas que permiten la obtención de un es-
pectrograma de banda media o una variación continua del ancho de los forman-
tes.

Una característica importante del análisis espectrográfico es su carácter dinámi-


co, ya que se desarrolla a través del tiempo. En cambio, el análisis espectral pre-
senta un carácter estático, es decir, no toma en cuenta el tiempo.

13
Referencias

Baart, Joan. 2010. A Field Manual of Acoustic Phonetic. SIL International, Dal-
las, Texas.
Byron, J. 2012. Manual de fonética acústica. Ed. Somos Literatura, Santo Do-
mingo.

Denes, P. y Pinson, E. 1973. The Speech Chain: The Physics and Biology of
Spoken Language. Anchor Books, New York.

Malmberg, B. 1964. La fonética. EUDEBA, Buenos Aires.

Malmberg, Bertil. 1974. Lingüística estructural y comunicación humana. Gre-


dos, Madrid.
Martínez, E. 2007. Análisis espectrográfico de los sonidos del habla. Ariel, Bar-
celona.

Quilis, A. 1981. Fonética acústica de la lengua española. Ed. Gredos, Madrid.

14

También podría gustarte