Carvalho-Dias2000 Vocoders PDF
Carvalho-Dias2000 Vocoders PDF
Carvalho-Dias2000 Vocoders PDF
PAPER
Técnicas de Codificação de Voz Aplicadas em Sistemas
Móveis Celulares
João Luiz A. CARVALHO (97/07867) e Danilo DIAS (97/07760)
RESUMO Este trabalho aborda os conceitos básicos das são baseadas as demais técnicas abordadas. As
principais técnicas de codificação de voz utilizadas em principais técnicas aplicadas nos sistemas móveis atuais
sistemas móveis celulares. Trata inicialmente das (Tabela 1) são então apresentadas e, em conclusão, faz-
características do sinal de voz e das diferenças entre se uma análise comparativa sobre as técnicas discutidas.
codificadores de forma de onda, paramétricos e híbridos. Na
seqüência, são apresentados os codificadores LPC e CELP e Tabela 1 Sistemas móveis e técnicas de codificação aplicadas
os principais algoritmos efetivamente aplicados na telefonia Padrão Técnica Taxa de bits
móvel: RPE-LTP, VSELP, ACELP e QCELP. GSM RPE-LTP 13 kbit/s
palavras-chave: codificação de sinais de voz, codificadores de forma de IS-54B VSELP 7,95 kbit/s
IS-136 VSELP/ACELP 7,95 kbit/s
onda, codificadores paramétricos, codificadores híbridos, LPC, RPE-
IS-95 QCELP 1,2/2,4/4,8/9,6 kbit/s
LTP, GSM, CELP, VSELP, IS-54, ACELP, IS-136, QCELP,
IS-95.
2. Características do Sinal de Voz
1. Introdução Para se desenvolver uma técnica de codificação
eficiente, é necessário antes conhecer as características
O desenvolvimento de técnicas avançadas de básicas do sinal de voz. O mecanismo de produção da
codificação de voz tornou possível e viável a introdução voz apresenta uma resposta limitada em freqüência,
dos sistemas digitais de telefonia móvel, diminuindo a com limite por volta de 10kHz. Como a maior parte da
largura de banda requerida por usuário. Assim, foi energia do sinal de voz está concentrada na faixa de
possível aumentar o número de usuários do sistema, freqüência entre 300 e 3400 Hz, pode se limitar o canal
tornando a telefonia celular um sistema mais barato e a esta banda com uma perda tolerável em qualidade.
acessível à população. O sinal de voz se apresenta de forma sonora ou
No entanto, o processo de codificação deve ser surda, conforme haja vibração ou não das cordas
simples e rápido o suficiente para que o sistema vocais. São classificados como sinais surdos na fala,
funcione em tempo real com processadores fonemas com características de ruído, como o 'S' e o
relativamente baratos e de baixo consumo. Além disso, 'CH'. Já os sinais sonoros são as vogais e consoantes
a qualidade da voz codificada deve ser tal que permita com características não ruidosas. Nestes sinais, a
vibração das cordas vocais se dá a partir de uma
não só a inteligibilidade do que é ouvido, mas também
freqüência fundamental, ou o pitch. As demais
que se possa reconhecer o interlocutor e perceber harmônicas definem o timbre, que é o que modela a
outras informações como a entonação e a emoção. forma de onda periódica, trazendo assim informações
As técnicas de codificação abordadas neste importantes, já que é essa forma de onda que permite o
trabalho fornecem qualidade de voz suficiente para reconhecimento de um fonema e também do
estes fins, e devido à possibilidade de uso de interlocutor. Portanto, o timbre é uma característica
codificação de canal, além da própria robustez fundamental para que se possam distinguir vozes de
intrínseca de cada algoritmo e do sistema digital em si, mesma freqüência que sejam emitidas por diferentes
conseguem qualidade de voz superior à dos sistemas pessoas. Uma outra característica importante do sinal
analógicos frente a ruído no canal. de voz é a amplitude, que determina a intensidade do
Este trabalho aborda inicialmente os conceitos som, e é função da força ou potência com que a voz é
básicos envolvidos na codificação de voz, tratando produzida.
sobre as características do sinal de voz e as diferenças Todas as características citadas acima podem ser
entre codificadores de forma de onda, paramétricos e observadas nos segmentos de voz da Fig. 1, que estão
híbridos. A seguir, idéias básicas sobre amostragem, na mesma escala de tempo e amplitude. Nos segmentos
sonoros das Figs. 1(a) e 1(b) é fácil notar que as
quantização e codificação de linha são apresentadas, e
amplitudes são altas e que há uma periodicidade,
introduzem-se os codificadores LPC e CELP nos quais
ENE/FT/UNB JULHO DE 2000
2
determinada pelo pitch. Já no segmento surdo da Fig. amostras. A amostragem, a quantização e a codificação
1(c) os níveis de amplitude são relativamente baixos e desses sinais serão discutidas nos itens a seguir.
não há periodicidade, fazendo com que o sinal lembre
um ruído. Comparando ainda os dois segmentos 3. Codificadores de Forma de Onda
sonoros, é possível perceber que além de terem formas
de onda bastante diferentes, permitindo assim distinção Os codificadores de forma de onda, ou de linha, são
dos diferentes fonemas, o segmento da Fig. 1(a) tem esquemas que tentam aproximar o sinal gerado ao sinal
um período de pitch menor que o da Fig. 1(b), o que de voz original. A forma básica de codificação aplicada
caracteriza uma voz mais aguda. As pequenas diferenças no sinal de voz é a digitalização, uma vez que o sinal
percebidas no sinal a cada período de pitch é um dos obtido é analógico ou contínuo no tempo. Para isso,
fatores que torna mais difícil a codificação. são usados sistemas que amostram o sinal, quantizam as
amostras obtidas e as convertem para o sistema binário.
Por implicarem em sinais digitais com altas taxas
de bits, esses sistemas não são utilizados diretamente
nos sistemas de telefonia móvel, mas são necessários
para que formas de codificação mais eficientes sejam
aplicadas, uma vez que todas essas técnicas utilizam
processamento digital de sinais.
O sinal amostrado é definido com um sinal PAM
(Pulse Amplitude Modulation), e após a quantização e a
codificação, o sinal digital é definido como um sinal
(a) Segmento sonoro: fonema Ô PCM, ou Pulse Code Modulation. Cada um desses passos
da digitalização do sinal de voz é discutido a seguir.
3.1 Amostragem
de quantização com distância variada de acordo com a diminui-se o intervalo entre níveis e assim o ruído de
amplitude, uma vez que amostras de menor amplitude quantização.
são mais prováveis, trazendo assim a maior parte da Utilizando o log-PCM, é possível conseguir uma
informação. Na Fig. 2 é possível observar como essa boa qualidade de voz com apenas 256 níveis, ou 8 bits.
técnica melhora a quantização de sinais de baixa Como a taxa de amostragem é de 8KHz, esse esquema
amplitude, uma vez que com a quantização uniforme a implica em uma taxa de bits de 64kbit/s, usado na
informação amostrada praticamente não descreve a telefonia fixa. Essa taxa é considerada muito alta para
original, enquanto que com a quantização não uniforme um sistema de telefonia móvel, onde a banda utilizada
o sinal quantizado se aproxima mais da onda que deve por cada usuário deve ser a menor possível. Portanto,
ser codificada. Há, no entanto, uma maior distorção na são necessárias técnicas de codificação adicionais que
quantização de amostras de maior amplitude, que por diminuam essa taxa de bits para valores mais adequados
serem menos prováveis, influem menos na quantização a esse tipo de sistema.
do sinal como um todo.
3.4 PCM Adaptativo e Diferencial
natural, mas esses sistemas fornecem inteligibilidade da 5. Linear Prediction Coding: LPC
voz com taxas abaixo de 4kbit/s.
Nos vocoders, o trato vocal é representado como O LPC (Codificação Por Predição Linear) é um
um filtro variante no tempo e é excitado ou com uma codificador paramétrico de sinais de voz muito utilizado
fonte de ruído branco, para segmentos surdos do sinal e que, como já mencionado, extrai os parâmetros para o
de voz, ou com um trem de pulsos separados pelo modelo do trato vocal diretamente da forma de onda
período de pitch, para segmentos sonoros. Portanto, a no tempo, obtendo um resultado melhor que outros
informação que deve ser enviada ao decodificador é a tipos de vocoders que obtêm seus parâmetros a partir
especificação do filtro, um flag de segmento do espectro de freqüência.
sonoro/surdo, o ganho aplicado ao sinal de excitação Fundamentalmente, um LPC analisa a forma de
(G) e o período de pitch, para os segmentos sonoros. onda para produzir um filtro de síntese variante no
Essas informações são atualizadas a cada 10-20ms para tempo que modela o trato vocal, reproduzindo sua
seguir a natureza não-estacionária da fala. função de transferência. No receptor, cujo diagrama de
Esses parâmetros do modelo podem ser blocos é apresentado na Fig. 4, um sintetizador recria o
determinados pelo codificador por diferentes métodos, sinal de voz pela passagem de uma excitação específica
usando técnicas no domínio do tempo ou no domínio pelo mesmo modelo matemático do trato vocal, que é
da freqüência. Porém, um tipo de vocoder muito atualizado periodicamente.
utilizado é o LPC, que extrai características
perceptivelmente importantes do sinal de voz
diretamente da forma de onda no tempo.
Com taxas de bits entre 4 e 16 kbit/s (um pouco
maior que as dos vocoders), os codificadores híbridos,
que exploram técnicas tanto dos codificadores
paramétricos como dos de forma de onda, conseguem
uma qualidade muito próxima à dos codificadores de
linha, que requerem taxas acima de 16kbit/s. Os
codificadores híbridos também são baseados nos
modelos de produção da voz e utilizam uma excitação Fig. 4 Diagrama de blocos do decodificador LPC [3]
mais apurada para o sintetizador, que propicia uma
melhora na qualidade da voz sintetizada, tornando-a A excitação ideal a ser aplicada no filtro de síntese
mais inteligível que nos vocoders convencionais. é o sinal residual obtido na saída do filtro inverso,
A qualidade da voz, em função da taxa de bits e do quando na sua entrada é aplicado o próprio sinal de
tipo de codificador, é apresentada no gráfico da Fig. 3. voz. Porém, no LPC essa excitação é modelada
parametricamente, sem que se busque reproduzir sua
forma de onda, mas somente as características mais
marcantes do seu espectro de amplitude. É a
modelagem “trem de impulsos/ruído”, onde a
excitação, que é amplificada com um ganho G relativo à
amplitude do sinal de voz, pode ser uma fonte de ruído
branco (para segmentos surdos) ou um trem de pulsos
separados pelo período de pitch (para segmentos
sonoros).
O modelo do trato vocal é conseguido por um
filtro digital só de pólos e variante no tempo, do tipo:
1
H ( z) (5.1)
Fig. 3 Comparação entre classes de codificadores de voz [3] A( z )
onde,
As técnicas de codificação abordadas neste 10
term prediction, na qual o cálculo dos coeficientes 6. Regular-Pulse Excited LPC with a Long-
preditores pode ser realizado da forma apresentada a Term Predictor: RPE-LTP
seguir.
1) Para estimar a amostra presente, o preditor usa uma O codificador utilizado no padrão GSM (Global System
soma ponderada das últimas 10 amostras. Assim, pode- for Mobile communications), sistema de telefonia móvel
se reescrever a amostra sn como: digital largamente utilizado na Europa, é o RPE-LTP,
10 que é um esquema híbrido baseado no LPC, no qual a
s n i s n i e n (5.3) excitação consiste em pulsos regularmente espaçados e
i 1 de amplitude variada e que possui um preditor a longo
onde, sn: amostra atual termo.
sn-i: amostras anteriores Este codificador tem uma taxa de bits de 13 kbps e
en: erro de predição. combina vantagens do RELP (Residual Excited Linear
2) Os coeficientes são calculados de modo a minimizar Predictive) de banda básica, proposto pela França, e o
a energia média E do sinal en: MPE-LTP (Multi-Pulse Excited – Long-Term Prediction),
2 proposto pela Alemanha, que não serão abordados
N
10
N
E e i s n i
2
n (5.4) neste trabalho. O que deve ser levado em consideração,
n 1 n 1 i 0 no entanto, é que o RPE-LTP modifica o codificador
RELP, incorporando algumas características do MPE-
onde, por (5.2), 0 = -1 e N é o número de amostras
LTP, e com isso reduz a taxa de bits de 14,77 kbit/s
contidas na janela de tempo pela qual o erro de
para 13 kbit/s sem perda de qualidade. A principal
predição é computado. Valores típicos são uma janela
dessas modificações é a adição de um esquema de
de 10 ms, correspondendo a um valor de N = 80
predição a longo termo, a chamada análise LTP (long-
amostras.
term prediction). Além disso, deve-se considerar que no
3) Para minimizar E a respeito de um coeficiente m, é MPE-LTP, parte da informação transmitida é referente
necessário fazer sua derivada parcial igual a zero: a posição dos pulsos usados na excitação, enquanto no
E N 10
RPE-LTP esses pulsos são regularmente espaçados
2 s n m i s n i 0 (5.5) dado um intervalo fixado, cabendo ao codificador
m n1 i 0
determinar somente a posição do primeiro pulso e a
10 N
amplitude de cada um deles, o que explica o termo
s nm sni i 0 (5.6) Regular Pulse Excited.
i 0 n 1 O codificador do RPE-LTP, apresentado na Fig.
onde m=1,2,...,10. 5(a), é composto de quatro blocos de processamento
4) A soma mais interna pode ser vista como o principais:
coeficiente de correlação Cim, reescrevendo:
10
1ª Etapa: A seqüência de voz passa por uma
C
i 1
im i C0 m (5.7) equalização do tipo pré-ênfase, é ordenada em
segmentos de 20 ms, e passa por um janelamento
5) Após determinar os coeficientes de correlação Cim, a de Hamming;
equação (5.7) pode ser usada para determinar 2ª Etapa: Um filtro faz a análise STP do sinal,
matricialmente os coeficientes preditores, já que se trata encontrando os coeficientes preditores do filtro de
de um sistema linear de 10 equações e 10 variáveis. síntese. A seguir, esses parâmetros são utilizados
Os coeficientes preditores são atualizados a cada para construir o filtro LPC inverso, que
20ms aproximadamente, e são enviados junto com os determinará o erro de predição en, que na verdade
demais parâmetros do sistema: é a excitação que deveria ser utilizada no
decodificador;
o flag de segmento sonoro/surdo; 3ª Etapa: Porém, uma análise LTP do erro de
o período de pitch, no caso de segmento sonoro; predição encontra um período de pitch e um fator
o fator de ganho de excitação G, que determinará a de ganho tais que minimizam esse sinal,
amplitude do sinal de saída do filtro de síntese. maximizando a correlação cruzada de amostras
sucessivas do mesmo. O erro de predição
Após serem codificados de forma binária, os minimizado é chamado de LTP residual, ou rn.
coeficientes do filtro e os parâmetros descritos acima Esse sinal é ponderado e a seguir decomposto em
são enviados a uma taxa de 2,4 kbit/s. O resultado é três possíveis seqüências de excitação;
um sinal de voz de qualidade razoável, levando-se em 4ª Etapa: A seqüência de maior energia é
conta a relativamente baixa taxa de bits. selecionada para representar o LTP residual, sendo
ENE/FT/UNB JULHO DE 2000
6
(a) Codificador
(b) Decodificador
excitação passada e é responsável pela reprodução da A Fig. 7(a) mostra o diagrama de blocos de um
periodicidade dos segmentos sonoros do sinal de voz, codificador VSELP, que tem sua seqüência de excitação
substituindo o filtro correlator a longo termo formada pela combinação linear de 3 seqüências,
empregado nos primeiros codificadores CELP. Valores obtidas uma de cada dicionário.
típicos para K1 são 128 e 256.
O segundo estágio possui um dicionário fixo
constituído por K2 seqüências estocásticas,
determinísticas, ou obtidas por meio de um
procedimento de treinamento. Valores usuais de K2 são
128, 256, 512 e 1024.
Para uma freqüência de amostragem de 8 kHz e
período de atualização do preditor de pitch de 5ms, estas
seqüências devem ter 40 amostras cada. Os parâmetros
do filtro síntese, que são em geral 10, são por sua vez
atualizados a cada 20ms.
A seqüência de excitação com a qual se deseja
reproduzir o segmento de voz é obtida como uma
combinação linear de duas seqüências obtidas uma de
cada dicionário, que são escolhidas por um
procedimento onde são testadas diversas excitações
possíveis para sintetizar o segmento de voz corrente,
escolhendo-se aquela que minimiza a medida de erro
ponderado na saída do filtro de ponderação. É a
chamada análise-por-síntese.
Portanto, o que é enviado ao decodificador,
(a) Codificador
apresentado na Fig. 6(b), não é a seqüência de excitação
em si, mas os ganhos e índices que identificam as duas
seqüências nos dicionários, que também existem no
decodificador, implicando assim em uma boa qualidade
de voz a uma baixa taxa de bits.
9. Algebraic Code Excited Linear Predictive: Como já mencionado, o dicionário fixo é baseado
ACELP em uma estrutura algébrica. Neste dicionário, cada
vetor de palavra código contém quatro pulsos
Como já mencionado no item 8, o sistema TDMA diferentes de zero. Cada pulso pode ter uma amplitude
IS-136 pode utilizar vários tipos de codificação de voz, de +1 ou –1 e assumir as posições dadas na Tabela 2.
visando manter compatibilidade com sistemas Como o dicionário é estruturado, é possível se realizar
anteriores, enquanto oferece maior qualidade de voz uma busca mais eficiente. No caso ela é realizada por
aos consumidores. Com o desenvolvimento das quatro laços em série, e uma tática de pesquisa
tecnologias de compressão de voz, melhores focalizada é utilizada para tornar mais simples o
codificadores se tornaram disponíveis. Por isso, além procedimento de busca.
do VSELP, original do IS-54B, o IS-136 pode usar o
Tabela 2 Estrutura do dicionário fixo [6]
codificador de voz do IS-641, que é um algoritmo EFR Pulso Sinal Posição
(Enhanced Full Rate) de codificação linear preditiva i0 s0: 1 m0: 0, 5, 10, 15, 20, 25, 30, 35
excitada por código algébrico, o ACELP [14]. i1 s1: 1 m1: 1, 6, 11, 16, 21, 26, 31, 36
Padronizado pelo ITU-T SG15 na recomendação
i2 s2: 1 m2: 2, 7, 12, 17, 22, 27, 32, 37
G.723, o ACELP tem qualidade de voz igual, se não
i3 s3: 1 m3: 3, 8, 13, 18, 23, 28, 33, 38
melhor que o ADPCM a 32 kbit/s, e transmite voz de
4, 9, 14, 19, 24, 29, 34, 39
com melhor qualidade e de forma menos sensível a
ruído que o VSELP, à mesma taxa de 7,95 kbit/s. A estrutura algébrica do dicionário fixo também
A diferença básica entre o ACELP, cujo diagrama garante ao ACELP sensibilidade reduzida a erros no
de blocos é apresentado na Fig. 8, e o CELP está no canal e voz codificada de melhor qualidade. A ref. [11]
dicionário fixo, que é baseado em uma estrutura apresenta uma comparação da qualidade de sinais de
algébrica. Assim como no CELP, a seqüência de voz codificados com ACELP e VSELP e também no
excitação é obtida como uma combinação linear de AMPS (modulação analógica FM), a diferentes
duas seqüências, uma obtida do dicionário fixo e outra condições de relação sinal/ruído. Os exemplos
do dicionário adaptativo. Porém, a análise-por-síntese é fornecidos evidenciam a robustez do codificador
mais eficiente que no CELP. ACELP, uma vez que este mantém sua inteligibilidade e
A busca no dicionário adaptativo é realizada apresenta qualidade de voz relativamente boa mesmo
somente ao redor de uma região limitada por um aos mais baixos níveis de C/N.
período de pitch, estimado a cada 10ms por duas análises A ref. [6] apresenta ainda uma proposta de um
diferentes: open-loop e closed-loop (esses dois processos algoritmo de taxa variável para o ACELP, conseguindo
serão discutidos no item 10). Com esse parâmetro, diminuir a taxa média de bits para 4,4 kbit/s, sem
seleciona-se a melhor seqüência com uma resolução de degradação da qualidade de voz, ao levar em
1/3 para o atraso de pitch. consideração a atividade de voz.
CARVALHO e DIAS: TÉCNICAS DE CODIFICAÇÃO DE VOZ EM SISTEMAS MÓVEIS
9
10. Qualcomm Code Excited Linear Segue-se a isso a análise LPC, que determina os
Predictive: QCELP parâmetros do filtro de síntese, e, em paralelo, um
procedimento para determinação da taxa de dados, que
O sistema IS-95 de telefonia móvel CDMA utiliza o analisa as características do quadro para decidir se este
codificador de voz QCELP, que é um padrão em pode ser codificado a uma taxa reduzida sem afetar a
sistemas de espectro espalhado, podendo utilizar quatro qualidade de voz. Para sons surdos, utiliza-se ¼ da taxa
taxas de bit diferentes - 9,6 / 4,8 / 2,4 / 1,2 kbit/s – de (2,4 kbit/s) e para pausas ou ruído de fundo utiliza-se
1/8 da taxa (1,2 kbit/s). Para segmentos sonoros, a taxa
acordo com o segmento de sinal que está sendo
codificado. A Qualcomm, empresa que desenvolveu o máxima (9,6 kbit/s) é usada em quadros transitórios,
algoritmo QCELP, também produz equipamentos com com periodicidade reduzida, ou que não são bem
os quais pode-se fixar a taxa de bits em 9,6 ou 4,8 modelados, os quais requerem taxa máxima para que se
kbit/s, o que pode ser desejado em função do tráfego consiga boa qualidade de voz. Para segmentos sonoros
no sistema CDMA. bem modelados, estacionários e periódicos é usada ½
Além da taxa variável, a diferença básica do da taxa (4,8 kbit/s).
QCELP para outros algoritmos baseados no CELP, A busca do período de pitch, que modela a
está na forma como a correlação a longo termo é correlação a longo termo, pode ser realizada através de
codificada. Já a predição a curto termo é realizada com dois modelos: open-loop e closed-loop. Em um modelo open-
um filtro LPC, como nos sistemas já abordados. loop, como ilustrado na Fig. 10(a), retira-se a correlação
O primeiro passo para a codificação, cujo diagrama a curto termo do sinal de voz ao passá-lo pelo filtro
de blocos simplificado é apresentado na Fig. 9(a), é um LPC inverso. A seguir, o sinal residual r[n] entra no
pré-processamento, que consiste basicamente em um filtro preditor de pitch P(z), que tenta retirar a correlação
filtro passa-altas que retira a componente DC do sinal, a longo termo, produzindo o pitch residual e[n]. O filtro
seguido de um janelamento de Hamming que reduz o P(z) tem dois parâmetros, ganho de pitch b e atraso de
efeito da divisão do sinal em blocos. pitch L, que devem ser otimizados para que a energia
média de e[n] seja minimizada, resultando em um sinal
cujas características lembram as de um ruído branco.
(a) Codificador
(b) Processo reverso
sintetizado obtido a partir de uma excitação que se longo termo e descrever as pequenas diferenças
aproxima de ruído branco. percebidas entre períodos tonais sucessivos do sinal a
Essa excitação é obtida a partir de um dicionário ser codificado.
pseudo-aleatório ou de um dicionário gaussiano, para No RPE-LTP a informação da correlação a longo
taxas de ¼ e 1/8 ou 1 e ½ respectivamente. O dicionário termo é obtida por um filtro LTP e as diferenças
gaussiano tem 128 vetores de 128 amostras e dois percebidas entre períodos tonais são descritas pela
parâmetros, índice I e ganho G. O dicionário pseudo- seqüência de excitação residual enviada ao
aleatório usado é chamado de dicionário circular com decodificador. Nos codificadores VSELP e ACELP o
deslocamento unitário, onde o vetor de uma linha é o filtro LTP é substituído por um dicionário adaptativo e
vetor da linha anterior descolado de uma amostra. O a seqüência residual é obtida a partir de dicionários de
parâmetro que identifica o deslocamento é o RSeed, e código estruturados. No QCELP não há dicionário
não há parâmetro de ganho. adaptativo, mas um filtro de síntese de pitch. A
O decodificador, que é apresentado na Fig. 9(b), seqüência residual, no entanto, é obtida a partir de
recebe então os coeficientes do filtro LPC, os dicionários fixos como nos demais codificadores
parâmetros do filtro de síntese de pitch (b e L), e os derivados do CELP.
parâmetros da excitação (RSeed ou G e I). Com essa Essas diferentes soluções para descrever a
informação ele monta os filtros de síntese e utiliza a excitação a ser usada no decodificador implicam em
excitação especificada para sintetizar o sinal de voz. diferentes taxas de bits e diferentes qualidades de voz,
Portanto, o QCELP consegue sintetizar o sinal de como mostra a Tabela 3. O índice MOS (mean opinion
voz com taxas médias de bits menores que os demais score) apresentado é obtido a partir de testes subjetivos
codificadores, sem requerer um dicionário adaptativo onde várias pessoas ouvem determinadas seqüências de
para modelar a correlação a longo termo. No entanto, a diálogo ou duplas de palavras rimadas, com os quais
qualidade obtida é inferior à dos demais codificadores obtém-se uma avaliação em uma escala de 1 a 5 pontos
aqui abordados, mesmo à taxa máxima. para a inteligibilidade das amostras, onde 1 é muito
ruim e 5 é excelente. Nota-se, portanto, que o RPE-
11. Conclusão LTP e o VSELP já não são as melhores soluções em
termo de taxa de bits nem de qualidade de voz, e vêm
As técnicas abordadas neste trabalho são todas sendo substituídos nos novos sistemas TDMA pelo
derivadas do codificador paramétrico LPC, tendo o codificador ACELP, que ainda é mais robusto a erros
modelo do trato vocal baseado em um filtro que devido à estrutura algébrica do seu dicionário fixo. Nos
introduz a correlação a curto termo presente no sinal de sistemas de espectro espalhado se usa o QCELP, que
voz. A diferença básica está na forma como é gerada a apesar de ter uma qualidade de voz inferior ao ACELP,
excitação, responsável por introduzir a correlação a oferece uma taxa de bits, em média, menor.
Reconhecimento Referências
Este trabalho foi orientado pelo Prof. Paulo H. P. de [1] ALENCAR, Marcelo S., "Telefonia Digital", 2ª Edição,
Carvalho como projeto final para a disciplina Tópicos Editora Érica Ltda., São Paulo-SP, 1999.
Especiais em Telecomunicações - Sistemas de [2] RAPPAPORT, Theodore S.,"Wireless Communications:
Principles & Practice", Prentice Hall, New Jersey, 1996.
Comunicações Móveis, ministrada no período 1o/00.
[3] FIACADOR, Altair R., "Estudo e Simulação do
Além do Prof. Paulo, colaboraram também o Prof. Codificador de Voz VSELP do Padrão IS-136",
Lúcio M. Silva e o Prof. Sebastião Nascimento, Relatório de Projeto Final, Universidade de Brasília,
indicando e fornecendo referências bibliográficas e Dezembro de 1999.
compartilhando um pouco do seu vasto conhecimento [4] UNIVERSITY OF SOUTHAMPTON, UK,
sobre o assunto em questão. "Commonly Used Speech Codecs". ..............................…..
CARVALHO e DIAS: TÉCNICAS DE CODIFICAÇÃO DE VOZ EM SISTEMAS MÓVEIS
11