MONOGRAFIA GeraçãoRedesFuncionais
MONOGRAFIA GeraçãoRedesFuncionais
MONOGRAFIA GeraçãoRedesFuncionais
Ouro Preto
Escola de Minas – UFOP
2022
SISBIN - SISTEMA DE BIBLIOTECAS E INFORMAÇÃO
CDU 681.5
REITORIA
ESCOLA DE MINAS
FOLHA DE APROVAÇÃO
Iuri da Silva Diniz
Geração de Redes Funcionais a partir de Séries Temporais de um Radar Meteorológico
Documento assinado eletronicamente por Vander Luis de Souza Freitas, PROFESSOR DE MAGISTERIO SUPERIOR, em 14/06/2022, às
16:42, conforme horário oficial de Brasília, com fundamento no art. 6º, § 1º, do Decreto nº 8.539, de 8 de outubro de 2015.
Referência: Caso responda este documento, indicar expressamente o Processo nº 23109.007692/2022-28 SEI nº 0343306
Agradeço de forma geral a todos que me ajudaram e acreditaram em mim, mesmo que eu mesmo,
em muitos momentos, não acreditasse.
Agradeço aos meus pais e minha irmã por sempre terem me apoiado ao longo de todas as etapas
da minha vida.
Agradeço aos meus amigos Alex Júnior Guimarães, Marco Túlio Moura Valente e Piercy Braga
Dias pela parceria que começou ainda no curso técnico em Automação Industrial.
Agradeço ao meu orientador Vander Luis de Souza Freitas pela contribuição imensa na minha
formação acadêmica, me auxiliando em cada passo desde o projeto de iniciação científica.
Agradeço à minha co-orientadora Adrielle de Carvalho Santana pelos ensinamentos passados
como professora e pela disponibilidade em ajudar. Esse agradecimento se estende aos demais
professores do Departamento de Engenharia de Controle e Automação e Departamento de
Computação que tiveram papel importante no meu desenvolvimento.
RESUMO
Séries temporais são formadas por um conjunto de observações sequenciais dispostas ao longo
de tempo, sendo capazes de descrever variáveis presentes em diversas áreas da ciência, sejam
elas naturais, humanas, exatas ou biológicas, motivando, portanto, o desenvolvimento de diversas
metodologias para o estudo dessas séries e dos sistemas que elas descrevem. Unindo as séries
temporais às redes complexas, estruturas que se utilizam de grafos para representar a dinâmica
de um dado sistema, foi possível a geração de redes meteorológicas funcionais, onde cada série
é mapeada em um nó e cada link é estabelecido por meio de critérios de similaridade. Cada par
de série teve a similaridade avaliada usando o coeficiente de correlação de Pearson, informação
mútua, dynamic time warping e sincronização de eventos. Os dados analisados neste trabalho
foram gerados por um radar meteorológico e quantificam o volume de precipitação na região
serrana do Rio de Janeiro em um período de 10 dias no ano de 2012. Observa-se que as redes
geradas possuem estruturas de comunidades que se diferem pela demarcação espacial; algumas
comunidades detectadas possuíam nós espacialmente distantes que se conectavam por meio de
teleconexões. A presença de conexões de longo alcance foi notada especialmente nas redes DTW
e nas redes backbone.
Time series is a set of sequential observations arranged over time and describe variables present
in several areas of science, whether natural, human, exact, or biological, thus motivating the
development of different methodologies for the study of these series and the systems they
describe. By uniting the time series to the complex networks, structures that use graphs to
represent the dynamics of a given system, it was possible to generate functional meteorological
networks, where each series becomes a node and a similarity criterion determines the links. The
similarity between each pair of time series were made using Pearson’s correlation coefficient,
mutual information, dynamic time warping and event synchronization. The data analyzed in this
work come from weather radar and quantifies the volume of precipitation in the serrana region
of Rio de Janeiro in 10 days during the year 2012. The generated networks have community
structures that differ by spatial demarcation; some communities had spatially distant nodes
connected through teleconnections. The presence of long-range connections was especially
noticed in DTW networks and backbone networks.
IM Informação mútua
SE Sincronização de eventos
LISTA DE SÍMBOLOS
X Conjunto de valores
T Intervalo de tempo
ωs Frequência de amostragem
G Grafo
ki Grau de um nó
pk Distribuição de graus
si Força (strength) de um nó
κ Parâmetro de heterogeneidade
M Modularidade
C Comunidade
t Comprimento de passo
I Informação mútua
τ Limiar de similaridade
Θ Função de Heaviside
α Nível de significância
SUMÁRIO
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1 Objetivos gerais e específicos . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2 Justificativa do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4 Estrutura do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . . . 16
2.1 Séries Temporais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Sistemas Complexos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3 Redes Complexas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.1 Grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.1.1 Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.1.2 Representação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.2 Métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.2.1 Grau, grau médio, distribuição de graus e força . . . . . . . . . . . . . . . . . . 20
2.3.2.2 Coeficiente de clusterização . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.2.3 Centralidade por intermediação . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.2.4 Densidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.2.5 Menor caminho, caminho médio e diâmetro . . . . . . . . . . . . . . . . . . . 22
2.3.2.6 Parâmetro de heterogeneidade . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.3 Características gerais das redes . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.3.1 Componentes, componente gigante, singletons e hubs . . . . . . . . . . . . . . . 22
2.3.3.2 Comunidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4 Similaridade entre Séries Temporais . . . . . . . . . . . . . . . . . . . . . 26
2.4.1 Coeficiente de correlação de Pearson . . . . . . . . . . . . . . . . . . . . . 26
2.4.2 Informação Mútua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4.3 Dynamic Time Warping . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4.4 Sincronização de Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.5 Construção de Redes Meteorológicas Funcionais . . . . . . . . . . . . . . . 28
2.5.1 Limiarização global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5.2 Espinha dorsal de uma rede . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1 Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2 Tecnicidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Desenvolvimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.1 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
14
1 INTRODUÇÃO
Uma série temporal pode ser entendida como um conjunto de observações dispos-
tas ao longo do tempo e distribuídas em intervalos que podem ser contínuos ou discretos
(BROCKWELL; DAVIS, 2016). O estudo dessas séries, segundo Cryer e Chan (2008), é guiado
por dois objetivos principais: a busca pelo entendimento do mecanismo que as originou e a
realização de previsões. As séries temporais cumprem um papel muito importante nas ciências
em geral, criando espaço para o surgimento de diversas metodologias destinadas ao seu estudo.
Séries temporais estão sempre presentes na meteorologia, pois possibilitam analisar
como diversas variáveis que descrevem a dinâmica da atmosfera evoluem no tempo. Dada
a composição gasosa da atmosfera terrestre — os principais componentes são o oxigênio,
nitrogênio, vapor de água e dióxido de carbono —, essas variáveis podem descrever regimes
como o de temperatura, pressão, umidade e precipitação (AHRENS, 2008). O estudo dessas
dinâmicas possui importância nas mais diversas esferas. Lu et al. (2009) e Saez et al. (1995), por
exemplo, estudaram, respectivamente, a relação entre dados do clima (dados acumulados por
longos períodos de tempo) e a incidência de casos de dengue na região chinesa de Guangzhou, e
o impacto das variações de temperatura em índices de mortalidade.
O interesse crescente no estudo de redes durante o início do século 21 e o caráter
multidisciplinar conferido por esse campo, como citado por Barabási et al. (2016), fizeram com
que diversos problemas pudessem ser mapeados e analisados sob a ótica das redes complexas.
As redes complexas são representações de sistemas complexos por meio de grafos, estruturas
onde um conjunto de vértices (nós) é conectado por meio de arestas (links) a fim de mapear o
comportamento do sistema analisado. Sistemas complexos podem ser definidos como aqueles
que possuem um comportamento global ditado por interações locais, sem um controlador único
e centralizado, fazendo com que a observação da dinâmica dessa classe de sistemas passe por
uma análise do comportamento de seus componentes, em conjunto (BOCCARA, 2010).
As redes complexas passaram a auxiliar na análise de séries temporais, permitindo, como
no caso deste trabalho, o mapeamento de um conjuntos de séries temporais com informações de
precipitação em diferentes redes complexas, que, por conta das características de disposição dos
dados e geração das redes, podem ainda ser classificadas como redes meteorológicas funcionais.
Outros trabalhos utilizam abordagens similares na análise de variáveis meteorológicas, levando
em conta conjuntos de séries distribuídas geograficamente em escalas locais (regionais) ou
globais. Jorge, Costa e Santos (2020) e Ceron et al. (2020) analisaram o comportamento de
um conjunto de séries temporais contendo informações de precipitação em regiões dos estados
de São Paulo e Rio de Janeiro, respectivamente. Os autores conseguiram, por meio dos níveis
de correlação estatística entre essas séries (ambos utilizaram o coeficiente de correlação de
Pearson), traçar conexões entre as que obedeciam a um critério específico de limiarização,
possibilitando a extração de uma rede que pôde ser analisada usando o ferramental de redes
complexas. Os estudos realizados por Ferreira et al. (2021), Donges et al. (2009) e Boers et al.
(2019) tiveram como objeto de análise dados distribuídos por todo o globo terrestre. Boers et al.
(2019) analisaram eventos extremos de precipitação, usando um algoritmo capaz de identificar a
ocorrência síncrona de eventos entre as séries. Donges et al. (2009) usaram as redes complexas
para analisar a dinâmica da temperatura do ar na superfície por meio de dados climáticos
coletados ao longo de décadas; a correlação de Pearson e a informação mútua foram utilizadas
como forma de avaliar a similaridade entre as séries temporais. Ferreira et al. (2021) analisou o
15
• definir estratégias para conexão dos nós das redes por meio de critérios de limiarização;
1.3 Contribuições
2 FUNDAMENTAÇÃO TEÓRICA
A ideia de sistema pode ser definida pela atuação de diversos componentes na constituição
de um determinado comportamento. Um dado sistema é classificado como dinâmico se a saída
no tempo tk for dependente da saída obtida no tempo tk−1 . Em um sistema estático, por sua vez,
a saída em um dado instante não depende de pontos passados, apenas do próprio instante em
questão (OGATA, 2003). Há ainda uma classe de sistemas cujo comportamento é denominado
complexo; padrões de organização exibidos por alguns grupos de animais e a interação das
variáveis atmosféricas — McIlveen (1991) pontua a natureza caótica da atmosfera terrestre,
caracterizada pela presença de variáveis relacionadas não linearmente e que exibem elevada
sensibilidade às condições iniciais 1 — são exemplos comumente utilizados para explicar as
características de um sistema complexo. O comportamento das formigas em suas colônias, dos
pássaros em suas revoadas e dos peixes em seus cardumes evidenciam padrões cooperativos
de movimento coletivo e auto-organização que não dependem de informações passadas por
um elemento central, além de apresentar alterações locais intimamente ligadas ao ambiente em
que estão inseridos. A presença de manifestações globais criadas por interações locais entre
agentes sem um controle central são classificados como comportamento emergente, característica
fundamental presente em um sistema definido como complexo (BOCCARA, 2010; FREITAS,
2019).
1
Esses sistemas, apesar de determinísticos, possuem um comportamento tal que as incertezas associadas à sua
dinâmica se amplificam exponencialmente por menor que seja a variação nas condições iniciais.
17
As redes, ou grafos, são, basicamente, conjuntos formados por vértices (nós) interligados
aos pares por arestas (links) (SILVA, 2018). O arcabouço teórico associado às redes, conforme
mencionado por Amaral e Ottino (2004), constitui uma das áreas envolvidas no estudo de
sistemas complexos, ao lado do estudo de dinâmicas não lineares e física estatística. A usual
característica multiagente e conexa dos sistemas complexos possibilita o emprego de grafos em
sua modelagem, onde agentes podem ser mapeados em vértices (nós) e a interação entre eles
pode ser representada por meio de arestas (links) (SILVA, 2018).
O estudo e aplicação das redes como método para análise de sistemas reais teve um
grande desenvolvimento a partir do início do século XXI. Apesar de recente, a base para o
estudo das redes complexas, os grafos, possuem origem datada ao ano de 1735. Mesmo com
mais de 200 anos de existência e desenvolvimento teórico, as redes só passaram a ter um papel
de maior abrangência com o desenvolvimento e crescimento da Internet, além das melhorias
computacionais que favoreceram o gerenciamento, armazenamento e processamento dos dados
necessários para o mapeamento de sistemas em redes. Associado a isso, a característica universal
de representação das redes possibilitou o seu uso nas mais diversas áreas do conhecimento
(BARABÁSI et al., 2016).
Barabási et al. (2016) aponta para o aumento no volume de citações de dois artigos com
o foco na teoria dos grafos. O primeiro, publicado por Erdős, Rényi et al. (1959), fala sobre
grafos aleatórios; o segundo, por Granovetter (1973), trata da importância dos laços sociais
mais fracos (indivíduos que se conhecem, mas não possuem uma relação de proximidade) na
interligação entre grupos em uma rede social cuja ligação entre os indivíduos é forte (amigos
e familiares). Embora conhecidos nas suas respectivas áreas, esses trabalhos ganharam cada
vez mais notoriedade no início dos anos 2000, passando de centenas de citações anuais com a
chegada do novo século.
18
2.3.1 Grafos
Os grafos foram concebidos pelo matemático suíço Leonhard Euler, em 1735, como
forma de abordar o problema das sete pontes de Königsberg. O problema consistia em investigar
se era possível a realização de um caminho que cruzaria todas as sete pontes apenas uma vez.
Na Figura 1 é possível verificar a disposição das pontes e a abordagem utilizada por Euler para
mapear o problema; ele mapeou cada porção de terra em um vértice (nó) e representou cada
ponte como uma aresta (link) entre os vértices. Se utilizando dessa abordagem, Euler comprovou
a inexistência de uma solução para o problema das sete pontes (BARABÁSI et al., 2016).
A
D
A D
Figura 1 – Ilustração do problema das pontes de Königsberg. Fonte: Elaborada pelo autor (2022).
19
2.3.1.1 Definições
Um grafo G = (V, E) é uma estrutura composta por um conjunto de vértices, V, e
arestas, E (MENCZER; FORTUNATO; DAVIS, 2020). Os vértices são identificados por ín-
dices inteiros i = {1, 2, ..., N}, e as arestas são identificadas por pares de inteiros (i, j) =
{(1, 1), (1, 2), ..., (M, N)}, sendo o par (i, j) a representação da conexão entre os vértices i e j.
Um grafo pode ser direcionado ou não-direcionado. Em grafos não-direcionados, as arestas
são equivalentes, de forma que a interpretação da conexão (i, j) é a mesma de (j, i), ou seja,
(i, j) ∈ E ⇔ (j, i) ∈ E. Diversamente, em um grafo direcionado, (i, j) ∈ E < (j, i) ∈ E (ZOU
et al., 2019). O par (i, j) em um grafo direcionado indica que a aresta está partindo fonte i em
direção ao alvo j. Outra possibilidade é o uso de arestas com pesos associados. Um grafo é dito
ponderado quando é possível escrever suas arestas na forma E = (i, j, w), onde w é o peso dessa
conexão. Já em grafos não ponderados, as arestas não possuem pesos associados (MENCZER;
FORTUNATO; DAVIS, 2020). A Figura 2 sumariza os tipos de grafos apresentados, além de
ilustrar a combinação das características; um grafo pode ser ponderado e direcionado.
Figura 2 – Representação dos diferentes tipos de grafos. A variação na espessura das arestas
representa o peso das conexões e as setas indicam a direção. Fonte: Adaptado de
Menczer, Fortunato e Davis (2020).
2.3.1.2 Representação
Além das representações gráficas usando os vértices e arestas, há outras formas de retratar
as redes, que são úteis tanto em análises matemáticas, quanto para o armazenamento das redes
em arquivos.
A forma matricial, dada pela matriz de adjacência, permite a representação estrutural
sem perda de características como a direção dos links. A matriz de adjacência, A, de um
grafo G = (V, E), é constituída por N linhas e N colunas, sendo N o número de vértices que
compõem o grafo. O conteúdo armazenado na matriz pode ser binário (grafos não ponderados), ou
dependentes do peso associado para cada conexão (grafos ponderados). A seguir são apresentadas
as características de composição da matriz de adjacência para os tipos de grafos apresentados
(MENCZER; FORTUNATO; DAVIS, 2020):
20
• Grafos não ponderados e não direcionados: Para essa classe de grafos, o elemento Aij = 1
indica que os vértices i e j estão conectados. Aij = 0, então, ocorre quando não há conexão
entre os vértices. Como a conexão nos grafos não direcionados é bidirecional, a matriz A é
simétrica: Aij = Aji .
• Grafos ponderados e não direcionados: Para os grafos ponderados, a matriz não é binária.
Desta forma, cada elemento Aij indica o valor do peso da aresta bidirecional que conecta
os vértices i e j.
• Grafos direcionados: Nos grafos direcionados, o elemento Aij representa uma conexão que
parte do vértice j até o i. Assim, um elemento A31 = 0, 8, por exemplo, indica que há uma
conexão de peso 0,8 partindo do vértice 3 e indo em direção ao 1.
1 2
0 0 0 0
9 0 0 0
0,8 0, A=
0,2
0,2 0,8 0,9 0 0
0 0 0,5 0
3 0,5 4
2.3.2 Métricas
As métricas possuem variações de acordo com a característica da rede analisada. Como
as redes analisadas neste trabalho são não direcionadas e não ponderadas, as métricas descritas
têm como foco abordar essa classe de rede.
Em redes ponderadas, podemos calcular o grau ponderado de cada nó, ou força (strength),
como na equação:
X
si = wij , (2.3)
j
onde a força de um nó i, tomando como base o caso não direcionado, é a soma do peso de todos
os links que se conectam a ele (MENCZER; FORTUNATO; DAVIS, 2020).
2Li
Ci = , (2.4)
ki (ki − 1)
onde Li se refere ao número de links entre os vizinhos do nó i (BARABÁSI et al., 2016). A
Figura 4 exemplifica o processo de contabilização do coeficiente de clusterização para o nó
1. Nota-se que esse nó possui 3 vizinhos, mas apenas os pares (2,3) e (2,4) estão conectados,
levando a um coeficiente C1 ≈ 0, 667.
1 2
3
2(2)
_____ 2
__
C1 = =
3(3 - 1) 3
4
Figura 4 – Exemplo de cálculo do coeficiente de clusterização local. Fonte: Elaborada pelo autor
(2022).
X gjk (i)
Bi = , (2.5)
i6=j6=k
gjk
onde gjk corresponde ao número de menores caminhos existentes entre j e k, e gjk (i) diz respeito
ao número de menores caminhos entre j e k que passam por i. Um nó com elevado valor de
betweenness possui um grande impacto na forma com que a informação trafega através da rede,
pois é um ponto de passagem necessário nos possíveis menores caminhos entre um par de nós
(FREEMAN, 1977).
22
2.3.2.4 Densidade
A quantidade máxima de conexões em uma rede (Lmax ) pode ser definida a partir do
número de nós (N) (MENCZER; FORTUNATO; DAVIS, 2020):
N(N − 1)
Lmax = . (2.6)
2
Desta forma, a densidade é definida como a razão entre o número de links na rede (L) e o número
máximo possível de conexões, tal como mostrado na Equação a seguir:
L 2L
d= ⇒d= . (2.7)
Lmax N(N − 1)
Um grafo com densidade igual a 1 é chamado grafo completo, pois L = Lmax (MENCZER;
FORTUNATO; DAVIS, 2020).
hk2 i
κ= , (2.8)
hki2
sendo que o termo hk2 i é dado por:
2
P
i ki
2
k = (2.9)
N
rede conexa corresponde ao conjunto de todos os seus nós, isto é, a própria rede (MENCZER;
FORTUNATO; DAVIS, 2020).
Existem componentes cuja estrutura é composta de apenas um nó. Esses nós não possuem
conexões (k = 0), sendo denominados singletons. Alternativamente, alguns nós se destacam por
possuir um elevado número de conexões, ou seja, grau acima da média. Esses nós, chamados
hubs, são de grande importância na análise de redes, pois podem revelar padrões chave dentro
do sistema analisado (MENCZER; FORTUNATO; DAVIS, 2020). No contexto de redes sociais,
por exemplo, um hub seria uma pessoa muito conhecida entre os membros da rede, podendo ter
um papel de elevada influência no comportamento global.
2.3.3.2 Comunidades
Em muitas redes é possível observarmos o aparecimento de comunidades. Essas estrutu-
ras podem ser caracterizadas pelo agrupamento de nós em subestruturas com elevada densidade
de conexão, de forma que o nó em uma comunidade exibe uma tendência maior em se conec-
tar apenas com membros da mesma comunidade (MENCZER; FORTUNATO; DAVIS, 2020).
Apesar dessa noção de comunidade ser válida, Barabási et al. (2016) pontua que a hipótese da
conectividade e densidade local deixa margens para diferentes definições acerca desse fenômeno.
A primeira busca definir comunidades como subgrafos completos, ou cliques. Partindo dessa de-
finição, as comunidades seriam estruturas onde todos os nós estariam conectados, resultando em
uma abordagem mais restritiva. Outras duas definições estão associadas ao número de conexões
que os nós realizam dentro e fora da comunidade. Uma estrutura de comunidade forte é tal que
os nós possuem mais conexões internas (com outros membros da mesma comunidade) do que
externas (com membros fora da comunidade), como ilustrado nas comunidades da Figura 5. De
forma contrária, os nós em uma estrutura de comunidade fraca realizam mais ligações externas
do que internas.
Figura 5 – Exemplo de uma rede conexa e três comunidades demarcadas: em azul, vermelho e
laranja. Fonte: Elaborada pelo autor (2022).
nós da rede aumenta. Esse tipo de problema se enquadra na categoria dos problemas NP-difíceis,
sendo necessário recorrer a heurísticas (BARABÁSI et al., 2016).
Diversos algoritmos foram propostos como forma de abordar a detecção de comunidades
sem empregar buscas exaustivas por todos os arranjos possíveis dentro de uma rede. Um dos
mais populares, dentre os diversos abordados por Fortunato (2010), é o algoritmo divisivo
proposto por Girvan e Newman (2002). A ideia principal dos algoritmos divisivos é identificar e
remover os links que realizam a conexão entre comunidades. Uma das formas de realizar essa
identificação é calculando a centralidade por intermediação (betweenness) para cada link da rede.
Possuindo um significado equivalente ao apresentado na Seção 2.3.2.3, o betweenness para link
(edge betweenness) quantifica a importância de um link (não mais um nó) ao percorrermos os
menores caminhos entre os pares de nós da rede. Um edge betweenness elevado, no contexto da
detecção de comunidades, é um indicativo de que esse link possui uma função de ponte entre
comunidades. Esse fato pode ser observado na Figura 5, onde o menor caminho entre nós de
diferentes comunidades sempre passará, obrigatoriamente, por uma das duas (ou pelas duas)
conexões que interligam as 3 comunidades.
O algoritmo Girvan-Newman é implementado por meio dos seguintes passos:
Algoritmo 1 Girvan-Newman
E ← Número total de links;
G ← Grafo (V, E);
while E 6= 0 do
B ← edgeBetweenness(G); . Lista com a medida edge betweenness de toda a rede
maxB ← max(B); . Seleção do link com maior centralidade
G ← removeLink(maxB); . Remoção do link selecionado
E ← totalLinks(G); . Número de links é atualizado
end while
kC2
1X
M= LC − , (2.10)
L C 4L
onde L é o número links da rede, LC e kC correspondem, respectivamente, ao número de links e
ao somatório dos graus na comunidade C.
O valor obtido a partir da modularidade possui interpretações importantes, como pontua
(BARABÁSI et al., 2016). Altos valores de modularidade indicam um bom nível de partici-
onamento, ou seja, estruturas de comunidade que se distanciam do caso aleatório. Quando o
25
resultado obtido é nulo, significa que todos os nós estão ligados a uma mesma comunidade. Um
resultado negativo implica que cada nó representa uma comunidade diferente.
Outro algoritmo, o Walktrap, proposto por Pons e Latapy (2005), se baseia na construção
de caminhos aleatórios entre os nós de uma rede. A premissa do algoritmo reside na ideia de que
esses passos aleatórios tendem a ficar presos (daí a denominação “trap”) em regiões mais densas
da rede, possibilitando a identificação de estruturas de comunidade. Dado um comprimento de
passo t, responsável por controlar a quantidade de links percorridos a cada passo, a transição
entre um vértice i e um vértice j ocorre de forma aleatória, sendo j um nó vizinho de i. Em cada
iteração é construída uma matriz que mapeia a probabilidade da ocorrência de uma transição
entre dois nós, da forma:
Aij
Pij = , (2.11)
ki
onde ki é o grau do nó i e Aij , para as redes não ponderadas, indica se há (Aij = 1) ou não (Aij = 0)
uma conexão entre os dois nós. A probabilidade de uma transição entre dois nós por um caminho
de tamanho t é denotada por Ptij . Com o intuito de verificar se dois nós pertencem ou não a uma
comunidade, é definida uma distância rij (t), como mostrada na Equação (2.12), que depende das
probabilidades de transição e leva em consideração os nós intermediários, m, existentes em um
caminho entre i e j:
v
u n
uX (Ptim − Ptjm )2
rij (t) = t . (2.12)
m=1
km
Desta forma, rij (t) possui um valor elevado quando são avaliados nós situados em diferentes
comunidades e tende a um valor baixo quando os nós estão na mesma comunidade.
26
δ(i, j) =| si − tj |, (2.15)
Após a definição da função para o cálculo das distâncias locais, é necessária a criação de
uma matriz de custo com dimensões M x N, onde M é o número de elementos da série s e N é o
número de elementos da série t. A matriz de custo é então construída como segue:
Nota-se que cada custo δ é somado a uma parcela que busca o menor vizinho da posição
(i, j). Ao final, com todos os elementos preenchidos, o caminho ótimo é definido a partir do
γ(M, N) — considerando que a posição (0,0) da matriz de custo tem início na extremidade
inferior esquerda —, buscando os menores vizinhos até a posição inicial γ(0, 0) (BERNDT;
CLIFFORD, 1994). Percebe-se que, para o DTW, as séries a serem comparadas podem ser
de tamanhos distintos. A Figura 6 exibe um exemplo do alinhamento gerado pelo DTW para
duas sequências de tamanhos distintos, mostrando que dois valores da sequência superior são
mapeados em um único ponto da sequência inferior.
4,0
3,5
3,0
2,5
2,0
1,5
1,0
4,0
3,5
3,0
2,5
2,0
1,5
1,0
0 1 2 3 4 5
Figura 6 – Exemplo de alinhamento entre duas séries, gerado pelo DTW. Fonte: Elaborada pelo
autor (2022).
Ao realizar a aplicação do DTW entre duas séries, pode ser necessário estabelecer uma
medida numérica que quantifique o grau de alinhamento entre elas. Uma das formas de se
realizar de se obter esse score, segundo Berndt e Clifford (1994), é calculando a razão entre o
valor cumulativo do caminho de alinhamento ótimo (warping path) e uma distância base. Outras
implementações do algoritmo DTW, como a encontrada na biblioteca dtaidistance2 , retorna um
score que é calculado como a raiz quadrada do primeiro elemento do warping path.
que compõem um par de séries x e y, é necessário o uso de um limiar para filtrar se um dado
ponto é evento ou não, o que resulta em uma quantidade mx de eventos para a série x e my para y.
Após o tratamento dos eventos, são calculados os parâmetros cτ (x | y) e cτ (y | x), como segue:
my
mx X
X λ
λ
c (x | y) = Jij (2.18)
i=1 j=1
sendo tix e tjy os instantes de ocorrência de eventos em cada uma das séries.
O parâmetro Qλ quantifica o nível de eventos síncronos contabilizados. Qλ = 1 indica
que a ocorrência de eventos nas duas séries está completamente sincronizada. Já o parâmetro qλ
fornece uma noção de precedência na ocorrência de eventos, sendo que qλ = 1 indica que os
eventos em x sempre precedem os eventos em y; a precedência contrária ocorre para qλ = −1.
cλ (x | y) + cλ (y | x)
Qλ = √ (2.20)
mx my
cλ (x | y) − cλ (y | x)
qλ = √ (2.21)
mx my
As conexões são realizadas entre nós cujo valor correspondente de similaridade é igual
ou superior ao limiar utilizado. A definição do τ precisa ser feita de modo a garantir que a rede
gerada terá conexões suficientes para análise de suas características, pois, como avaliado por
Ferreira et al. (2021) e Donges et al. (2009), um limiar muito restritivo resultará em uma rede
muito fragmentada e um limiar pouco restritivo permitirá que diversas conexões se formem.
Em ambas as situações, a análise da rede ficará prejudicada e pouco poderá ser dito sobre
o comportamento da variável ao longo da região de estudo. Os autores, então, apresentam
uma análise sobre a relação entre a densidade e métricas como o coeficiente de clusterização,
tamanho do caminho médio, número de componentes e tamanho do componente gigante. Essa
análise demonstrou que as métricas exibiam uma região de transição entre os estados críticos
mencionados à medida que a densidade era variada. Portanto, uma escolha de limiar guiada
por essa região de transição, garante uma rede que apresente características passíveis de serem
analisadas.
onde ki e si são o grau e a força do nó i, e wij é o peso do link (i, j), um link será preservado se
pij < α, onde α é o nível de significância. Valores muito baixos de α implicam em redes pouco
conectadas, uma vez que os links precisarão ter uma significância local cada vez maior para
serem preservados (MENCZER; FORTUNATO; DAVIS, 2020).
30
3 METODOLOGIA
Nesta seção são apresentadas informações a respeito dos dados utilizados na construção
das redes funcionais, cuja distribuição espacial se dá ao longo da Região Serrana do estado do
Rio de Janeiro. Em relação aos recursos computacionais necessários para o processamento desses
dados, são destacadas informações como a linguagem de programação e bibliotecas utilizadas.
Por último são destacadas as etapas relacionadas ao desenvolvimento.
3.1 Dados
Figura 7 – Área da região de estudo delimitada pelo retângulo verde. Fonte: Elaborada pelo autor
(2022).
3.2 Tecnicidades
3.3 Desenvolvimento
De posse dos dados, iniciou-se o processo de leitura dos arquivos para extração das séries
temporais. Elas são obtidas por meio da associação ordenada de cada ponto da matriz, de modo
que a série inicial, índice 0, é formada pelos pontos de coordenada (0,0) de cada um dos arquivos
(Figura 8). A indexação para tratamento das séries em termos sequenciais, ou seja, entre índices
1
https://igraph.org/
2
https://scipy.org/
3
https://scikit-learn.org/stable/
4
https://dtaidistance.readthedocs.io/en/latest/index.html
32
44 X
X 38
i= (c + 39r), (3.1)
r=0 c=0
Precipitação
4.0
3.5
3.0
Intensidade [mm/h]
2.5
2.0
1.5
1.0
0.5
0.0
0 50 100 150 200 250
Tempo [h]
Figura 8 – Representação da série de índice 0. São 240 pontos oscilando entre eventos de
precipitação e períodos sem registro. Fonte: Elaborada pelo autor (2022).
Como visto na Figura 8, 19 das 240 observações da série são valores diferentes de 0. O
elevado número de valores nulos é uma tendência vista em todo o conjunto de séries. Para um
total de 421200 observações, 384865 são referentes a valores nulos, o que corresponde a 91, 37%
do total.
Após a extração de todas as séries, a próxima etapa consistiu na comparação das séries
usando cada um dos 4 algoritmos mencionados na Seção 2.4, de forma a gerar 4 matrizes
de similaridade, Sij , contendo os valores resultantes da comparação entre os pares de séries
temporais. Por serem algoritmos simétricos (comparar A e B é o mesmo que comparar B e A), o
número de comparações, evitando também a comparação entre séries de mesmo índice (iguais),
é dado por:
1755(1755 − 1)
= 1539135. (3.2)
2
O processo de comparação das séries para aplicação do DTW contou com uma etapa de
normalização dos valores de cada série dentro do intervalo [0,1], uma vez que o DTW busca
encontrar um caminho de alinhamento ótimo (menos custoso) que está relacionado apenas ao
deslocamento temporal das séries. Sem a normalização, a construção da matriz de custo, baseada
33
na diferença entre as observações das séries, terá uma distribuição tal que, ao final, o DTW
retornará um valor de custo elevado mesmo entre séries que possuem a mesma forma. Como
exemplo, temos a disposição de três séries na Figura 9: A, B e C. Embora compartilhem a
mesma forma, com crescimento e decrescimento da curva nos mesmos pontos, a medida de
custo de alinhamento retornada pelo DTW para as séries A e B foi igual a 25,73, ao passo
que o alinhamento entre as séries A e C foi de 8,94. Ao remover o efeito da escala, o custo de
alinhamento entre as séries A e B se torna 0, evidenciando a necessidade da normalização para
remover o efeito da escala no DTW quando é visado apenas o comportamento temporal.
Série A
17.5 Série B
Série C
15.0
12.5
Magnitude
10.0
7.5
5.0
2.5
0.0
0 1 2 3 4 5 6
Tempo
Figura 9 – Exemplo de como fatores relacionados à magnitude e alinhamento temporal de séries
interferem na aplicação do DTW. Fonte: Elaborada pelo autor (2022).
correlação de Pearson de 0,9, levando à remoção dos links cujo peso estava abaixo desse limiar.
Percebe-se, por meio da Figura 10, que esse limiar corresponde a um valor de densidade de
aproximadamente 1%. Tomando a densidade como referência para as demais seções da Figura,
onde avalia-se o número de componentes, coeficiente de clusterização, componente gigante,
comprimento do caminho médio e parâmetro de heterogeneidade, empiricamente podemos notar
que as curvas apresentam tendência de estabilização após o ponto 10−2 . A partir desse ponto, de
fato, temos a formação de uma rede mais densa e sem alterações estruturais perceptíveis pelas
métricas analisadas; os pontos de densidade anteriores marcam um comportamento transiente
entre redes muito fragmentadas (vários componentes) e redes mais densas (poucos componentes).
A variação dos limiares globais τ e dos níveis de significância α, para extração do
backbone, se deu com incrementos de de 0,01 unidades. Em relação aos limiares, o limite inferior
foi de 0,55 e o limite superior foi de 0,99, com 45 passos. O limite inferior para os níveis de
significância foi de 0,01 e o superior foi de 0,45, com 45 passos.
Coeficiente de correlação de Pearson
10 Componente Gigante 1500
1
Densidade
10 2 1000
10 3 500
10 4 0
0.6 0.7 0.8 0.9 1.0 10 4 10 3 10 2 10 1
Limiar Densidade
Par. de heterogeneidade Comp. do caminho médio
N. de Componentes
1500
20
1000
500 10
0
10 4 10 3 10 2 10 1 10 4 10 3 10 2 10 1
Densidade Densidade
Coef. de clusterização
30
0.6
20
0.5
10
0.4 0
10 4 10 3 10 2 10 1 10 4 10 3 10 2 10 1
Densidade Densidade
Figura 10 – Impacto da variação do limiar global na geração das redes CCP. Fonte: Elaborada
pelo autor (2022).
Informação Mútua
Componente Gigante
10 1 1500
Densidade
10 2 1000
500
10 3
0
0.5 0.6 0.7 0.8 0.9 10 3 10 2 10 1
Limiar Densidade
1000 15
10
500
5
0
10 3 10 2 10 1 10 3 10 2 10 1
Densidade Densidade
0.7
Coef. de clusterização
3.5
3.0
0.6
2.5
2.0
0.5
1.5
10 3 10 2 10 1 10 3 10 2 10 1
Densidade Densidade
Figura 11 – Impacto da variação do limiar global na geração de redes IM. Fonte: Elaborada pelo
autor (2022).
1500
Densidade
10 2
1000
10 4 500
0
0.6 0.7 0.8 0.9 1.0 10 5 10 4 10 3 10 2 10 1 100
Limiar Densidade
Comp. do caminho médio
N. de Componentes
1500 6
1000 4
500
2
0
10 5 10 4 10 3 10 2 10 1 100 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade
Par. de heterogeneidade
1.0
Coef. de clusterização
150
0.8 100
0.6 50
0
10 5 10 4 10 3 10 2 10 1 100 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade
Figura 12 – Impacto da variação do limiar global na geração de redes DTW. Fonte: Elaborada
pelo autor (2022).
Após a definição dos limiares, foram geradas, por meio da função de Heaviside, as
matrizes de adjacência correspondentes a cada função de similaridade. Desta forma, a conexão
entre pares de série cuja similaridade se encontra abaixo do limiar é removida (Equação 2.22),
gerando as redes finais.
36
Sincronização de Eventos
Componente Gigante
10 1 1500
Densidade
10 3 1000
500
10 5
0
0.6 0.7 0.8 0.9 1.0 10 6 10 5 10 4 10 3 10 2 10 1 100
Limiar Densidade
1500
10
1000
500 5
0
10 6 10 5 10 4 10 3 10 2 10 1 100 10 6 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade
1.00
Coef. de clusterização
600
0.75
400
0.50
0.25 200
0.00 0
10 6 10 5 10 4 10 3 10 2 10 1 100 10 6 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade
Figura 13 – Impacto da variação do limiar global na geração de redes SE. Fonte: Elaborada pelo
autor (2022).
10 1 1500
Densidade
10 3 1000
500
10 5
0
0.0 0.1 0.2 0.3 0.4 10 6 10 5 10 4 10 3 10 2 10 1 100
Nível de Significância Densidade
Comp. do caminho médio
N. de Componentes
1500 8
1000 6
4
500
2
0
10 6 10 5 10 4 10 3 10 2 10 1 100 10 6 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade
Par. de heterogeneidade
1.0
Coef. de clusterização
800
0.9
600
0.8
400
0.7 200
0.6 0
10 4 10 3 10 2 10 1 100 10 6 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade
Componente Gigante
10 1 1500
Densidade
10 3 1000
500
10 5
0
0.0 0.1 0.2 0.3 0.4 10 6 10 5 10 4 10 3 10 2 10 1 100
Nível de Significância Densidade
1500
15
1000
10
500
5
0
10 6 10 5 10 4 10 3 10 2 10 1 100 10 6 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade
0.8
Coef. de clusterização
400
0.6 300
0.4 200
0.2 100
0.0 0
10 5 10 4 10 3 10 2 10 1 100 10 6 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade
1500
Densidade
10 2
1000
500
10 4
0
0.0 0.1 0.2 0.3 0.4 10 5 10 4 10 3 10 2 10 1 100
Nível de Significância Densidade
Comp. do caminho médio
8
N. de Componentes
1500
6
1000
4
500
2
0
10 5 10 4 10 3 10 2 10 1 100 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade
Par. de heterogeneidade
Coef. de clusterização
0.8 200
0.6 100
0.4 0
10 5 10 4 10 3 10 2 10 1 100 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade
Componente Gigante
10 1 1500
Densidade
10 3 1000
500
10 5
0
0.0 0.1 0.2 0.3 0.4 10 6 10 5 10 4 10 3 10 2 10 1 100
Nível de Significância Densidade
1500 15
1000 10
500 5
0
10 6 10 5 10 4 10 3 10 2 10 1 100 10 6 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade
Coef. de clusterização
0.8 800
0.6 600
0.4 400
0.2 200
0.0 0
10 5 10 4 10 3 10 2 10 1 100 10 6 10 5 10 4 10 3 10 2 10 1 100
Densidade Densidade
A análise das redes foi baseada na geração de métricas capazes de fornecer informações
sobre a organização estrutural de cada uma das redes. Além disso, foram avaliadas características
a respeito da organização de comunidades, cuja detecção foi realizada por meio do algoritmo
Walktrap. O algoritmo divisivo Girvan-Newman, apesar da facilidade em seu entendimento,
apresenta certas limitações relacionadas ao seu desempenho para redes que apresentam milhares
de nós e links. Considerando-se uma máquina com processador AMD Ryzen 3 de 3,5 GHz, e
8 mb RAM, a execução do Walktrap, para apenas uma rede (reforçando que todas possuem
densidade aproximada de 1%), foi feita em tempo aproximado de 1,4s. Para o Girvan-Newman, o
tempo foi de 11380s, o que evidencia a considerável diferença na eficiência dos dois algoritmos.
39
4 RESULTADOS
Tabela 2 – Métricas das redes geradas pelo processo de limiarização global. Elaborado pelo autor
(2022).
Comp. do Parâmetro
Coef. de N. de Componente
Similaridade Densidade caminho de
clusterização componentes gigante
mínimo médio heterogeneidade
CCP 0,01 8,12 0,59 29 1675 1,49
IM 0,01 8,79 0,54 28 1660 1,96
DTW 0,01 4,49 0,48 475 1149 3,72
SE 0,01 7,84 0,58 121 1542 3,09
40
No caso das redes geradas por limiarização global, pode-se perceber uma semelhança
entre as redes CCP e IM. Ambas possuem um componente gigante maior que 1600 (1755 seria
o tamanho máximo), levando, de fato, a um número de componentes menor. Além disso, um
componente gigante de proporções mais elevadas leva a maiores valores de comprimento do
caminho mínimo médio, uma vez que a baixa fragmentação da rede gera conexões possíveis
entre nós distantes (espacialmente ou topologicamente). A rede SE se mostrou uma rede com
características intermediárias entre a CCP e IM e a rede DTW. Destaca-se para as redes SE e DTW
um elevado parâmetro de heterogeneidade, o que evidencia grandes variações na distribuição de
graus dos nós e aponta para a presença de hubs. Como essas duas medidas buscam relacionar
séries de acordo com a sincronicidade de seus eventos e de deslocamento temporal, a presença de
hubs aponta para a existência de séries cujo padrão de deslocamento temporal (no caso do DTW)
e sincronicidade dos eventos de precipitação (no caso do SE) é altamente compatível com várias
outras séries, sugerindo um comportamento de influência por parte desses hubs na ocorrência de
eventos nas áreas as quais eles estão ligados. A Figura 18 confirma o que havia sido capturado
pelo parâmetro de heterogeneidade. Podemos ver que os valores (grau de cada nó) da mediana
para as redes DTW e SE são inferiores às demais, mas se estendem a limites superiores muito
mais elevados, apontando para existência de nós que realizam mais de 100 conexões. As redes
160
140
120
Distribuição de graus
100
80
60
40
20
0
CCP IM DTW SE
Figura 18 – Distribuição de graus das redes geradas usando limiarização global. Fonte: Elaborada
pelo autor (2022).
backbone, cujas métricas estão apresentadas na Tabela 3, exibem uma organização estrutural
diferente das respectivas redes geradas usando limiarização global. Um resultado esperado, pois
cada link mantido nas redes backbone possui uma relevância predominantemente local. Desta
forma, mesmo que o peso de um link seja baixo, considerando o contexto geral da rede, ele ainda
pode ser relevante se possuir um peso elevado em relação ao contexto dos nós em que ele está
conectado. Conforme mostrado na Figura 19, a distribuição de graus para rede CCP se tornou
mais heterogênea em relação em relação à CCP com limiarização global. O mesmo aconteceu
com a rede DTW, que exibiu uma presença ainda maior de hubs, com 12 nós realizando mais
41
140
120
100
Distribuição de graus
80
60
40
20
0
CCP IM DTW SE
Figura 19 – Distribuição de graus das redes geradas usando backbone. Fonte: Elaborada pelo
autor (2022).
Tabela 4 – Relação do número de comunidades e modularidade para cada uma das redes. Elabo-
rado pelo autor (2022).
Rede Número de comunidades Modularidade
CCP 80 0,81
IM 115 0,75
DTW 667 0,5
SE 279 0,63
CCP backbone 536 0,81
IM backbone 89 0,82
DTW backbone 506 0,47
SE backbone 213 0,8
Figura 20 – Rede CCP gerada utilizando critério de limiarização global com distinção de comu-
nidades baseada em cores. Fonte: Elaborada pelo autor (2022).
No caso da rede IM, mostrada na Figura 21, pode-se evidenciar a formação de grandes
estruturas de comunidades bem definidas na parte inferior esquerda da região. Mesmo compar-
tilhando valores semelhantes de métricas com a rede CCP, como visto na Tabela 2, o fato da
informação mútua capturar as dependências não lineares entre variáveis, levou à emergência de
uma rede com distribuição espacial distinta, o que reforça o caráter não-linear de formação dos
eventos naquela área. Aponta-se, ainda, para a manutenção de estruturas de comunidades bem
demarcadas espacialmente.
44
Figura 21 – Rede IM gerada utilizando critério de limiarização global com distinção de comuni-
dades baseada em cores. Fonte: Elaborada pelo autor (2022).
Em relação à rede DTW, Figura 22, foi detectado o maior número de estruturas de
comunidades dentre todo o conjunto de redes geradas. Além disso, para a rede DTW por
limiarização global e DTW backbone, o valor de modularidade obtido foram os mais baixos,
sendo 0,5 e 0,47, respectivamente. Diferente do que foi observado nas duas redes anteriores,
é possível ver a ocorrência de comunidades que não estão bem demarcadas espacialmente.
Por meio da avaliação das cores associadas a cada nó, torna-se perceptível a presença de
comunidades cujos nós componentes estão distribuídos em diversos pontos do espaço. Voltando
à Tabela 2, tem-se que a rede DTW é detentora do menor comprimento de caminho médio,
menor coeficiente de clusterização e maior parâmetro de heterogeneidade. Tudo isso pode ser
avaliado pela organização da rede, uma vez que são notadas a presença de inúmeros hubs
que se conectam com diversos nós espacialmente distantes. Desta forma, o comprimento do
caminho médio entre pares de nós é encurtado; essa concentração de links gerada pelos hubs
também faz com que a contagem de cliques (subgrafos completos) seja diminuída, afetando no
coeficiente de clusterização. Esse resultado se assemelha ao que fora apresentado por Ferreira et
al. (2021), que identificou padrões de conexões de longo alcance e alta similaridade com DTW
em dados climáticos distribuídos em escala global. Apesar dos dados tratados aqui terem uma
distribuição local, a presença desse tipo de conexão pode indicar processos de difusão de eventos
de precipitação entre pontos ao longo da região analisada.
45
Figura 22 – Rede DTW gerada utilizando critério de limiarização global com distinção de
comunidades baseada em cores. Fonte: Elaborada pelo autor (2022).
A rede SE, Figura 23, demonstra a formação de duas grandes estruturas de comunidades
em regiões semelhantes às já apresentadas pela rede IM. Essa rede também é caracterizada pela
alta heterogeneidade dos graus, sendo que o maior hub, com 153 ligações, faz parte dessa rede.
46
Figura 23 – Rede SE gerada utilizando critério de limiarização global com distinção de comuni-
dades baseada em cores. Fonte: Elaborada pelo autor (2022).
Iniciando a discussão para as redes backbone, temos a backbone CCP, mostrada na Figura
24. Ao contrário da rede CCP por limiarização global, a rede backbone apresenta comunidades
com uma maior separação espacial, não ocupando a região da mesma forma que a anterior.
Diversas conexões de longo alcance levam à diminuição percebida no comprimento do caminho
mínimo médio. Muitas dessas conexões realizam uma união entre dois grupos de uma mesma co-
munidade, evidenciando uma divisão que não se mostrou muito comum na rede por limiarização
global.
47
Figura 24 – Rede backbone CCP com distinção de comunidades baseada em cores. Fonte: Ela-
borada pelo autor (2022).
Figura 25 – Rede backbone IM com distinção de comunidades baseada em cores. Fonte: Elabo-
rada pelo autor (2022).
A rede backbone DTW (Figura 26) foi a que apresentou menor valor de modularidade,
mostrando que as partições se aproximam mais do caso aleatório onde não há presença das
ligações preferenciais responsáveis por gerar estruturas de comunidade. É possível notar, assim
como na rede por limiarização global, a presença de comunidades cujos componentes se dividem
ao longo de diversos pontos no espaço.
49
Figura 26 – Rede backbone DTW com distinção de comunidades baseada em cores. Fonte:
Elaborada pelo autor (2022).
A Figura 27 mostra a distribuição da rede backbone SE. Aqui, assim como na rede
backbone IM, há uma tendência evidente de distribuição de comunidades nas regiões margi-
nais da área de estudo. Sem uma análise mais aprofundada, porém, pouco pode ser falado a
respeito da existência de uma relação entre os padrões capturados pela informação mútua e pela
sincronização de eventos.
50
Figura 27 – Rede backbone SE com distinção de comunidades baseada em cores. Fonte: Elabo-
rada pelo autor (2022).
51
5 CONCLUSÃO
REFERÊNCIAS
AMARAL, L. A.; OTTINO, J. M. Complex networks. The European Physical Journal B, 2004.
Springer, v. 38, n. 2, p. 147–162, 2004. Citado na página 17.
BARABÁSI, A.-L. et al. Network science. [S.l.]: Cambridge university press, 2016. Citado 9
vezes nas páginas 14, 17, 18, 20, 21, 22, 23, 24 e 39.
BERNDT, D. J.; CLIFFORD, J. Using dynamic time warping to find patterns in time series. In:
SEATTLE, WA, USA:. KDD workshop. [S.l.], 1994. v. 10, n. 16, p. 359–370. Citado na página
27.
BOCCARA, N. Modeling complex systems. [S.l.]: Springer Science & Business Media, 2010.
Citado 2 vezes nas páginas 14 e 16.
BROCKWELL, P. J.; DAVIS, R. A. Introduction to time series and forecasting. [S.l.]: springer,
2016. Citado 2 vezes nas páginas 14 e 16.
CHATFIELD, C. Time-series forecasting. [S.l.]: CRC press, 2000. Citado na página 16.
CRYER, J. D.; CHAN, K.-S. Time series analysis. [S.l.]: Springer, 2008. Citado 2 vezes nas
páginas 14 e 16.
DONGES, J. F. et al. Complex networks in climate dynamics. The European Physical Journal
Special Topics, 2009. Springer, v. 174, n. 1, p. 157–179, 2009. Citado 3 vezes nas páginas 14,
15 e 29.
ERDŐS, P.; RÉNYI, A. et al. On the evolution of random graphs. Publ. Math. Inst. Hung. Acad.
Sci, 1959. v. 5, n. 1, p. 17–60, 1959. Citado na página 17.
ESLING, P.; AGON, C. Time-series data mining. ACM Computing Surveys (CSUR), 2012. ACM
New York, NY, USA, v. 45, n. 1, p. 1–34, 2012. Citado na página 26.
FERREIRA, L. N. et al. The effect of time series distance functions on functional climate
networks. The European Physical Journal Special Topics, 2021. Springer, v. 230, n. 14, p.
2973–2998, 2021. Citado 7 vezes nas páginas 14, 15, 26, 28, 29, 44 e 51.
FORTUNATO, S. Community detection in graphs. Physics reports, 2010. Elsevier, v. 486, n. 3-5,
p. 75–174, 2010. Citado na página 24.
53
LANDAU, H. Sampling, data transmission, and the nyquist rate. Proceedings of the IEEE, 1967.
v. 55, n. 10, p. 1701–1706, 1967. Citado na página 16.
LU, L. et al. Time series analysis of dengue fever and weather in guangzhou, china. BMC Public
Health, 2009. Springer, v. 9, n. 1, p. 1–5, 2009. Citado na página 14.
MCILVEEN, R. Fundamentals of weather and climate. [S.l.]: Psychology Press, 1991. Citado
na página 16.
MENCZER, F.; FORTUNATO, S.; DAVIS, C. A. A first course in network science. [S.l.]:
Cambridge University Press, 2020. Citado 7 vezes nas páginas 7, 19, 21, 22, 23, 24 e 29.
MÜLLER, M. Information retrieval for music and motion. [S.l.]: Springer, 2007. Citado na
página 51.
OGATA, K. Systems Dynamics. [S.l.]: Pearson Prentice Hall, 2003. Citado 2 vezes nas páginas
16 e 17.
PONS, P.; LATAPY, M. Computing communities in large networks using random walks. In:
SPRINGER. International symposium on computer and information sciences. [S.l.], 2005. p.
284–293. Citado na página 25.
QUIROGA, R. Q.; KREUZ, T.; GRASSBERGER, P. Event synchronization: a simple and fast
method to measure synchronicity and time delay patterns. Physical review E, 2002. APS, v. 66,
n. 4, p. 041904, 2002. Citado 3 vezes nas páginas 27, 33 e 51.
RHEINWALT, A. et al. Non-linear time series analysis of precipitation events using regional
climate networks for germany. Climate dynamics, 2016. Springer, v. 46, n. 3, p. 1065–1074,
2016. Citado na página 15.
SAEZ, M. et al. Relationship between weather temperature and mortality: a time series analysis
approach in barcelona. International journal of epidemiology, 1995. Oxford University Press,
v. 24, n. 3, p. 576–582, 1995. Citado na página 14.
54
SCHOBER, P.; BOER, C.; SCHWARTE, L. A. Correlation coefficients: appropriate use and
interpretation. Anesthesia & Analgesia, 2018. Wolters Kluwer, v. 126, n. 5, p. 1763–1768, 2018.
Citado na página 26.
SILVA, V. A. F. da. Time series analysis based on complex networks. Dissertação (Mestrado) —
University of Porto, 2018. Citado na página 17.
ZOU, Y. et al. Complex network approaches to nonlinear time series analysis. Physics Reports,
2019. Elsevier, v. 787, p. 1–97, 2019. Citado na página 19.