Cluster Basedtradestrategy Amachinelearningapproach

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/362655534
Cluster-based trade strategy: a machine learning approach
Preprint · August 2022

DOI: 10.13140/RG.2.2.27453.54240
CITATIONS READS
0 233
2 authors, including:
Gustavo Henrique Leite de Castro

University of São Paulo
34 PUBLICATIONS 100 CITATIONS
SEE PROFILE
All content following this page was uploaded by Gustavo Henrique Leite de Castro on 12 August 2022.
The user has requested enhancement of the downloaded file.

Estratégia de trade baseado em clusters: uma abordagem em machine learning
Gustavo Henrique Leite de Castro1*; Bruno Figlioli2
Resumo
O método de agrupamento é uma das técnicas utilizadas em diversas áreas da ciência e com
o avanço das técnicas de inteligência artificial, Big Data e Data Science o seu uso passou a
ser explorado nas áreas finanças quantitativas com mais frequência. Nesse contexto, o
objetivo deste estudo é comparar a performance dos retornos de trade baseado na estratégia
de agrupamento. Para tanto, foram estimados indicadores financeiros para ativos com
maiores e menores volatilidades, em seguida utilizou-se a técnica de Machine Learning não
supervisionado para encontrar o número ótimo de clusters que serviram para identificar
oportunidade de compra e de venda dos ativos. Os principais resultados mostram que
estratégia de clusters baseado na técnica de Machine Learning não supervisionado foram
superiores em termos de retorno bruto comparado com a estratégia Buy and Hold. Os
resultados se mantiveram para ativos com diferentes volatilidades e para as técnicas
diferentes de divisão de amostra entre treinamento e teste.
Palavras-chave: finanças quantitativas; indicadores financeiros; inteligência artificial;
volatilidade; retorno financeiros.
Cluster-based trade strategy: a machine learning approach
Abstract
The clustering method is one of the techniques used in several areas of science and with the
advancement of artificial intelligence techniques, big data and data science, its use has been
explored more frequently in quantitative finance areas. In this context, the aim of this study is
to compare the performance of trade financial returns based on the clustering strategy. For
this, financial indicators were estimated for assets with higher and lower volatilities, and then
the unsupervised Machine Learning technique was used to find the optimal clusters number
that served to identify the opportunity to buy and sell the assets. The main results indicate that
the cluster strategy based on the unsupervised Machine Learning technique were superior in
terms of gross return compared to the Buy and Hold strategy. The results were maintained for
assets with different volatilities and for the different techniques of sample division between
training and testing.
Keywords: quantitative finance, financial indicators, artificial intelligence, volatility; financial
return
Introdução
A análise e previsão de indicadores desempenham um papel importante na prática de

negociação de ativos. Investidores, muitas vezes, podem utilizar a análises de finanças
quantitativas para prever a tendências de curto, médio e longo prazo de um determinado ativo
com base em sua performance no passado. Logo, a mudança de um indicador quantitativo
pode alertar um especialista sobre o que provavelmente acontecerá em um futuro próximo
com o ativo. Assim, os gestores podem, então, formular suas estratégias de negociação no
1
Programa de Pós-Graduação em Economia da Faculdade de Economia, Administração e Contabilidade (FEA)
da Universidade de São Paulo (USP). E-mail: gustavocastro@usp.br
2
Departamento de Contabilidade da Faculdade de Economia, Administração e Contabilidade de Ribeirão Preto
(FEA-RP) da Universidade de São Paulo (USP).
2
mercado ancorados em conceitos técnicos, sejam eles oriundos das análises técnicas ou
fundamentalistas (He et al., 2007). Entretanto, a pergunta que se faz é se é possível obter
indicadores que auxiliam a tomada de decisão dos investidores utilizando as técnicas de
Machine Learning? E se for possível, qual a performance deles em termos dos retornos
financeiros?
Há uma extensa literatura que aplica Machine Learning na economia e no
processamento de linguagem natural (PLN), bem como, no mercado financeiro (Chen et al.,
2021). Entre os tipos de aprendizagem das técnicas de Machine Learning, a aprendizagem
não supervisionada é a mais utilizada no mercado financeiro (Datta et al., 2009). Basicamente,
essa abordagem não depende da rotulação dos dados, ou seja, não depende do julgamento
humano sobre as características dos dados, e o modelo, por si próprio, tem por objetivo
encontrar algum tipo de padrão em um conjunto de dados de forma não ad hoc (Hocking et
al., 2018).
Nesse contexto, a análise de clusters é uma das técnicas não supervisionadas
utilizadas em finanças quantitativas. Por exemplo, o estudo de Münnix et al. (2012) utilizou
clusters hierárquico para identificar padrões de estruturas de correlação semelhantes o
suficiente para abranger os retornos em mercado distintos. Já a pesquisa de Fernández-Aviés
et al. (2020) utilizou as técnicas de clusters para os mercados de commodities durante
períodos de crises.
Entre os muitos algoritmos de clusters utilizados em economia e finanças (Kou et al.,
2014; Musmeci et al., 2015), a técnica de agrupamento k-means3 continua sendo uma das
mais utilizadas (Soni e Patel, 2017). O agrupamento de k-means é utilizado com frequência
para avaliar os riscos dos investimentos e estimar os retornos dos ativos (Kou et al., 2014; Xu
et al., 2020). Projetado para particionar o espaço matemático, o agrupamento k-means é
particularmente útil para detectar fraudes e outros outliers (Deng e Mei, 2009), bem como para
classificar empresas em falência ou em risco de inadimplência (Tsai, 2014).
Entretanto, há certas desvantagens do método de clusters k-means. Segundo Chen,
et al. (2021) o valor ideal de clusters não é conhecido antecipadamente. Assim, encontrar o
número ótimo de clusters4 é uma etapa importante de um problema mais amplo, que é o de
encontrar o número ideal de clusters na aprendizagem não supervisionada (Xu et al., 2016),
sendo essa a proposta desta pesquisa. Assim, neste estudo, será utilizado o método de
Machine Learning não supervisionado, com o propósito de clusterizar as decisões de trade
(compra e venda de um ativo). Com a finalidade de verificar os resultados contrafactuais, os
3
É um dos algoritmos de clusters mais antigos (MacQueen, 1967).
4
Dentre os métodos para encontrar o número ótimo de clusters, ou seja, o k ideal, três técnicas são
especialmente utilizadas: cotovelo, silhueta e lacuna. Ver Bholowalia & Kumar (2014), Lengyel e Botta-
Duk´at, (2019) e Tibshirani, Walquer e Hastle (2001), respectivamente.
3
retornos da estratégia de clusters serão comparados com os retornos da estratégia Buy and
Hold.
A escolha da estratégia Buy and Hold se deve pelo fato de ser uma das estratégias
mais comum para negociação (Neves, 2019). Nessa estratégia o agente compra um
determinado ativo e mantem por um período mais longo, assim o investidor terá menor número
de negociação, custo de transação menor e benefícios institucionais, como por exemplo,
participação em conselho, direito a voto, recebimento de dividendos e etc. (Rodrigues, 2021).
Outro ponto é que essa estratégia requer um menor tempo para o monitoramento do mercado
em relação as estratégias de curto prazo, dado que o objetivo é manter o ativo na carteira por
um período mais longo. Essa estratégia de comparação também foi utilizada nas pesquisas
de Oliveira (2011), Melo Neto (2018) e Pereira (2019).
Logo, objetivo deste estudo é comparar a performance dos retornos de trade baseado
na estratégia de agrupamento (método k-means) em Machine Learning não supervisionado,
de um determinado ativo e comparar a performance dos retornos com a estratégia Buy and
Hold. Logo, pretende-se responder as seguintes perguntas: (i) A estratégia de clusters pode
auxiliar os investidores nas tomadas de decisão de compra ou venda de um ativo? (ii) Os
retornos utilizando a estratégia de clusters, é superior a estratégia de Buy and Hold? e; (iii)
Essa performance se altera para ativos com volatilidades diferentes?
Para responder essas perguntas, o estudo será divido quatro seções sendo a primeira
esta introdução; na segunda seção é apresentado os matérias e métodos utilizado para
responder as perguntas aqui levantas; a terceira seção serão apresentados os resultados e
as discussões e, por fim, na última seção encontra-se as considerações finais do estudo.
Material e Métodos
Para essa pesquisa foram considerados os dados diários de dois ativos com
volatilidades diferentes a serem definidos de forma aleatória para evitar viés de seleção. As
empresas foram ordenadas com base na volatidade de retorno de suas ações nos últimos
cincos anos (2017-2021) e foram categorizados em dois grupos com dez empresas cada que
possuíram as menores e as maiores volatilidades, respectivamente. Após essa etapa, foi
selecionado de forma aleatória e de forma anônima uma empresa de cada grupo para compor
a amostra do estudo, com o propósito de evitar viés de seleção. Os dados para cada ativo
saõ compostos da seguinte forma: data, abertura, fechamento, máximo e mínimo. A partir
desses dados, serão calculados alguns indicadores financeiros que serviram de input para o
método de agrupamento, via algoritmo de aprendizado não supervisionado. Os indicadores
financeiros calculados foram:
Média Móvel Simples [MMS]: é a média aritmética da série nas últimas 𝑛 observações.
4
𝑃1 + 𝑃2 + ⋯ + 𝑃𝑛
𝑀𝑀𝑆 = (1)
𝑛
em que 𝑃𝑖 é o preço de fechamento do ativo; 𝑛 é o número de períodos escolhidos (Martins e

Rodrigues, 2018). Será utilizado o período de 8 dias (comumente utilizado no mercado).
Também foi utilizado a Média Móvel Exponencial (MME) que atribui peso maior ao
preço mais recente no cálculo da média, a proposta do indicador segundo Guarnieri e
Panhoca (2006) é acompanhar de maneira mais veloz a mudança do preço de um ativo:
2
𝑀𝑀𝐸𝑡 = 𝑃𝑡 × 𝐾 + 𝑀𝑀𝐸𝑡−1 𝐾= (2)
𝑁+1
Onde 𝑃𝑡 é o preço de fechamento do ativo, 𝐾 é o fator de ponderação exponencial;

𝑀𝑀𝐸𝑡−1 é a média móvel exponencial do período anterior e; 𝑁 é o número de períodos
escolhidos (comumente 10 dias).
Índice de Canal de Commodity (ICC): relaciona o preço atual e a média do preço em
𝑛 períodos. É um indicador de momentum que tem por objetivo identificar as tendências
cíclicas e as reversões de tendências (Maitah, et al., 2016). Pode ser descrito da seguinte
forma:
𝑃𝑓 − 𝑀𝑀𝑆
𝐼𝐶𝐶 = (3)
0.015 − 𝐷𝑉
em que 𝑃𝑓 é o preço de fechamento do ativo; 𝑀𝑀𝑆 é a média móvel simples; a

constante 0,015 é configurada devido a aproximadamente 70-80% de estabilidade de tempo
do valor ICC entre as linhas −100 e +100 (Lambert, 1983); A variável 𝐷𝑉 é o desvio médio do
ativo, considerado o mesmo número de dias da 𝑀𝑀𝑆. O ICC, geralmente, cai em canal de -
100 a 100. Logo, em um sistema básico de trading é: Compre (Venda) se o ICC subir acima
de 100 (cair abaixo de -100) e venda (compre) quando cair abaixo de 100 (subir acima de -
100). A variável utilizada foi o valor de fechamento do ativo (Maitah, et al., 2016);
Índice de Força Relativa (IFR): calcula a proporção dos movimentos de alta recentes
do preço com o movimento do preço absoluto:
100 − 100
𝐼𝐹𝑅 = (4)
(1 + 𝐹𝑅)
5
em que 𝐹𝑅 é a razão suavizada dos ganhos médios sobre as perdas médias. As
médias não são médias verdadeiras, pois são divididas pelo valor de 𝑛 e não pelo número de
períodos em que há ganhos ou perdas. O 𝐼𝐹𝑅 é geralmente interpretado como um indicador
de sobrecompra / sobrevenda (acima de 70 / abaixo de 30). A divergência com o preço
também pode ser útil. Por exemplo, se o preço estiver fazendo novas máximas / mínimas,
mas o 𝐼𝐹𝑅 não, isso pode indicar uma reversão (Chong e Wing-Kam, 2008).
Índice de Convergência-Divergências da Média Móvel (MACD - Moving Average
Convergence-Divergence): compara uma média móvel rápida (MM) de uma série com uma
MM lenta da mesma série. O indicador pode ser usado como um oscilador genérico para
qualquer série univariada, não apenas o preço. Calculado pela subtração de uma média
exponencial de 26 dias de um ativo sobre uma média exponencial de 12 dias. É utilizada uma
linha gatilho calculada a partir de uma média exponencial de 9 dias da diferença de médias.
A variável utilizada foi o valor de fechamento do ativo (Chong e Wing-Kam, 2008; Martins e
Rodrigues, 2018).
O indicador de Bollinger Bands (BBands): compara a volatilidade de um título e os
níveis de preço ao longo de um período de tempo:
𝐵𝐵𝑎𝑛𝑑𝑠𝑖 = 𝑆𝑀𝐴𝑖 ± 𝜎𝑖 𝐷 (5)
em que a variável 𝐵𝐵𝑎𝑛𝑑𝑠𝑖 é o valor de fechamento do ativo; 𝑆𝑀𝐴𝑖 é a média móvel

simples para o período; 𝜎𝑖 é o desvio padrão da 𝑆𝑀𝐴 durando determinado período e; 𝐷 são
os desvios padrão longe da média (largura de banda / 2) (Leung e Chong, 2003; Koçer , 2016).
A banda média é geralmente uma Média Móvel Simples de 20 períodos do preço típico ([alta
+ baixa + próxima] / 3). As bandas superior e inferior são desvios padrão SD (geralmente 2)
acima e abaixo do média aritmética;
Outro indicador utilizado é o VWAP (Volume Weighted Average Price) ou Preço Médio
Ponderado por Volume que de acordo com Buryak e Guo (2014) é uma métrica que dá mais
peso aos períodos de alta negociação do que aos períodos de baixa negociação. O indicador
é definido sobre um intervalo de tempo de 10 dias (comumente utilizado para essa métrica).
∑𝑁
𝑖=1 𝑃𝑖 𝑉𝑖
𝑉𝑊𝐴𝑃𝑖 = (6)
∑𝑁
𝑖=1 𝑉𝑖
Em que 𝑃𝑖 é o preço de fechamento do ativo e 𝑉𝑖 é o volume negociado.

Após os cálculos dos indicadores, o próximo passo foi utilizar o banco de dados para
a implementação do método k-means. Seguindo a abordagem matemática de Sousa (2019),
6
considerando que esses indicadores financeiros formem um conjunto de dados 𝐷 com 𝐾
pontos, definido da seguinte forma:
𝐷 = {𝑥𝑖 }𝑛𝑖=1 (7)
Um cluster, particiona esse conjunto 𝐷 em 𝐾 subconjuntos:
𝐶 = {𝐶1 , 𝐶2 , … , 𝐶𝑘 } (8)
sendo 𝐶𝑖 o cluster do conjunto 𝐷. Cada 𝐶𝑖 está associado a um centroide (𝑦𝑖 ), que

representa um cluster e é comparado com todos os outros elementos de 𝐷. Logo, 𝑦𝑖 é
determinado por meio da média de todos os pontos pertencentes ao cluster:
1
𝑦𝑖 = ∑ 𝑥𝑗 (9)
𝑛𝑖 𝑥𝑗 ∈𝐶𝑖
em que 𝑛𝑖 é o número de elementos de 𝐶𝑖 .

Para calcular a dispersão dos elementos de um cluster e verificar quão próximos eles
estão, compara-se a distância dos pontos ao centroide correspondente, para isso, foi utilizado
a função semelhança:
𝑘
𝐹𝑠 (𝑃) = ∑ ∑ 𝐸(𝑥𝑗 , 𝑦𝑖 ) (10)

𝑖=1 𝑥𝑗 ∈𝐶𝑖
em que 𝐸 é a distância euclidiana. Ou seja, 𝐹𝑠 define a soma de todas as distâncias

entre cada elemento e o centroide do cluster, ou seja, mede quão bem o centroide representa
o seu grupo.
Logo, o algoritmo k-means tem como objetivo minimizar 𝐹𝑠 , convergindo para a solução
local, a mais viável, não levando em consideração se esse resultado é a solução ótima do
problema. Assim, o algoritmo consiste nas seguintes etapas a partir de um banco de dados:
i) distribui todos os pontos do conjunto 𝐷 de forma aleatória em 𝑘 clusters; ii) calcula o
centroide de cada cluster (𝑦𝑖 ); iii) associa cada ponto 𝑥𝑗 ∈ 𝑃 a um cluster 𝐶𝑖∗ , do centroide 𝑦𝑖∗
mais próximo ao ponto, ou seja:
2
𝑖 ∗ = argmin‖𝑥𝑗 − 𝑦𝑖 ‖2 (11)
𝑖=1,2,…,𝑘
7
Significa que um ponto 𝑥𝑗 qualquer será agrupado a 𝐶𝑖 , quando este ponto possuir a
menor distância ao centroide desse cluster, comparado com a distância aos outros centroides
do resto do clusters; iv) faz-se necessário a atualização dos centroide de cada cluster, dado
que o passo anterior tenha alterado os pontos entre os grupos, assim será encontrado um
novo centroide 𝑦𝑖 para o cluster 𝐶𝑖 ; v) esse processo será repetido até que os respectivos
centroides não se alterem ou satisfaçam uma precisão estabelecida e; vi) o teste de parada
é analisando pela soma das diferenças dos centroides (resíduo) da iteração atual pela
anterior.
𝑘 2
∑‖𝑦𝑖𝑡 − 𝑦𝑖𝑡−1 ‖ ≤ 𝜖 (12)

𝑖=1 2
em que 𝑦𝑖𝑡 representa o centroide da iteração atual, 𝜖 > 0 é a precisão determinada e

o limite da convergência.
Para essa análise foi determinado um número máximo de cluster (𝐾𝑚𝑎𝑥 ), igual a 10,
sabe-se que quando o número de cluster tende ao infinito, o resíduo tende a zero. Porém, a
ideia do Machine Learning não supervisionado é tentar resumir em poucas variáveis, ou seja,
em poucos clusters, a tomada de decisão. Assim, o ponto principal da aprendizagem é decidir
o menor número de clusters para o menor valor do resíduo (𝑘̇). Para essa decisão foi utilizado
a análise gráfica, mas também foi testado, como análise de sensibilidade, todos os clusters
definidos, ou seja, 𝐾𝑚𝑎𝑥 = 10 .
̇
O passo seguinte é determinar um alvo, denominado de 𝐴𝑘𝑡+1 . Esse alvo é o retorno
do médio do ativo em 𝑡 + 1 em cada clusters (𝑘̇). Assim, após definido o número de clusters
ótimos com base no conjunto de indicadores financeiros, estes foram utilizados para calcular
̇
o alvo (𝐴𝑘𝑡+1 ), que representa a média de retorno em 𝑡 + 1 para cada cluster:
𝑛
̇ 1
𝐴𝑘𝑡+1 = ∑ 𝑟𝑒𝑡𝑜𝑟𝑛𝑜𝑡+1 (13)
𝑛
𝑖=1
Ou seja, cada cluster terá a média de retorno em 𝑡 + 1. Assim, se determinado cluster

possuir valores positivos, significa que na média dos dias o retorno em 𝑡 + 1 foi positivo, se
determinado cluster possuir valores negativos, significa que na média dos dias o retorno em
𝑡 + 1 foi negativo.
O próximo passo foi utilizar os resultados dos clusters ótimos (𝑘̇) na base de
treinamento para fazer previsão na base de teste (𝑘̂). Utilizando os clusters na base de teste
8
̇
(𝑘̂) juntamente com as decisões de compra e venda, determinado pelo o alvo 𝐴𝑘𝑡+1 , foram
analisados as decisões de compra ou venda baseado em qual cluster o ativo foi atribuído
em 𝑡. Ou seja, caso o ativo em 𝑡 for atribuído em clusters com retorno em 𝑡 + 1 > 0, significa
compra. Caso o ativo em 𝑡 for atribuído em clusters com retorno em 𝑡 + 1 < 0, significa venda.
Uma etapa necessária de Machine Learning foi dividir o conjunto de dados em dois
conjuntos que contemplam as bases: i) treinamento e; ii) teste. A divisão do conjunto de dados
em treinamento e teste será elaborada com base na regra de Pareto (comumente utilizado
nos cálculos de Machine Learning): sendo 80% da amostra para treinamento e 20% para
teste. Além disso, foi empregado a lei de escala para a proporção do tamanho do conjunto de
treinamento do conjunto de teste proposto por Guyon (1997) em que o conjunto amostral deve
ser inversamente proporcional à raiz quadrada do número de parâmetros ajustáveis, para
essa abordagem a amostra para treinamento corresponde 72,26% do conjunto de dados e a
amostra para teste corresponde a 27,74%, respectivamente.
Cabe destacar que a base de treinamento serve para adaptação e alterações no
aprendizado do algoritmo até a sua validação, evitando problemas como underfitting (baixa
performance nos dados de treinamento e má generalização na previsão para outros dados).
A etapa de teste serve para validar a performance do algoritmo, evitando problemas como
overfitting (alta performance nos dados de treinamento, má generalização na previsão para
outros dados), e para comparar com outras estratégias (benchmarks).
A validação do algoritmo de Machine Learning é uma etapa indispensável para a
confiabilidade dos resultados e é por meio dela que é demonstrado o quão representativo são
os clusters induzidos por algoritmo de agrupamento como o k-means. De acordo com Maulik
e Bandyopadhyay (2002) qualquer sistema que implemente algoritmos de classificação
precisa responder duas perguntas: i) qual é o real número de clusters presentes no conjunto
de dados utilizados? ii) quão representativo e real são os clusters? Para responder essas
questões podem ser utilizadas medidas de validação externas e internas. A diferença
relevante entre as duas é que a validação externa necessita de atributos determinados por
fontes externas, como o próprio usuário por exemplo. Para a validação do algoritmo deste
estudo foram utilizadas algumas métricas internas (índices internos) baseadas em medidas
estatísticas de Davies-Bouldin (Davies e Boudien 1979) e Silhouette (Rousseeuw, 1987).
O índice Davies-Boudin é baseado no cálculo de similaridade intragrupo e de
diferenças intergrupos, ou seja, mede a similaridade média e a dispersão dos grupos. Para
esse indicador, quanto mais baixo forem os valores mais os clusters são compactos e
distantes entre si. Já o índice Silhouette é uma medida de qualidade dos clusters, ou seja,
busca avaliar quão ajustados os dados estão em relação aos clusters. O valor do índice
Silhouette associado a um determinado agrupamento 𝑘̇ varia no intervalo de -1 a +1, ou seja,
9
𝑆𝑖 𝜖 [−1 + 1] e pode ser calculado com qualquer métrica de distância. Para essa pesquisa foi
utilizada a distância euclidiana. A interpretação da largura da silhueta é: i) 𝑆𝑖 > 0, significa que
a observação está bem agrupada – quanto mais próximo estiver de 1, melhor será o cluster;
ii) 𝑆𝑖 = 0, significa que a observação está entre dois clusters e; iii) 𝑆𝑖 < 0, significa que a
observação foi colocada no cluster errado (Oliveira, 2018).
Para comparação, o resultado da estratégia de cluster baseado em aprendizado não
supervisionado foi comparado com a estratégia Buy and Hold. Logo, respondendo as
hipóteses (1) e (2) deste estudo. Como teste de heterogeneidade e generalização, foram
escolhidos 2 tipos de ativos com volatilidades diferentes, respondendo a hipótese (3) deste
estudo. Com o objetivo de sintetizar todos os procedimentos metodológicos adotados neste
estudo a Figura 1 apresenta o fluxograma metodológico.
Figura 1: Fluxograma metodológico

Fonte: Resultados originais da pesquisa
Por fim, os dados dos ativos foram extraídos do banco de dados da Economatica e do
Yahoo Finance e o período da série corresponderá ao início da negociação das ações até
20215. Na composição da amostra o protocolo utilizado para os outliers foi a não exclusão,
uma vez que se espera que o método de agrupamento identifique e aloque de forma eficiente
os possíveis outliers a determinado cluster. Essa regra está baseada no princípio da
5
Logo, cada empresa escolhida, de forma aleatória, tem um tamanho de amostra específico.
10
generalização dos modelos de Machine Learning.6 Os cálculos e estimações serão feitos no
R utilizando os pacotes: neuralnet, quantmod, DMwR, forecast, clValid e clustersim.
Resultados e Discussão
As empresas com ações listas da B3 foram ordenadas com base na volatidade de

retorno de suas ações entre os anos de 2017 a 2021 e foram categorizadas em dois grupos
com dez empresas cada que possuíram as menores e as maiores volatilidades,
respectivamente (Tabela 1).
Tabela 1. Volatidade de retorno de suas ações entre os anos de 2017 a 2021

Menos volátil Mais volátil
Ordem Sigla Nome Ordem Sigla Nome
1 ABEV3 Ambev 1 MMXM3 Mmx mineração
2 EQTL3 Equatorial 2 VIVR3 Viver
3 COCE5 Coelce 3 LUPA3 Lupatech
4 ITSA4 Itausa 4 TASA4 Taurus armas
5 CPFE3 Cpfl energia 5 PDGR3 Pdg realt
6 AGRO3 Brasilagro 6 FHER3 Fertilizantes heringer
7 EGIE3 Engie brasil 7 RCSL4 Recrusul
8 TAEE11 Taesa 8 GOLL4 Gol
9 ALUP11 Alupar 9 OIBR4 Oi
10 TRLP4 Tran paulista 10 ETER3 Eternit
Após essa etapa, foi selecionado de forma aleatória e de forma anônima uma empresa
de cada grupo para compor a amostra do estudo, com o propósito de evitar o viés de seleção.
A empresa selecionada do grupo de menor volatilidade foi denominada pela letra (A) e de
maior volatilidade foi denominada pela letra (B). As estatísticas descritivas estão apresentadas
nas Tabelas 2 e 3.
Tabela 2. Estatística Descritiva ações da empresa (A)

Variáveis Obs. Média Desv.Pad. Min 1°Quartil 3°Quartil Max
Abertura 3408 9.2396 7.3626 1.7661 3.2853 13.5985 26.5
Alta 3408 9.3665 7.4716 1.8398 3.3192 13.651 26.96
Baixa 3408 9.1068 7.2523 1.6447 3.2256 13.3825 25.93
Fechamento 3408 9.2476 7.3737 1.8378 3.2853 13.5985 26.9
Volume 3408 4497606 5848699 0 1223432 5978125 1.72E+08
O conjunto da amostra referente a empresa (A) corresponde ao dia 07/04/2008 à

30/12/2021, com 3408 observações para cada variável. O Preço máximo de fechamento neste
6
Por esse princípio a amostra não foi recortada para períodos pré-pandemia, pois espera-se que o
modelo identifique esse comportamento conforme as métricas financeiras. A Covid-19 afetou as
negociações na Bm&fBovespa, ocasionando 6 circiut breaker em 8 pregões no ano de 2020.
11
período foi de R$26,90 e o preço mínimo foi de R$1,83, com desvio padrão de R$7,37 e média
de R$9,24.
Já o conjunto da amostra referente a empresa (B) corresponde ao dia 07/06/2006 à
30/12/2021, com 3611 observações para cada variável. O Preço máximo de fechamento neste
período foi de R$16.958,82 e o preço mínimo foi de R$0,63 com desvio padrão de R$2.953,91.
A média do preço do fechamento no período foi de R$1.405,18. Percebe-se que as ações da
empresa (A) são na média menores do que a empresa (B) e o desvio-padrão dá empresa (B)
é maior que o da empresa (A), o que era de se esperar pelos cálculos da volatidade.
Tabela 3. Estatística Descritiva ações da empresa (B)

Variáveis Obs. Média Desv.Pad. Min 1°Quartil 3°Quartil Max
Abertura 3611 1413.269 2971.189 0.6741 12 1698.582 17021.66
Alta 3611 1443.554 3035.94 0.7078 12.2327 1727.25 17021.66
Baixa 3611 1368.51 2870.99 0.5983 11.7201 1655.58 16405.29
Fechamento 3611 1405.188 2953.914 0.632 11.8388 1691.415 16985.82
Volume 3611 1021883 4494086 0 403 49282.5 73579300
Após os cálculos dos indicadores financeiros, o conjunto de dados referente ao ativo

(A) foi divido em treinamento e teste com base na regra de Pareto, denominado por (A.1) e
pela regra de Guyon (1997) denominado (A.2), o mesmo foi feito para o ativo (B).
Resultados para o ativo A pelo método de Pareto (A.1)
Com a base de dados para treinamento foi possível calcular o número ótimo de cluster
com base na técnica de Machine Learning representado pelos passos (i) a (vi) descritos na
seção de Matérias e Métodos. Percebe-se, por meio da Figura 2 que o erro quadrado médio
dos clusters para o ativo (A.1) – ação com menor volatilidade - diminui conforme aumenta o
número de clusters, porém a variação é cada vez menor. Pela análise visual foi escolhido o
número ótimo de cluster igual a 6 para divisão (A.1)
12
Figura 2. Erro quadrado médio dos clusters (A.1)
A Figura 3 apresenta os retornos da ação (A) para as bases de treinamentos (A.1) e

seus respectivos agrupamentos, percebe-se que o algoritmo identificou, na base de
treinamento (A.1), que os pontos com as maiores variações de retorno foram classificados
nos cluster 1, 2, 5 e 6 e que tiveram na média de retornos maiores.
Figura 3. Retornos e seus respectivos agrupamentos para A.1 com a base de treinamento
13
Após a previsão dos clusters na base de teste (A.1) ambas as decisões de compra e
venda foram feitas, conforme a apresentado na Tabela 4. A decisão de compra da ação em
𝑡 é baseado nos cluster 1, 2, 5 e 6 e a decisão de venda é baseado nos clusters 3 e 4.
Tabela 4. Retorno médio de cada cluster das ações da empresa (A) para divisão A.1
Cluster Retorno Médio
1 0,22601028
2 0,33320451
3 -0.12385719
4 -0,03236082
5 0,099060
6 0.02585072
A Figura 4 compara os retornos acumulados pela previsão na base de teste do modelo

de Machine Learning com a estratégia Buy and Hold. O resultado do retorno acumulado pela
estratégia Buy and Hold foi de 64,2% e pelo método de clusters foi 159,2%. Cabe destacar
que o retorno acumulado é bruto, ou seja, não inclui a dedução de impostos sobre trade, swing
trade e etc.
Figura 4. Comparação dos retornos acumulados para a ação (A.1)

Resultados para o ativo A pelo método de Guyon (A.2)
14
A análise da Figura 5 é semelhante ao da Figura 1, mesmo com uma amostra
relativamente menor pelo método de Guyon para a base de treinamento. O número de clusters
escolhido para esse método foi igual 6, conforme apontado na Tabela 5.
Figura 5. Erro quadrado médio dos clusters (A.2)

Os pontos com as maiores variações de retorno foram classificados nos cluster 2, 3, 5

e 6, tiveram, na média, retornos maiores. Logo a decisão de compra da ação em 𝑡 é baseado
nesses cluster e a decisão de venda é baseado nos clusters 1 e 4.
Tabela 5. Retorno médio de cada cluster das ações da empresa (A) para divisão A.2
Cluster Retorno Médio
1 -0,15806397
2 0,09596016
3 0,30066716
4 -0,04059509
5 0,05697731
6 0,26101718
É possível visualizar a distribuição dos retornos diários de cada cluster na base de

treinamento A.2. na Figura 6.
15
Figura 6. Retornos e seus respectivos agrupamentos para A.2 com a base de treinamento
As decisões de compra e venda estão baseadas na Tabela 5 e foram calculadas sobre

os cluster previstos na base de teste (A.2). A Figura 7 compara os retornos acumulados do
modelo de ML com a estratégia B&H.
Figura 7. Comparação dos retornos acumulados para a ação (A.2)

O resultado do retorno acumulado pela estratégia Buy and Hold foi de 95,43% e pelo
método de clusters foi 157,37%. Logo, percebe-se que os resultados para o método de cluster
são sensíveis a divisão da base em treinamento e teste. Entretanto, para ambas as divisões
o algoritmo k-means performou melhor para a ação de menor volatilidade.
16
Resultados para o ativo B pelo método de Pareto (B.1)
Com o propósito de responder a pergunte (3) desse estudo o mesmo procedimento foi
efetuado para o ativo B - ação com menor volatilidade. Percebe-se que o erro quadrado médio
(Figura 8) diminui bruscamente com os primeiros cluster comparados com o ativo (A).
Figura 8. Erro quadrado médio dos clusters (B.1)

O número de clusters escolhido para esse ativo foi igual 4, conforme a Figura 8. Na
̇
Tabela 6 estão os retornos (𝐴𝑘𝑡+1 ) de cada cluster e o cluster que teve retornos maiores foi o
3.
Tabela 6. Retorno médio de cada cluster das ações da empresa (B) para divisão B.1
Cluster Alvo
1 -0,1284637
2 -0,3583799
3 0,1214472
4 -0,5524054
Logo a decisão de compra da ação em 𝑡 é baseado nesse cluster (3) e a decisão de

venda é baseado nos demais clusters. A distribuição dos retornos diários de cada cluster na
base de treinamento B.1 estão expostos na Figura 9. O agrupamento é mais evidente
comparado com o ativo de menor volatilidade (Figura 3 e 6). As decisões de compra e venda
estão baseadas na Tabela 6 e foram calculadas com base nos clusters previstos na base de
teste (B.1).
17
Figura 9. Retornos e seus respectivos agrupamentos para B.1 com a base de treinamento
A Figura 10 compara os retornos acumulados do modelo de ML com a estratégia B&H

para o ativo B com a divisão B.1. O resultado do retorno acumulado pela estratégia Buy and
Hold foi de 146,12% e pelo método de clusters foi 178,28%. Ou seja, mesmo para um ativo
mais volátil a performance pelo método de clusters foi superior a estratégia de B&H. Cabe
destacar a aderência do ML com o B&H.
Figura 10. Comparação dos retornos acumulados para a ação (B.1)

Resultados para o ativo B pelo método de Guyon (B.2)
18
Por fim, mesmo com uma amostra relativamente menor pelo método de Guyon para a
base de treinamento do ativo B o resultado do erro quadrado médio (Figura 10) foi semelhante
ao da Figura 8 e o número de cluster foi igual a 4, igual ao B.1.
Figura 10. Erro quadrado médio dos clusters (B.2)

Os retornos da ação (B) para as bases de treinamentos (B.2) e seus respectivos

agrupamentos mostram que o algoritmo identificou que os pontos com as maiores variações
de retorno foram classificados apenas no cluster 4, ou seja, na média apenas esse cluster
possuiu retornos positivos (Tabela 7).
Tabela 7. Retorno médio de cada cluster das ações da empresa (B) para divisão B.2
Cluster Alvo
1 -0,3583799
2 -0.5524054
3 -0,1276038
4 0,1326554
Assim, a decisão de compra da ação em 𝑡 é baseado no cluster 4 e a decisão de

venda é baseado nos demais clusters (1:3). A distribuição dos retornos diários de cada cluster
na base de treinamento B.2 estão expostos na Figura 11. O agrupamento também é mais
evidente comparado com o ativo de menor volatilidade (Figura 3 e 6).
19
Figura 11. Retornos e seus respectivos agrupamentos para B.2 com a base de treinamento
A Figura 12 compara os retornos acumulados do modelo de ML previstos na base de

teste com a estratégia B&H para o ativo B com a divisão B.2. O resultado do retorno
acumulado pela estratégia B&H foi de 107,07% e pelo método de clusters foi 122,68
Figura 12. Comparação dos retornos acumulados para a ação (B.2)

Os resultados encontrados pela divisão B.2 são inferiores aos encontrados pela
divisão B.1, para ambos os métodos (B&H e ML). Entretanto, os resultados são maiores para
a estratégia de cluster em relação ao B&H.
20
Em geral, os resultados encontrados para a estratégia de clusters foram superiores
aos encontrados pela estratégia B&H, tanto para os ativos com volatilidade diferente, quanto
para as formas de divisão diferentes.
Validação
A validação dos resultados do algoritmo k-means pelas estatísticas internas estão

apresentadas na Tabela 8 e na Figura 13. Percebe-se que para base de treinamento os
valores e a média do indicador de Silhueta foram maiores do que zero, indicando que as
observações foram bem agrupadas. Em relação ao índice Davies-Bouldin, os valores
encontrados para a base de treinamento são próximos de zero demonstrando os clusters são
compactos e distantes entre si. Logo, ceteris-paribus, para a base de treinamento e para
ambos os ativos o algoritmo não sofreu underfitting (situação que o modelo não consegue ter
performance ainda na base de treinamento).
Tabela 8. Estatísticas de validação interna

Índices
Treinamento Teste Treinamento Teste Treinamento Treinamento
Internos
Silhueta A.1 A.1 A.2 A.2 B.1 B.2
1 0.46 0.46 0.44 0.50 0.62 0.71
2 0.45 0.46 0.47 0.44 0.71 0.61
3 0.43 0.5 0.43 0.50 0.82 0.62
4 0.46 0.51 0.46 0.43 0.61 0.82
5 0.47 0.48 0.48 0.48 - -
6 0.43 0.54 0.46 0.47 - -
Média 0.45 0.48 0.46 0.46 0.74 0.75
Davies-
0.65 0.59 0.63 0.61 0.39 0.68
Bouldin
Em relação a base de teste, os clusters previstos para o ativo menos volátil (A.1 e A.2)
também demonstraram uma boa performance tanto para o indicador de Silhueta quanto para
o índice Davies-Bouldin. Entretanto não foi possível calcular as estatísticas de validação
interna para os clusters previstos para o ativo mais volátil (B.1 e B.2). A explicação para isso
é que não houveram clusters previstos com retornos médios negativos na base de teste.
impossibilitando os cálculos das estatísticas internas. Ou seja, na base de teste houve apenas
um único cluster indicando a compra do ativo. Logo, ceteris-paribus, esses resultados indicam
um overfitting do modelo para o ativo mais volátil, ou seja, o algoritmo performa bem na base
de treinamento, porém com dados diferentes (base de teste) esta regra não tem validade e o
desempenho é afetado, se tornando ineficaz para prever resultados. Neste cenário o modelo
21
treinado não tem capacidade de generalização, quebrando um dos pressupostos de Machine
Learning.
A.1 -Treinamento A.1 -Teste A.2 -Treinamento
A.2 -Teste B.1 - Treinamento B.2 - Treinamento
Figura 13: Silhueta para as bases de treinamento e teste e para ambos os ativos
Fonte: Resultados originais da pesquisa.
* Não foi possível calcular as estatísticas de validação interna para os clusters previstos
para o ativo mais volátil (B.1 e B.2)
Percebe-se também que os resultados performam, dentre outros fatores já

mencionados, ao número de cluster escolhido. Assim, faz-se necessário verificar a
sensibilidade dos resultados mediante ao nível de agrupamento. A Tabela 9 mostra a
sensibilidade sobre o retorno acumulado em relação ao nível de agrupamento, em relação a
volatilidade da ação e ao critério de divisão.
Tabela 9. Sensibilidade sobre o retorno acumulado (%) em relação ao nível de agrupamento

Ação Divisão*\Clusters 1** 2 3 4 5 6 7 8 9 10
1 64.20 64.6 147.1 135.1 64.6 159.2 92.5 50.0 48.8 86.5
A
2 95,43 97,5 60,5 128,5 122,7 157,4 139,7 116,9 142,7 153,7
1 146,1 178,3 178,3 178,3 178,3 178,3 178,3 178,3 178,3 178,3
B
2 107,1 122,7 122,7 122,7 122,7 122,7 122,7 122,7 122,7 122,7
Fonte: Resultados originais da pesquisa.
* Divisão: (1) Regra de Pareto e (2) Guyon (1997). ** é o retorno da estratégia Buy and Hold;
*** As células em cinza apresentaram retornos maiores que a estratégia de Buy and Hold e
as em negrito são os maiores retornos.
22
Os resultados da Tabela 9 reforçam que apenas em três casos a estratégia de cluster
não foi superior a estratégia B&H em termos brutos. Outro fator importante é que os retornos
são estáveis para o ativo B em relação ao nível de agrupamento. Como já mencionado, a
explicação para esse resultado é que para esse ativo em específico houve apenas um único
cluster indicando a compra do ativo na base de teste mesmo variando os clusters de 2 a 10
na base de treinamento.
Análise Crítica dos Resultados
A estratégia adotada nessa pesquisa resumiu a operação de compra e venda com

base em poucos indicadores, identificando a média de retornos em dias que são atribuídos a
cada cluster. Logo, é respondida a primeira hipótese desse estudo, uma vez que a estratégia
de clusters pode auxiliar os investidores nas tomadas de decisão de compra e venda de um
determinado ativo.
Também foi respondido a segunda e terceira hipótese desse estudo, dado que os
resultados da Tabela 9 demonstram que a estratégia de clusters baseado na técnica de ML
foram superiores em termos de retorno comparado com a estratégia B&H e esse resultado se
manteve para ativos com volatilidades diferentes (mesmo com o overfitting do ativo B). Cabe
ressaltar que os retornos apresentados são brutos, ou seja, não estão deduzidos os impostos
sobre as operações. Essa é uma limitação desta pesquisa e que pode gerar resultados
diferentes para a análise de retornos líquidos, porém o algoritmo se mostrou promissor para
ser testado e comparado para os retornos líquido entre ativos.
O método utilizado trouxe algumas ponderações importantes que devem ser
observadas e consideradas pelos gestores e operadores de mercado. Sendo essas
observações relacionadas a sensibilidade dos resultados em relação a: i) divisão da base em
treinamento e teste; ii) ao número de agrupamentos; iii) a escolha do ativo e; iv) aos
indicadores financeiros utilizados no modelo.
Logo, os resultados encontrados neste estudo sustentam que o emprego da técnica
de cluster em Machine Learning não supervisionado oferecem suporte para as estratégias de
negociação de ativos, auxiliando investidores e empresas nas tomadas de decisões.
Resultados semelhantes foram encontrados nos seguintes estudos:
Malqui e Fernandes (2019) compararam o método Ensemble (k-means e Redes
Neurais Recorrentes – RNR) e o SVM (Support Vector Machines) para prever a direção e a
taxa de câmbio do Bitcoin. Os resultados mostraram que o Ensemble obteve os melhores
resultados para prever a direção do preço do Bitcoin e o algoritmo SVM obteve os melhores
resultados para prever as taxas de câmbio do Bitcoin.
23
Kumari et al. (2020) empregaram uma estrutura de computação paralela para realizar
previsão do mercado de ações utilizando a técnica de k-means. Os resultados mostraram que
os métodos utilizados ajudaram na previsão dos valores das ações com uma antecedência
considerável.
Affonso et al. (2021) utilizaram o método k-means juntamente com a técnica de Redes
Neurais Recorrentes (RNR) para prever o comportamento de um grande número de ações e
os resultados mostraram que a tendência foi predita corretamente em boa parte do tempo.
Ito et al. (2021) empregaram o método k-means para a seleção de portfólio durante o
período inicial do Covid-19, os resultados mostram que o método foi capaz de categorizar os
fundos de acordo com os seus retornos.
Aspembitova et al. (2021) desenvolveram uma metodologia para combinar o método
k-means com o Support Vector Machines (SVM) para derivar tipos de comportamentos de
usuários no mercado de criptomoedas prevendo comportamentos de curto de longo prazo.
Chen et al. (2022) utilizaram uma adaptação do método k-means para séries temporais
para realizar previsão de preços de ações de bancos comerciais da China e concluíram que
a abordagem utilizada pode prever os preços das ações com mais precisão.
O que esses estudos têm em comum é a conclusão de que os investidores e gestores
de ativos podem usar as técnicas de classificação, juntamente com outros métodos se for o
caso, para simplificar tarefas diárias visando a otimização dos resultados.
Considerações Finais
Este estudo comparou a performance dos retornos de trade baseado na estratégia de

clusters em Machine Learning não supervisionado. Tomou-se um sorteio aleatório para
escolher dois ativos, em que cada ativo pertencia a um grupo de ações com maiores e
menores volatilidade, respectivamente. A base de dados para cada ação foi dividida entre
treinamento e teste seguindo a regra de Pareto (80-20) e a regra proposta por Guyon (1997).
Os resultados também foram calculados variando o número ótimo de clusters para análise de
sensibilidade.
Comparando os resultados a estratégia de clusters baseado na técnica de Machine
Learning não supervisionado foram superiores em termos de retorno bruto comparado com a
estratégia Buy and Hold e esse resultado se manteve para ativos com volatilidades diferentes
(mesmo com overfitting para o ativo B) e para os métodos de divisão entre treinamento e teste
diferentes. Logo, essa estratégia pode auxiliar os investidores e gestores na tomada de
decisão.
Há de se ressaltar a sensibilidade dos resultados em relação a divisão da base de
dados, ao número de agrupamento e a escolha do ativo. Para pesquisas futuras, recomenda-
24
se testar se as ações negociadas na Bm&fBovespa possuem algum agrupamento com base
em indicadores financeiros e macroeconômicos.
Agradecimento
Agradeço ao suporte financeiro da FIPE (Fundação Instituto de Pesquisas

Econômicas), ao departamento de pós-graduação em economia da FEA-USP, ao Núcleo de
Economia Regional e Urbana da USP (NEREUS), a bolsa concedida pelo PECEGE, ao
conhecimento adquirido por meio do Leandro Guerra e aos comentários e sugestões
recebidos do Bruno Figlioli.
Referências
Affonso, F.; Dias, T.; M. R.; Pinto, A. L. 2021. Financial times series forecasting of clustered
stocks. Mobile Networks and Applications, 26(1), 256-265.
Aspembitova, A. T.; Feng, L.; Chew, L. Y. 2021. Behavioral structure of users in

cryptocurrency market. Plos one, 16(1), e0242600.
Bandyopadhyay. S; Maulik. U. 2002. Genetic Clustering for Automatic Evolution of Clusters

and Application to Image Classification. Pattern Recognition. 35: 1197-1208.
Bholowalia. P.; Kumar. A. 2014. EBK-means: A clustering technique based on elbow method
and k-means in WSN. International Journal of Computer Applications 105 (9).
Buryak. A.; Guo. I. 2014. Effective and simple VWAP options pricing model. International
Journal of Theoretical and Applied Finance. 17(06): 1450036.
Chen, Y.; Wu, J.; Wu, Z. 2022. China's Commercial Bank Stock Price Prediction using a
Novel K-means-LSTM Hybrid Approach. Expert Systems with Applications, 117370.
Chen. J. M.; Rehman. M. U.; Vo. X. V. 2021. Clustering commodity markets in space and
time: Clarifying returns. volatility. and trading regimes through unsupervised machine
learning. Resources Policy 73:102162.
Chong. T. T.; Wing-Kam, N. 2008. Technical analysis and the London stock exchange:
testing the MACD and RSI rules using the FT30. Applied Economics Letters 15(14):1111-
1114.
Datta. A.; Mavroidis. C.; Hosek. M. 2007. A role of unsupervised clustering for intelligent fault
diagnosis. In: ASME International Mechanical Engineering Congress and Exposition.
Anais.... p. 687-6955.
Davies. D.; Bouldin. D. 1979. A cluster separation measure. IEEE Transactions on Pattern
Analysis and Machine Intelligence (TPAMI) 1(2): 224-227.
25
Deng. Q.; Mei. G. 2009. Combining self-organizing map and k-means clustering for detecting
fraudulent financial statements. In: 2009 IEEE International Conference on Granular
Computing. IEEE. Anais... p. 126-131.
Fernández-Avilés. G.; Montero. J-M.; Sanchis-Marco. L. 2020. Extreme downside risk co-
movement in commodity markets during distress periods: A multidimensional scaling
approach. The European Journal of Finance 26(12): 1207-1237.
Guarnieri. O. C.; Panhoca. L. 2006. Eficácia da média móvel na tomada de decisão em

investimentos. Revista Brasileira de Gestão e Desenvolvimento Regional. 2(1).
Guyon. I. 1997. A scaling law for the validation-set training-set size ratio. AT&T Bell
Laboratories. 1(11).
He. H.; Chen. J.; Jin. H.; Chen. S. H. 2007. Trading strategies based on K-means clustering
and regression models. In Computational Intelligence in Economics and Finance. Springer.
Berlin. Deutschland.
Hocking. A.; Geach. J. E.; Sun. Y.; Davey. N. 2018. An automatic taxonomy of galaxy
morphology using unsupervised machine learning. Monthly Notices of the Royal
Astronomical Society 473(1): 1108-1129.
Ito, H.; Murakami, A.; Dutta, N.; Shirota, Y.; Chakraborty, B. 2021. Clustering of ETF Data for
Portfolio Selection during Early Period of Corona Virus Outbreak. Gakushuin Hournal of
Economics, 58(1), 99-114.
Koçer. B. 2016. Bollinger bands approach on boosting ABC algorithm and its variants.
Applied Soft Computing 49: 292-312.
Kou. G.; Peng. Y.; Wang. G. 2014. Evaluation of clustering algorithms for financial risk
analysis using MCDM methods. Information Sciences 275: 1-12.
Kumari, S.; Patil, N.; Nankar, P.; Kulkarni, M. 2020. CUDA parallel computing framework for
stock market prediction using K-means clustering. In 2020 International Conference on
Smart Electronics and Communication (ICOSEC) (pp. 467-473). IEEE.
Lambert. D. R. 1983. Commodity channel index: Tool for trading cyclic trends. Technical
Analysis of Stocks & Commodities 1: 47.
Lengyel. A.; Botta‐Dukát. Z. 2019. Silhouette width using generalized mean—A flexible
method for assessing clustering efficiency. Ecology and evolution 9(23): 13231-13243.
Leung. J. M.-J.; Chong. T. T. L. 2003. An empirical comparison of moving average envelopes

and Bollinger Bands. Applied Economics Letters 10(6): 339-341.
MacQueen. J. 1967. Some methods for classification and analysis of multivariate

observations. In: Proceedings of the fifth Berkeley symposium on mathematical statistics and
probability : 281-297.
Maitah. M.; Procházka. P.; Cermak. M.; Šrédl. K. 2016. Evaluation of trading rule of
agricultural commodities. International Journal of Economics and Financial Issues 6(1): 176-
178.
26
Mallqui, D. C.; Fernandes, R. A. 2019. Predicting the direction, maximum, minimum and
closing prices of daily Bitcoin exchange rate using machine learning techniques. Applied Soft
Computing, 75, 596-606.
Martins. M. V. Ar.; Rodrigues. C. A. 2018. Uma Estratégia de Investimento Baseada na

Divergência do Indicador MACD. Revista de Administração. Contabilidade e Economia da
Fundace 9(2).
Melo Neto. G. C. 2018. O desempenho do método de análise técnica Bandas de Bollinger.

Dissertação (Graduação) – Faculdade de Gestão e Negócios. Universidade Federal de
Uberlândia. MG. Brasil.
Münnix. M. C.; Shimada. T.; Schäfer. R.; Leyvraz. F.; Seligman. T. H.; Guhr. T.; Stanley. H.
E. 2012. Identifying states of a financial market. Scientific reports 2(1): 1-6.
Musmeci. N.; Aste. T.; Di Matteo. T. 2015. Correction: Relation between Financial Market
Structure and the Real Economy: Comparison between Clustering Methods. PloS one 10(4).
Neves. R. J. T. 2019. Análise técnica ou buy and hold. Tese (Doutorado). Instituto
Politécnico de Coimbra. Coimbra. Portugal.
Oliveira. A. F. 2018. Favorecendo o Desempenho do k-Means via Métodos de Inicialização

de Centroides. Dissertação (Mestrado). Centro Universitário Campo Limpo Paulista. SP.
Brasil.
Oliveira. L. P. 2011. A eficácia do Índice de Força Relativa no mercado de capitais brasileiro

em 2010. Dissertação (Mestrado). Universidade de Brasília. Brasília. DF. Brasil.
Pereira. B. H. 2019. Análise técnica de ações: eficiência do índice de força relativa em

comparação a estratégia buy and hold. Trabalho de conclusão de curso (Graduação).
Universidade Federal do Ceará. Fortaleza. CE. Brasil.
Rodrigues. M. G. 2021. Performance de investimento em ações: a estratégia buy and hold

em comparação com o uso da técnica MACD. Trabalho de conclusão de curso (Graduação).
Universidade do Sul de Santa Catarina. Florianópolis. SC. Brasil.
Rousseeuw. P. 1987. Silhouetters: a graphical aid to the interpretation and validation of

cluster analysis. J. Computational Applied Mathematics. 20(1): 53-65.
Soni. K. G.; Patel. A. 2017. Comparative Analysis of K-means and K-medoids Algorithm on
IRIS Data. International Journal of Computational Intelligence Research 13(5): 899-906.
Souza. M. C. C. 2019. Uma análise do algoritmo K-Means como introdução ao aprendizado

de máquinas. Trabalho de conclusão de curso (Graduação). Universidade Federal do
Tocantins. Palmas.TO. Brasil.
Tibshirani. R.; Walther. g.; Hastie. t. 2001. Estimating the number of clusters in a data set via
the gap statistic. Journal of the Royal Statistical Society 63(2): 411-423.
Tsai. C. 2014. Combining cluster analysis with classifier ensembles to predict financial
distress. Information Fusion. v. 16. p. 46-58.
27
Xu. S.; Qiao. X.; Zhu. L.; Zhang. Y.; Xue. C.; Li. L. 2016. Reviews on determining the number
of clusters. Applied Mathematics and Information Sciences 10(4): 1493-1512.
Xu. Y.; Yang. C.; Peng. S.; Nojima. Y. 2020. A hybrid two-stage financial stock forecasting
algorithm based on clustering and ensemble learning. Applied Intelligence 50(11): 3852-
3867.
28
View publication stats

Cluster Basedtradestrategy Amachinelearningapproach

Enviado por

Direitos autorais:

Formatos disponíveis

Cluster Basedtradestrategy Amachinelearningapproach

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Cluster Basedtradestrategy Amachinelearningapproach

Enviado por

Direitos autorais:

Formatos disponíveis

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

Cluster-based trade strategy: a machine learning approach

Preprint · August 2022

Gustavo Henrique Leite de Castro

The user has requested enhancement of the downloaded file.

Gustavo Henrique Leite de Castro1*; Bruno Figlioli2

Cluster-based trade strategy: a machine learning approach

A análise e previsão de indicadores desempenham um papel importante na prática de

em que 𝑃𝑖 é o preço de fechamento do ativo; 𝑛 é o número de períodos escolhidos (Martins e

Onde 𝑃𝑡 é o preço de fechamento do ativo, 𝐾 é o fator de ponderação exponencial;

em que 𝑃𝑓 é o preço de fechamento do ativo; 𝑀𝑀𝑆 é a média móvel simples; a

𝐵𝐵𝑎𝑛𝑑𝑠𝑖 = 𝑆𝑀𝐴𝑖 ± 𝜎𝑖 𝐷 (5)

em que a variável 𝐵𝐵𝑎𝑛𝑑𝑠𝑖 é o valor de fechamento do ativo; 𝑆𝑀𝐴𝑖 é a média móvel

Em que 𝑃𝑖 é o preço de fechamento do ativo e 𝑉𝑖 é o volume negociado.

𝐷 = {𝑥𝑖 }𝑛𝑖=1 (7)

Um cluster, particiona esse conjunto 𝐷 em 𝐾 subconjuntos:

sendo 𝐶𝑖 o cluster do conjunto 𝐷. Cada 𝐶𝑖 está associado a um centroide (𝑦𝑖 ), que

em que 𝑛𝑖 é o número de elementos de 𝐶𝑖 .

𝐹𝑠 (𝑃) = ∑ ∑ 𝐸(𝑥𝑗 , 𝑦𝑖 ) (10)

em que 𝐸 é a distância euclidiana. Ou seja, 𝐹𝑠 define a soma de todas as distâncias

∑‖𝑦𝑖𝑡 − 𝑦𝑖𝑡−1 ‖ ≤ 𝜖 (12)

em que 𝑦𝑖𝑡 representa o centroide da iteração atual, 𝜖 > 0 é a precisão determinada e

Ou seja, cada cluster terá a média de retorno em 𝑡 + 1. Assim, se determinado cluster

Figura 1: Fluxograma metodológico

As empresas com ações listas da B3 foram ordenadas com base na volatidade de

Tabela 1. Volatidade de retorno de suas ações entre os anos de 2017 a 2021

Tabela 2. Estatística Descritiva ações da empresa (A)

O conjunto da amostra referente a empresa (A) corresponde ao dia 07/04/2008 à

Tabela 3. Estatística Descritiva ações da empresa (B)

Após os cálculos dos indicadores financeiros, o conjunto de dados referente ao ativo

Resultados para o ativo A pelo método de Pareto (A.1)

A Figura 3 apresenta os retornos da ação (A) para as bases de treinamentos (A.1) e

A Figura 4 compara os retornos acumulados pela previsão na base de teste do modelo

Figura 4. Comparação dos retornos acumulados para a ação (A.1)

Resultados para o ativo A pelo método de Guyon (A.2)

Figura 5. Erro quadrado médio dos clusters (A.2)

Os pontos com as maiores variações de retorno foram classificados nos cluster 2, 3, 5

É possível visualizar a distribuição dos retornos diários de cada cluster na base de

As decisões de compra e venda estão baseadas na Tabela 5 e foram calculadas sobre

Figura 7. Comparação dos retornos acumulados para a ação (A.2)

Figura 8. Erro quadrado médio dos clusters (B.1)

Logo a decisão de compra da ação em 𝑡 é baseado nesse cluster (3) e a decisão de

A Figura 10 compara os retornos acumulados do modelo de ML com a estratégia B&H

Figura 10. Comparação dos retornos acumulados para a ação (B.1)

Resultados para o ativo B pelo método de Guyon (B.2)

Figura 10. Erro quadrado médio dos clusters (B.2)

Os retornos da ação (B) para as bases de treinamentos (B.2) e seus respectivos

Assim, a decisão de compra da ação em 𝑡 é baseado no cluster 4 e a decisão de

A Figura 12 compara os retornos acumulados do modelo de ML previstos na base de

Figura 12. Comparação dos retornos acumulados para a ação (B.2)

A validação dos resultados do algoritmo k-means pelas estatísticas internas estão

Tabela 8. Estatísticas de validação interna

A.1 -Treinamento A.1 -Teste A.2 -Treinamento

A.2 -Teste B.1 - Treinamento B.2 - Treinamento

Percebe-se também que os resultados performam, dentre outros fatores já

Tabela 9. Sensibilidade sobre o retorno acumulado (%) em relação ao nível de agrupamento

Análise Crítica dos Resultados

A estratégia adotada nessa pesquisa resumiu a operação de compra e venda com

Este estudo comparou a performance dos retornos de trade baseado na estratégia de