Cluster Basedtradestrategy Amachinelearningapproach
Cluster Basedtradestrategy Amachinelearningapproach
Cluster Basedtradestrategy Amachinelearningapproach
net/publication/362655534
CITATIONS READS
0 233
2 authors, including:
SEE PROFILE
All content following this page was uploaded by Gustavo Henrique Leite de Castro on 12 August 2022.
Resumo
O método de agrupamento é uma das técnicas utilizadas em diversas áreas da ciência e com
o avanço das técnicas de inteligência artificial, Big Data e Data Science o seu uso passou a
ser explorado nas áreas finanças quantitativas com mais frequência. Nesse contexto, o
objetivo deste estudo é comparar a performance dos retornos de trade baseado na estratégia
de agrupamento. Para tanto, foram estimados indicadores financeiros para ativos com
maiores e menores volatilidades, em seguida utilizou-se a técnica de Machine Learning não
supervisionado para encontrar o número ótimo de clusters que serviram para identificar
oportunidade de compra e de venda dos ativos. Os principais resultados mostram que
estratégia de clusters baseado na técnica de Machine Learning não supervisionado foram
superiores em termos de retorno bruto comparado com a estratégia Buy and Hold. Os
resultados se mantiveram para ativos com diferentes volatilidades e para as técnicas
diferentes de divisão de amostra entre treinamento e teste.
Palavras-chave: finanças quantitativas; indicadores financeiros; inteligência artificial;
volatilidade; retorno financeiros.
Abstract
The clustering method is one of the techniques used in several areas of science and with the
advancement of artificial intelligence techniques, big data and data science, its use has been
explored more frequently in quantitative finance areas. In this context, the aim of this study is
to compare the performance of trade financial returns based on the clustering strategy. For
this, financial indicators were estimated for assets with higher and lower volatilities, and then
the unsupervised Machine Learning technique was used to find the optimal clusters number
that served to identify the opportunity to buy and sell the assets. The main results indicate that
the cluster strategy based on the unsupervised Machine Learning technique were superior in
terms of gross return compared to the Buy and Hold strategy. The results were maintained for
assets with different volatilities and for the different techniques of sample division between
training and testing.
Keywords: quantitative finance, financial indicators, artificial intelligence, volatility; financial
return
Introdução
1
Programa de Pós-Graduação em Economia da Faculdade de Economia, Administração e Contabilidade (FEA)
da Universidade de São Paulo (USP). E-mail: gustavocastro@usp.br
2
Departamento de Contabilidade da Faculdade de Economia, Administração e Contabilidade de Ribeirão Preto
(FEA-RP) da Universidade de São Paulo (USP).
2
mercado ancorados em conceitos técnicos, sejam eles oriundos das análises técnicas ou
fundamentalistas (He et al., 2007). Entretanto, a pergunta que se faz é se é possível obter
indicadores que auxiliam a tomada de decisão dos investidores utilizando as técnicas de
Machine Learning? E se for possível, qual a performance deles em termos dos retornos
financeiros?
Há uma extensa literatura que aplica Machine Learning na economia e no
processamento de linguagem natural (PLN), bem como, no mercado financeiro (Chen et al.,
2021). Entre os tipos de aprendizagem das técnicas de Machine Learning, a aprendizagem
não supervisionada é a mais utilizada no mercado financeiro (Datta et al., 2009). Basicamente,
essa abordagem não depende da rotulação dos dados, ou seja, não depende do julgamento
humano sobre as características dos dados, e o modelo, por si próprio, tem por objetivo
encontrar algum tipo de padrão em um conjunto de dados de forma não ad hoc (Hocking et
al., 2018).
Nesse contexto, a análise de clusters é uma das técnicas não supervisionadas
utilizadas em finanças quantitativas. Por exemplo, o estudo de Münnix et al. (2012) utilizou
clusters hierárquico para identificar padrões de estruturas de correlação semelhantes o
suficiente para abranger os retornos em mercado distintos. Já a pesquisa de Fernández-Aviés
et al. (2020) utilizou as técnicas de clusters para os mercados de commodities durante
períodos de crises.
Entre os muitos algoritmos de clusters utilizados em economia e finanças (Kou et al.,
2014; Musmeci et al., 2015), a técnica de agrupamento k-means3 continua sendo uma das
mais utilizadas (Soni e Patel, 2017). O agrupamento de k-means é utilizado com frequência
para avaliar os riscos dos investimentos e estimar os retornos dos ativos (Kou et al., 2014; Xu
et al., 2020). Projetado para particionar o espaço matemático, o agrupamento k-means é
particularmente útil para detectar fraudes e outros outliers (Deng e Mei, 2009), bem como para
classificar empresas em falência ou em risco de inadimplência (Tsai, 2014).
Entretanto, há certas desvantagens do método de clusters k-means. Segundo Chen,
et al. (2021) o valor ideal de clusters não é conhecido antecipadamente. Assim, encontrar o
número ótimo de clusters4 é uma etapa importante de um problema mais amplo, que é o de
encontrar o número ideal de clusters na aprendizagem não supervisionada (Xu et al., 2016),
sendo essa a proposta desta pesquisa. Assim, neste estudo, será utilizado o método de
Machine Learning não supervisionado, com o propósito de clusterizar as decisões de trade
(compra e venda de um ativo). Com a finalidade de verificar os resultados contrafactuais, os
3
É um dos algoritmos de clusters mais antigos (MacQueen, 1967).
4
Dentre os métodos para encontrar o número ótimo de clusters, ou seja, o k ideal, três técnicas são
especialmente utilizadas: cotovelo, silhueta e lacuna. Ver Bholowalia & Kumar (2014), Lengyel e Botta-
Duk´at, (2019) e Tibshirani, Walquer e Hastle (2001), respectivamente.
3
retornos da estratégia de clusters serão comparados com os retornos da estratégia Buy and
Hold.
A escolha da estratégia Buy and Hold se deve pelo fato de ser uma das estratégias
mais comum para negociação (Neves, 2019). Nessa estratégia o agente compra um
determinado ativo e mantem por um período mais longo, assim o investidor terá menor número
de negociação, custo de transação menor e benefícios institucionais, como por exemplo,
participação em conselho, direito a voto, recebimento de dividendos e etc. (Rodrigues, 2021).
Outro ponto é que essa estratégia requer um menor tempo para o monitoramento do mercado
em relação as estratégias de curto prazo, dado que o objetivo é manter o ativo na carteira por
um período mais longo. Essa estratégia de comparação também foi utilizada nas pesquisas
de Oliveira (2011), Melo Neto (2018) e Pereira (2019).
Logo, objetivo deste estudo é comparar a performance dos retornos de trade baseado
na estratégia de agrupamento (método k-means) em Machine Learning não supervisionado,
de um determinado ativo e comparar a performance dos retornos com a estratégia Buy and
Hold. Logo, pretende-se responder as seguintes perguntas: (i) A estratégia de clusters pode
auxiliar os investidores nas tomadas de decisão de compra ou venda de um ativo? (ii) Os
retornos utilizando a estratégia de clusters, é superior a estratégia de Buy and Hold? e; (iii)
Essa performance se altera para ativos com volatilidades diferentes?
Para responder essas perguntas, o estudo será divido quatro seções sendo a primeira
esta introdução; na segunda seção é apresentado os matérias e métodos utilizado para
responder as perguntas aqui levantas; a terceira seção serão apresentados os resultados e
as discussões e, por fim, na última seção encontra-se as considerações finais do estudo.
Material e Métodos
Para essa pesquisa foram considerados os dados diários de dois ativos com
volatilidades diferentes a serem definidos de forma aleatória para evitar viés de seleção. As
empresas foram ordenadas com base na volatidade de retorno de suas ações nos últimos
cincos anos (2017-2021) e foram categorizados em dois grupos com dez empresas cada que
possuíram as menores e as maiores volatilidades, respectivamente. Após essa etapa, foi
selecionado de forma aleatória e de forma anônima uma empresa de cada grupo para compor
a amostra do estudo, com o propósito de evitar viés de seleção. Os dados para cada ativo
saõ compostos da seguinte forma: data, abertura, fechamento, máximo e mínimo. A partir
desses dados, serão calculados alguns indicadores financeiros que serviram de input para o
método de agrupamento, via algoritmo de aprendizado não supervisionado. Os indicadores
financeiros calculados foram:
Média Móvel Simples [MMS]: é a média aritmética da série nas últimas 𝑛 observações.
4
𝑃1 + 𝑃2 + ⋯ + 𝑃𝑛
𝑀𝑀𝑆 = (1)
𝑛
2
𝑀𝑀𝐸𝑡 = 𝑃𝑡 × 𝐾 + 𝑀𝑀𝐸𝑡−1 𝐾= (2)
𝑁+1
𝑃𝑓 − 𝑀𝑀𝑆
𝐼𝐶𝐶 = (3)
0.015 − 𝐷𝑉
100 − 100
𝐼𝐹𝑅 = (4)
(1 + 𝐹𝑅)
5
em que 𝐹𝑅 é a razão suavizada dos ganhos médios sobre as perdas médias. As
médias não são médias verdadeiras, pois são divididas pelo valor de 𝑛 e não pelo número de
períodos em que há ganhos ou perdas. O 𝐼𝐹𝑅 é geralmente interpretado como um indicador
de sobrecompra / sobrevenda (acima de 70 / abaixo de 30). A divergência com o preço
também pode ser útil. Por exemplo, se o preço estiver fazendo novas máximas / mínimas,
mas o 𝐼𝐹𝑅 não, isso pode indicar uma reversão (Chong e Wing-Kam, 2008).
Índice de Convergência-Divergências da Média Móvel (MACD - Moving Average
Convergence-Divergence): compara uma média móvel rápida (MM) de uma série com uma
MM lenta da mesma série. O indicador pode ser usado como um oscilador genérico para
qualquer série univariada, não apenas o preço. Calculado pela subtração de uma média
exponencial de 26 dias de um ativo sobre uma média exponencial de 12 dias. É utilizada uma
linha gatilho calculada a partir de uma média exponencial de 9 dias da diferença de médias.
A variável utilizada foi o valor de fechamento do ativo (Chong e Wing-Kam, 2008; Martins e
Rodrigues, 2018).
O indicador de Bollinger Bands (BBands): compara a volatilidade de um título e os
níveis de preço ao longo de um período de tempo:
∑𝑁
𝑖=1 𝑃𝑖 𝑉𝑖
𝑉𝑊𝐴𝑃𝑖 = (6)
∑𝑁
𝑖=1 𝑉𝑖
6
considerando que esses indicadores financeiros formem um conjunto de dados 𝐷 com 𝐾
pontos, definido da seguinte forma:
𝐶 = {𝐶1 , 𝐶2 , … , 𝐶𝑘 } (8)
1
𝑦𝑖 = ∑ 𝑥𝑗 (9)
𝑛𝑖 𝑥𝑗 ∈𝐶𝑖
2
𝑖 ∗ = argmin‖𝑥𝑗 − 𝑦𝑖 ‖2 (11)
𝑖=1,2,…,𝑘
7
Significa que um ponto 𝑥𝑗 qualquer será agrupado a 𝐶𝑖 , quando este ponto possuir a
menor distância ao centroide desse cluster, comparado com a distância aos outros centroides
do resto do clusters; iv) faz-se necessário a atualização dos centroide de cada cluster, dado
que o passo anterior tenha alterado os pontos entre os grupos, assim será encontrado um
novo centroide 𝑦𝑖 para o cluster 𝐶𝑖 ; v) esse processo será repetido até que os respectivos
centroides não se alterem ou satisfaçam uma precisão estabelecida e; vi) o teste de parada
é analisando pela soma das diferenças dos centroides (resíduo) da iteração atual pela
anterior.
𝑘 2
𝑛
̇ 1
𝐴𝑘𝑡+1 = ∑ 𝑟𝑒𝑡𝑜𝑟𝑛𝑜𝑡+1 (13)
𝑛
𝑖=1
8
̇
(𝑘̂) juntamente com as decisões de compra e venda, determinado pelo o alvo 𝐴𝑘𝑡+1 , foram
analisados as decisões de compra ou venda baseado em qual cluster o ativo foi atribuído
em 𝑡. Ou seja, caso o ativo em 𝑡 for atribuído em clusters com retorno em 𝑡 + 1 > 0, significa
compra. Caso o ativo em 𝑡 for atribuído em clusters com retorno em 𝑡 + 1 < 0, significa venda.
Uma etapa necessária de Machine Learning foi dividir o conjunto de dados em dois
conjuntos que contemplam as bases: i) treinamento e; ii) teste. A divisão do conjunto de dados
em treinamento e teste será elaborada com base na regra de Pareto (comumente utilizado
nos cálculos de Machine Learning): sendo 80% da amostra para treinamento e 20% para
teste. Além disso, foi empregado a lei de escala para a proporção do tamanho do conjunto de
treinamento do conjunto de teste proposto por Guyon (1997) em que o conjunto amostral deve
ser inversamente proporcional à raiz quadrada do número de parâmetros ajustáveis, para
essa abordagem a amostra para treinamento corresponde 72,26% do conjunto de dados e a
amostra para teste corresponde a 27,74%, respectivamente.
Cabe destacar que a base de treinamento serve para adaptação e alterações no
aprendizado do algoritmo até a sua validação, evitando problemas como underfitting (baixa
performance nos dados de treinamento e má generalização na previsão para outros dados).
A etapa de teste serve para validar a performance do algoritmo, evitando problemas como
overfitting (alta performance nos dados de treinamento, má generalização na previsão para
outros dados), e para comparar com outras estratégias (benchmarks).
A validação do algoritmo de Machine Learning é uma etapa indispensável para a
confiabilidade dos resultados e é por meio dela que é demonstrado o quão representativo são
os clusters induzidos por algoritmo de agrupamento como o k-means. De acordo com Maulik
e Bandyopadhyay (2002) qualquer sistema que implemente algoritmos de classificação
precisa responder duas perguntas: i) qual é o real número de clusters presentes no conjunto
de dados utilizados? ii) quão representativo e real são os clusters? Para responder essas
questões podem ser utilizadas medidas de validação externas e internas. A diferença
relevante entre as duas é que a validação externa necessita de atributos determinados por
fontes externas, como o próprio usuário por exemplo. Para a validação do algoritmo deste
estudo foram utilizadas algumas métricas internas (índices internos) baseadas em medidas
estatísticas de Davies-Bouldin (Davies e Boudien 1979) e Silhouette (Rousseeuw, 1987).
O índice Davies-Boudin é baseado no cálculo de similaridade intragrupo e de
diferenças intergrupos, ou seja, mede a similaridade média e a dispersão dos grupos. Para
esse indicador, quanto mais baixo forem os valores mais os clusters são compactos e
distantes entre si. Já o índice Silhouette é uma medida de qualidade dos clusters, ou seja,
busca avaliar quão ajustados os dados estão em relação aos clusters. O valor do índice
Silhouette associado a um determinado agrupamento 𝑘̇ varia no intervalo de -1 a +1, ou seja,
9
𝑆𝑖 𝜖 [−1 + 1] e pode ser calculado com qualquer métrica de distância. Para essa pesquisa foi
utilizada a distância euclidiana. A interpretação da largura da silhueta é: i) 𝑆𝑖 > 0, significa que
a observação está bem agrupada – quanto mais próximo estiver de 1, melhor será o cluster;
ii) 𝑆𝑖 = 0, significa que a observação está entre dois clusters e; iii) 𝑆𝑖 < 0, significa que a
observação foi colocada no cluster errado (Oliveira, 2018).
Para comparação, o resultado da estratégia de cluster baseado em aprendizado não
supervisionado foi comparado com a estratégia Buy and Hold. Logo, respondendo as
hipóteses (1) e (2) deste estudo. Como teste de heterogeneidade e generalização, foram
escolhidos 2 tipos de ativos com volatilidades diferentes, respondendo a hipótese (3) deste
estudo. Com o objetivo de sintetizar todos os procedimentos metodológicos adotados neste
estudo a Figura 1 apresenta o fluxograma metodológico.
Por fim, os dados dos ativos foram extraídos do banco de dados da Economatica e do
Yahoo Finance e o período da série corresponderá ao início da negociação das ações até
20215. Na composição da amostra o protocolo utilizado para os outliers foi a não exclusão,
uma vez que se espera que o método de agrupamento identifique e aloque de forma eficiente
os possíveis outliers a determinado cluster. Essa regra está baseada no princípio da
5
Logo, cada empresa escolhida, de forma aleatória, tem um tamanho de amostra específico.
10
generalização dos modelos de Machine Learning.6 Os cálculos e estimações serão feitos no
R utilizando os pacotes: neuralnet, quantmod, DMwR, forecast, clValid e clustersim.
Resultados e Discussão
Após essa etapa, foi selecionado de forma aleatória e de forma anônima uma empresa
de cada grupo para compor a amostra do estudo, com o propósito de evitar o viés de seleção.
A empresa selecionada do grupo de menor volatilidade foi denominada pela letra (A) e de
maior volatilidade foi denominada pela letra (B). As estatísticas descritivas estão apresentadas
nas Tabelas 2 e 3.
6
Por esse princípio a amostra não foi recortada para períodos pré-pandemia, pois espera-se que o
modelo identifique esse comportamento conforme as métricas financeiras. A Covid-19 afetou as
negociações na Bm&fBovespa, ocasionando 6 circiut breaker em 8 pregões no ano de 2020.
11
período foi de R$26,90 e o preço mínimo foi de R$1,83, com desvio padrão de R$7,37 e média
de R$9,24.
Já o conjunto da amostra referente a empresa (B) corresponde ao dia 07/06/2006 à
30/12/2021, com 3611 observações para cada variável. O Preço máximo de fechamento neste
período foi de R$16.958,82 e o preço mínimo foi de R$0,63 com desvio padrão de R$2.953,91.
A média do preço do fechamento no período foi de R$1.405,18. Percebe-se que as ações da
empresa (A) são na média menores do que a empresa (B) e o desvio-padrão dá empresa (B)
é maior que o da empresa (A), o que era de se esperar pelos cálculos da volatidade.
Com a base de dados para treinamento foi possível calcular o número ótimo de cluster
com base na técnica de Machine Learning representado pelos passos (i) a (vi) descritos na
seção de Matérias e Métodos. Percebe-se, por meio da Figura 2 que o erro quadrado médio
dos clusters para o ativo (A.1) – ação com menor volatilidade - diminui conforme aumenta o
número de clusters, porém a variação é cada vez menor. Pela análise visual foi escolhido o
número ótimo de cluster igual a 6 para divisão (A.1)
12
Figura 2. Erro quadrado médio dos clusters (A.1)
Fonte: Resultados originais da pesquisa
Figura 3. Retornos e seus respectivos agrupamentos para A.1 com a base de treinamento
Fonte: Resultados originais da pesquisa
13
Após a previsão dos clusters na base de teste (A.1) ambas as decisões de compra e
venda foram feitas, conforme a apresentado na Tabela 4. A decisão de compra da ação em
𝑡 é baseado nos cluster 1, 2, 5 e 6 e a decisão de venda é baseado nos clusters 3 e 4.
Tabela 4. Retorno médio de cada cluster das ações da empresa (A) para divisão A.1
Cluster Retorno Médio
1 0,22601028
2 0,33320451
3 -0.12385719
4 -0,03236082
5 0,099060
6 0.02585072
Fonte: Resultados originais da pesquisa
14
A análise da Figura 5 é semelhante ao da Figura 1, mesmo com uma amostra
relativamente menor pelo método de Guyon para a base de treinamento. O número de clusters
escolhido para esse método foi igual 6, conforme apontado na Tabela 5.
Tabela 5. Retorno médio de cada cluster das ações da empresa (A) para divisão A.2
Cluster Retorno Médio
1 -0,15806397
2 0,09596016
3 0,30066716
4 -0,04059509
5 0,05697731
6 0,26101718
Fonte: Resultados originais da pesquisa
15
Figura 6. Retornos e seus respectivos agrupamentos para A.2 com a base de treinamento
Fonte: Resultados originais da pesquisa
O resultado do retorno acumulado pela estratégia Buy and Hold foi de 95,43% e pelo
método de clusters foi 157,37%. Logo, percebe-se que os resultados para o método de cluster
são sensíveis a divisão da base em treinamento e teste. Entretanto, para ambas as divisões
o algoritmo k-means performou melhor para a ação de menor volatilidade.
16
Resultados para o ativo B pelo método de Pareto (B.1)
Com o propósito de responder a pergunte (3) desse estudo o mesmo procedimento foi
efetuado para o ativo B - ação com menor volatilidade. Percebe-se que o erro quadrado médio
(Figura 8) diminui bruscamente com os primeiros cluster comparados com o ativo (A).
O número de clusters escolhido para esse ativo foi igual 4, conforme a Figura 8. Na
̇
Tabela 6 estão os retornos (𝐴𝑘𝑡+1 ) de cada cluster e o cluster que teve retornos maiores foi o
3.
Tabela 6. Retorno médio de cada cluster das ações da empresa (B) para divisão B.1
Cluster Alvo
1 -0,1284637
2 -0,3583799
3 0,1214472
4 -0,5524054
Fonte: Resultados originais da pesquisa
17
Figura 9. Retornos e seus respectivos agrupamentos para B.1 com a base de treinamento
Fonte: Resultados originais da pesquisa
18
Por fim, mesmo com uma amostra relativamente menor pelo método de Guyon para a
base de treinamento do ativo B o resultado do erro quadrado médio (Figura 10) foi semelhante
ao da Figura 8 e o número de cluster foi igual a 4, igual ao B.1.
Tabela 7. Retorno médio de cada cluster das ações da empresa (B) para divisão B.2
Cluster Alvo
1 -0,3583799
2 -0.5524054
3 -0,1276038
4 0,1326554
Fonte: Resultados originais da pesquisa
19
Figura 11. Retornos e seus respectivos agrupamentos para B.2 com a base de treinamento
Fonte: Resultados originais da pesquisa
Os resultados encontrados pela divisão B.2 são inferiores aos encontrados pela
divisão B.1, para ambos os métodos (B&H e ML). Entretanto, os resultados são maiores para
a estratégia de cluster em relação ao B&H.
20
Em geral, os resultados encontrados para a estratégia de clusters foram superiores
aos encontrados pela estratégia B&H, tanto para os ativos com volatilidade diferente, quanto
para as formas de divisão diferentes.
Validação
Em relação a base de teste, os clusters previstos para o ativo menos volátil (A.1 e A.2)
também demonstraram uma boa performance tanto para o indicador de Silhueta quanto para
o índice Davies-Bouldin. Entretanto não foi possível calcular as estatísticas de validação
interna para os clusters previstos para o ativo mais volátil (B.1 e B.2). A explicação para isso
é que não houveram clusters previstos com retornos médios negativos na base de teste.
impossibilitando os cálculos das estatísticas internas. Ou seja, na base de teste houve apenas
um único cluster indicando a compra do ativo. Logo, ceteris-paribus, esses resultados indicam
um overfitting do modelo para o ativo mais volátil, ou seja, o algoritmo performa bem na base
de treinamento, porém com dados diferentes (base de teste) esta regra não tem validade e o
desempenho é afetado, se tornando ineficaz para prever resultados. Neste cenário o modelo
21
treinado não tem capacidade de generalização, quebrando um dos pressupostos de Machine
Learning.
Figura 13: Silhueta para as bases de treinamento e teste e para ambos os ativos
Fonte: Resultados originais da pesquisa.
* Não foi possível calcular as estatísticas de validação interna para os clusters previstos
para o ativo mais volátil (B.1 e B.2)
22
Os resultados da Tabela 9 reforçam que apenas em três casos a estratégia de cluster
não foi superior a estratégia B&H em termos brutos. Outro fator importante é que os retornos
são estáveis para o ativo B em relação ao nível de agrupamento. Como já mencionado, a
explicação para esse resultado é que para esse ativo em específico houve apenas um único
cluster indicando a compra do ativo na base de teste mesmo variando os clusters de 2 a 10
na base de treinamento.
23
Kumari et al. (2020) empregaram uma estrutura de computação paralela para realizar
previsão do mercado de ações utilizando a técnica de k-means. Os resultados mostraram que
os métodos utilizados ajudaram na previsão dos valores das ações com uma antecedência
considerável.
Affonso et al. (2021) utilizaram o método k-means juntamente com a técnica de Redes
Neurais Recorrentes (RNR) para prever o comportamento de um grande número de ações e
os resultados mostraram que a tendência foi predita corretamente em boa parte do tempo.
Ito et al. (2021) empregaram o método k-means para a seleção de portfólio durante o
período inicial do Covid-19, os resultados mostram que o método foi capaz de categorizar os
fundos de acordo com os seus retornos.
Aspembitova et al. (2021) desenvolveram uma metodologia para combinar o método
k-means com o Support Vector Machines (SVM) para derivar tipos de comportamentos de
usuários no mercado de criptomoedas prevendo comportamentos de curto de longo prazo.
Chen et al. (2022) utilizaram uma adaptação do método k-means para séries temporais
para realizar previsão de preços de ações de bancos comerciais da China e concluíram que
a abordagem utilizada pode prever os preços das ações com mais precisão.
O que esses estudos têm em comum é a conclusão de que os investidores e gestores
de ativos podem usar as técnicas de classificação, juntamente com outros métodos se for o
caso, para simplificar tarefas diárias visando a otimização dos resultados.
Considerações Finais
24
se testar se as ações negociadas na Bm&fBovespa possuem algum agrupamento com base
em indicadores financeiros e macroeconômicos.
Agradecimento
Referências
Affonso, F.; Dias, T.; M. R.; Pinto, A. L. 2021. Financial times series forecasting of clustered
stocks. Mobile Networks and Applications, 26(1), 256-265.
Bholowalia. P.; Kumar. A. 2014. EBK-means: A clustering technique based on elbow method
and k-means in WSN. International Journal of Computer Applications 105 (9).
Buryak. A.; Guo. I. 2014. Effective and simple VWAP options pricing model. International
Journal of Theoretical and Applied Finance. 17(06): 1450036.
Chen, Y.; Wu, J.; Wu, Z. 2022. China's Commercial Bank Stock Price Prediction using a
Novel K-means-LSTM Hybrid Approach. Expert Systems with Applications, 117370.
Chen. J. M.; Rehman. M. U.; Vo. X. V. 2021. Clustering commodity markets in space and
time: Clarifying returns. volatility. and trading regimes through unsupervised machine
learning. Resources Policy 73:102162.
Chong. T. T.; Wing-Kam, N. 2008. Technical analysis and the London stock exchange:
testing the MACD and RSI rules using the FT30. Applied Economics Letters 15(14):1111-
1114.
Datta. A.; Mavroidis. C.; Hosek. M. 2007. A role of unsupervised clustering for intelligent fault
diagnosis. In: ASME International Mechanical Engineering Congress and Exposition.
Anais.... p. 687-6955.
Davies. D.; Bouldin. D. 1979. A cluster separation measure. IEEE Transactions on Pattern
Analysis and Machine Intelligence (TPAMI) 1(2): 224-227.
25
Deng. Q.; Mei. G. 2009. Combining self-organizing map and k-means clustering for detecting
fraudulent financial statements. In: 2009 IEEE International Conference on Granular
Computing. IEEE. Anais... p. 126-131.
Fernández-Avilés. G.; Montero. J-M.; Sanchis-Marco. L. 2020. Extreme downside risk co-
movement in commodity markets during distress periods: A multidimensional scaling
approach. The European Journal of Finance 26(12): 1207-1237.
Guyon. I. 1997. A scaling law for the validation-set training-set size ratio. AT&T Bell
Laboratories. 1(11).
He. H.; Chen. J.; Jin. H.; Chen. S. H. 2007. Trading strategies based on K-means clustering
and regression models. In Computational Intelligence in Economics and Finance. Springer.
Berlin. Deutschland.
Hocking. A.; Geach. J. E.; Sun. Y.; Davey. N. 2018. An automatic taxonomy of galaxy
morphology using unsupervised machine learning. Monthly Notices of the Royal
Astronomical Society 473(1): 1108-1129.
Ito, H.; Murakami, A.; Dutta, N.; Shirota, Y.; Chakraborty, B. 2021. Clustering of ETF Data for
Portfolio Selection during Early Period of Corona Virus Outbreak. Gakushuin Hournal of
Economics, 58(1), 99-114.
Koçer. B. 2016. Bollinger bands approach on boosting ABC algorithm and its variants.
Applied Soft Computing 49: 292-312.
Kou. G.; Peng. Y.; Wang. G. 2014. Evaluation of clustering algorithms for financial risk
analysis using MCDM methods. Information Sciences 275: 1-12.
Kumari, S.; Patil, N.; Nankar, P.; Kulkarni, M. 2020. CUDA parallel computing framework for
stock market prediction using K-means clustering. In 2020 International Conference on
Smart Electronics and Communication (ICOSEC) (pp. 467-473). IEEE.
Lambert. D. R. 1983. Commodity channel index: Tool for trading cyclic trends. Technical
Analysis of Stocks & Commodities 1: 47.
Lengyel. A.; Botta‐Dukát. Z. 2019. Silhouette width using generalized mean—A flexible
method for assessing clustering efficiency. Ecology and evolution 9(23): 13231-13243.
Maitah. M.; Procházka. P.; Cermak. M.; Šrédl. K. 2016. Evaluation of trading rule of
agricultural commodities. International Journal of Economics and Financial Issues 6(1): 176-
178.
26
Mallqui, D. C.; Fernandes, R. A. 2019. Predicting the direction, maximum, minimum and
closing prices of daily Bitcoin exchange rate using machine learning techniques. Applied Soft
Computing, 75, 596-606.
Münnix. M. C.; Shimada. T.; Schäfer. R.; Leyvraz. F.; Seligman. T. H.; Guhr. T.; Stanley. H.
E. 2012. Identifying states of a financial market. Scientific reports 2(1): 1-6.
Musmeci. N.; Aste. T.; Di Matteo. T. 2015. Correction: Relation between Financial Market
Structure and the Real Economy: Comparison between Clustering Methods. PloS one 10(4).
Neves. R. J. T. 2019. Análise técnica ou buy and hold. Tese (Doutorado). Instituto
Politécnico de Coimbra. Coimbra. Portugal.
Soni. K. G.; Patel. A. 2017. Comparative Analysis of K-means and K-medoids Algorithm on
IRIS Data. International Journal of Computational Intelligence Research 13(5): 899-906.
Tibshirani. R.; Walther. g.; Hastie. t. 2001. Estimating the number of clusters in a data set via
the gap statistic. Journal of the Royal Statistical Society 63(2): 411-423.
Tsai. C. 2014. Combining cluster analysis with classifier ensembles to predict financial
distress. Information Fusion. v. 16. p. 46-58.
27
Xu. S.; Qiao. X.; Zhu. L.; Zhang. Y.; Xue. C.; Li. L. 2016. Reviews on determining the number
of clusters. Applied Mathematics and Information Sciences 10(4): 1493-1512.
Xu. Y.; Yang. C.; Peng. S.; Nojima. Y. 2020. A hybrid two-stage financial stock forecasting
algorithm based on clustering and ensemble learning. Applied Intelligence 50(11): 3852-
3867.
28