Gestão da tecnologia

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 15

Gestão da tecnologia da informação

Unidade 1 e 2

•Primeiro Período: Era do processamento de Dados

A evolução da TI está ligada em grande parte ao desenvolvimento dos computadores. Os esforços para evolução
das estruturas de hardware e software, até o início da década de 60, estava direcionado para o aperfeiçoamento do
desempenho das máquinas. O objetivo era que pudessem realizar cálculos e ações complexas, em menor tempo e
com precisão elevada.
Um dos pontos altos, desencadeado pela segunda guerra mundial, foi o desenvolvimento de computadores
eletromecânicos (calculadoras), compostos por milhares de válvulas, ocupando áreas enormes e tendo
performance muito baixa. Os militares estavam buscando aperfeiçoar os métodos de cálculo, objetivando reduzir
o tempo gasto nos mesmos e obter vantagens em combate. Um dos primeiros computadores apresentados neste
período da história da TI foi o ENIAC - Electronic Numerical Integrator And Computer em português: computador
integrador numérico eletrônico.
Desde a apresentação do ENIAC em 14 de fevereiro de 1946 a área de TI passou por muitas evoluções. O ENIAC possuía
uma capacidade de processamento menor do que as modernas calculadoras presentes nos celulares, custo
estimado em US$ 6 milhões e alto consumo de energia elétrica. O ENIAC realizou em seu ciclo de operação mais
cálculos que toda humanidade havia realizado em toda sua existência, feito esse, superado por seu rival com o
dobro de sua capacidade e custo equivalente a US$ 200 mil.
No início da década de 60 os computadores passaram a ser adotados em grandes e médias empresas. Empregados
para processar dados e gerar informações, a expansão em seu uso era impulsionada pela redução do custo de
produção dos hardwares e aumento da velocidade dos equipamentos e aplicações. Nesta época não existiam ainda o
conceito de pacotes de softwares ou aplicações especificas. A produção de software era feita especificamente para
dado equipamento.
Com frequentes problemas em seu funcionamento, os computadores deste período exigiam constantemente a
intervenção dos engenheiros que os haviam projetado. Com um conhecimento restrito apenas aos fabricantes
destes equipamentos, o custo de manutenção ainda era elevado, um ponto que ao longo da evolução dos
equipamentos precisou ser revisto. Era preciso projetar equipamentos que tivessem uma manutenibilidade e
interoperabilidade maior.
Neste período surgem as primeiras propostas de linguagens de programação. As linguagens Assembly e Fortran,
começam nesta época a permitirem a programação do hardware, dando início ao processo de desenvolvimento de
programas. O processamento era centralizado em departamentos intitulados de CPD – Centro de Processamento
de Dados. O CPD realizava todo o tratamento dos dados, resultando em altos volumes de relatórios, oriundos de
sistemas ligados a um grande computador central. Tal estrutura era conhecida como processamento em batch
(processamento de dados em lote).

observamos que no passo a (Figura 2a) a programação era fornecida à máquina por meio de cartões perfurados,
que submetidos a uma leitora de cartões realizava a gravação na fita magnética de entrada (Figura 2b). Cada job,
trabalho ou processo, representa uma tarefa que foi solicitada ao equipamento. A fita contendo a programação,
era então lida, e o programa executava a gravação dos resultados oriundos da execução em uma fita de saída.
Finalmente, a fita de saída (Figura 2c) era lida e impressa em forma de relatório. Um processo em partes manual,
mecânica e eletrônica, que resultam na primeira forma de processamento de dados amplamente utilizada.
Com o surgimento dos circuitos integrados há uma redução nos custos de aquisição. Os equipamentos passam a
ter um consumo de energia elétrica menor, uma capacidade superior de processamento e passa a ter um tamanho
reduzido. Com esses avanços foi possível difundir a utilização dos sistemas computacionais nas empresas.
(MACHADO, 2007).
No final deste período, a expansão dos sistemas telefônicos permitiu que terminais de acesso remoto pudessem ser
implementados. Esse modelo deu origem a conceitos fundamentais de comunicação adotados até a atualidade
para comunicação entre computadores e sistemas de informação. O princípio básico adotado pelos sistemas
cliente servidor, inspiram-se em comportamentos presentes neste primeiro modelo, em que, o processamento
realizado de forma centralizada, era distribuído à estações clientes que estavam remotamente ligadas a este
servidor.
Segundo Período: Sistemas de Informações
O período da década de 70 é marcado pelas transformações tecnológicas. As novas tecnologias desenvolvidas
neste período proporcionam a capacidade de desenvolvimento de sistemas aderentes as necessidades das empresas.
Esse foi um passo importante para ampliar a utilização dos sistemas por parte dos mais diversos segmentos de
negócio. Um fato importante é que neste período começa-se a utilização massiva de circuitos integrados na
construção de computadores, proporcionando ganhos a capacidade de processamento e redução em seus custos.
Segundo MACHADO (2007, p. 12) em 1971 a Intel apresenta seu primeiro microprocessador, o Intel 4004 e
posteriormente em 1974 o Intel 8080, adotado no primeiro microcomputador batizado de Altair. Neste período o
desenvolvimento dos microprocessadores impulsiona o mercado de microcomputadores. De forma muito rápida
são apresentados microcomputadores com custos menores e performance superior a geração anterior. Em 1976
Steve Jobs e Steve Wozniak desenvolvem o Apple II Plus de 8 bits (ver Figura 3) dando início a uma série de
importantes fundações de empresas, tais como a Microsoft e a Apple.

Neste período já é possível que computadores realizem diversas ações simultaneamente e atendam a estímulos de
vários usuários. Nesta época surgem as primeiras companhias de TI focadas em desenvolvimento de aplicações,
como a IBM. São deste período os primeiros softwares, que combinados a evolução dos hardwares impulsionam
uma série de inovações.

As linguagens de programação desenvolvidas nesta década, tais como o Pascal, voltada para o ensino de técnicas
de programação, e linguagem C, impulsionam de forma considerável a área de programação e evolução dos
sistemas operacionais. Os sistemas operacionais desenvolvidos passam a suportar novos meios de sincronização
de processos e multiprocessamento, permitindo execução de mais de um programa ao mesmo tempo. Novas
técnicas passam a ser adotadas como processamento vetorial e paralelismo na busca de tornarem os
computadores ainda mais capazes (MACHADO, 2017).

Para KENN (1996, p. 37) uma das maiores evoluções da época é a transição dos processamentos de transações para o
conceito de gerenciamento de banco de dados. Surgem neste período os primeiros softwares do tipo SGBD –
Sistema Gerenciador de Banco de Dados. Os SGBDs permitem a organização de dados de uma forma estruturada,
possibilitando um eficiente método de armazenamento e recuperação de dados. Em nossa Unidade 2 daremos foco
aos SGBDs e estudaremos como os métodos de persistência contribuíram para o avanço dos sistemas de gestão de
tecnologia da informação.

Segundo Período: Sistemas de Informações

O período da década de 70 é marcado pelas transformações tecnológicas. As novas tecnologias desenvolvidas


neste período proporcionam a capacidade de desenvolvimento de sistemas aderentes as necessidades das empresas.
Esse foi um passo importante para ampliar a utilização dos sistemas por parte dos mais diversos segmentos de
negócio. Um fato importante é que neste período começa-se a utilização massiva de circuitos integrados na
construção de computadores, proporcionando ganhos a capacidade de processamento e redução em seus custos.
Segundo MACHADO (2007, p. 12) em 1971 a Intel apresenta seu primeiro microprocessador, o Intel 4004 e
posteriormente em 1974 o Intel 8080, adotado no primeiro microcomputador batizado de Altair. Neste período o
desenvolvimento dos microprocessadores impulsiona o mercado de microcomputadores. De forma muito rápida
são apresentados microcomputadores com custos menores e performance superior a geração anterior.

Neste período já é possível que computadores realizem diversas ações simultaneamente e atendam a estímulos de
vários usuários. Nesta época surgem as primeiras companhias de TI focadas em desenvolvimento de aplicações,
como a IBM. São deste período os primeiros softwares, que combinados a evolução dos hardwares impulsionam
uma série de inovações.

Para KENN (1996, p. 37) uma das maiores evoluções da época é a transição dos processamentos de transações para o
conceito de gerenciamento de banco de dados. Surgem neste período os primeiros softwares do tipo SGBD –
Sistema Gerenciador de Banco de Dados. Os SGBDs permitem a organização de dados de uma forma estruturada,
possibilitando um eficiente método de armazenamento e recuperação de dados.

Terceiro Período: A Era da Inovação e Vantagem Competitiva

Com a difusão do termo Tecnologia da Informação, na década de 1980 um movimento muito grande de adesão a
utilização de processos computacionais é iniciado. Com a utilização de SGBD em computadores pessoais e a franca
expansão do desenvolvimento de softwares, as empresas passam a adotar as novas tecnologias da informação.
Neste período a expansão dos meios de telecomunicações passa a oferecer as empresas meios de interconexão entre
seus microcomputadores. O princípio de comunicação é o mesmo utilizado pela telefonia, em que o há um serviço
central, linhas ramais e unidades cliente.

Com a expansão do uso das TIC’s - Tecnologia da Informação e Comunicação, serviços de suporte ao usuário
começam a ser desenvolvidos. Surgem neste período o serviço de Help Desk, central de ajuda, permitindo aos
usuários esclarecer suas dúvidas, receber orientações e apoio à utilização das ferramentas oferecidas. A partir daí
as empresas passam a ter um nível de aceitação muito maior à TI. A resistência em relação ao uso passa a dar
espaço a oportunidade de crescimento pessoal. A manutenibilidade e a interoperabilidade dos computadores é
aperfeiçoada significativamente. Neste período os primeiros cursos de aperfeiçoamento são desenvolvidos para
preparem profissionais para desenvolvimento e suporte a TI.

Quarto Período: A Era da Integração e Reestruturação do Negócio


No final de 1993 a Microsoft lança o Windows NT, posicionando a companhia como principal fornecedore de SO’s
desta década ao lado de HP, IBM e Sun Solaris com distribuições do SO Unix. A TI passa a ser reconhecida como um
importante avanço na operação da área de negócios e tecnologia. A transformação torna-se global, rompendo
barreiras de comunicação e cooperação simultânea, o que é um elemento até hoje indispensável em uma
organização.

Período de 2000, a virada do milênio

Em 31 de dezembro de 1999 o mundo estava todo preocupado com o que iria ocorrer após as 23:59:59 deste dia. Para
a área de TI aguardávamos o temido Bug do milênio. Bug do milênio ou problema Y2K, terminologia adotada
para descrever um problema previsto para ocorrer em sistemas informatizados na passagem do ano de 1999 para
2000. O bug tratava de uma possível falha na interpretação do ano nas datas, que na ocasião tinha
representatividade no ano de apenas 2 dígitos, permitindo que a data se ocupa 6 bytes, por exemplo 06/12/99, em
vez de 8 bytes, por exemplo 06/12/1999. A preocupação girava em torno de como o ano 2000 seria interpretado na
forma de exibir a data, por exemplo 01/01/00 o que poderia ocasionar problemas severos na forma de tratar as
datas nos sistemas existentes neste período. Graças a esforços, muitos dos softwares da época tiveram seu
formato de data ajustado, passando a ser armazenado em 8 bytes, o que neutralizou os efeitos deste possível bug.

A transição da década de 2010

O final da década de 2010 é marcado por um novo modo de se realizar transações monetárias. Criptomoedas e
sistemas eletrônicos de cobrança passam a ser uma opção segura de transações monetárias. O mercado financeiro
e bancário passa a difundir o uso eletrônico de transações, neste período unidades físicas bancárias passam a ser
fechadas e novos sistemas passam a oferecer segurança e praticidade aos seus correntistas.

Tecnologias Disruptivas

A ruptura de padrões, modelos e tecnologias já consolidadas, recebe o nome de Tecnologia disruptiva ou


inovação disruptiva. Isso ocorre quando uma tecnologia interrompe padrões e é considerada fora dos padrões
para o seu segmento. Uma inovação disruptiva, termo utilizado quando a disrupção não está ligada a
construção de uma nova tecnologia, mas em como é aplicada a tecnologia, é mais recorrente. O serviço UBER,
idealizado em 2009 nos Estados Unidos, é um exemplo de tecnologia disruptiva. O modelo tradicional de
transporte de passageiros, teve um disrupção a partir do modelo proposto pelo UBER (SOUTO, 2017). Outro exemplo
que podemos apresentar são os softwares de driver para hardware. Atualmente continuam sendo oferecidos, mas
não mais em uma mídia física, é oferecido ao usuário um link para download, gerando uma redução nos custos
com a produção das mídias e mantendo a oferta do software de driver ao usuário.

Em SOUTO (2017, p. 40) o investimento em tecnologias de sustentação ao invés de tecnologias disruptivas e a


falta de investimento em tecnologias que podem avançar rapidamente no mercado em que se está inserido,
estão entre as características das organizações fadadas ao fracasso. Tecnologias disruptivas está ligado a um
processo de inovação em que novos produtos ou serviços com aperfeiçoamento de características, é introduzido
ao mercado.

O período de 2020 é marcado por um claro exemplo de Tecnologia Disruptiva presente na oferta de serviços
educacionais (NOBREGA, 2020). A Educação a Distância passou a ocupar destaque ao longo da pandemia do
COVID-19. A ampla adoção da computação na nuvem, bibliotecas digitais, quadros iterativos, aulas realizadas por
meio de sistemas de teleconferência, passaram a ser a nova realidade ao modelo tradicional de educação.

•Algumas das tendencias para as tecnologias disruptivas, segundo NTT (2020) incluem:

*Construções com Internet das Coisas – com a expansão de novas tecnologias de conectividade e aquisição de
dados, as redes de sensores passam a ter espaço nas novas construções. Casas e edifícios passam a contar com um
número elevado de dispositivos que facilitam a vida do morador. Elementos com o controle de temperatura,
iluminação e agendamento de tarefas, passa a tornar se comum.

*Carteira digital – novos modelos de controle financeiro, com a introdução de novas formas de aplicações
financeiras e meios de pagamento, aliadas a novos meios de autenticação, permitem uma forma segura de
realizar movimentações financeiras.

Cibersegurança

Atualmente frameworks como OWASP (Projeto Aberto de Segurança em Aplicações Web) permitem treinar os
desenvolvedores para o desenvolvimento de softwares seguros, necessário em todo projeto de software. O OWASP é
mantido pela comunidade de software livre que disponibiliza com frequência, novas metodologias,
treinamentos e ferramentas que cooperam com o desenvolvimento de segurança para aplicações web. Uma prática
que é incentivada é a adoção das cartilhas oferecidas pelo NIST (Instituto Nacional de Padrões e Tecnologia)
Framework Cybersecurity. As cartilhas do NIST são adotadas como referência pelas maiores companhias de
software do mundo na área de segurança da informação.
•Unidade 2 - Banco de Dados

Os dados tornaram-se um elemento de extremo valor para as empresas. O banco de dados, responsável por prover o
armazenamento dos dados, passou a ser o foco da gestão de sistemas de informação.

Dados são informações classificadas como propriedades emergentes, por exemplo, em uma representação
conceitual de um produto, cada característica do produto que desejamos registrar é um dado. No caso do produto,
o código, a descrição e quantidade são exemplos de dados que representam de forma abstrata um produto físico.
Outro exemplo, de representação agora conceitual, sua conta de e-mail. O login e a senha são dados registrados
que permitem a identificação do seu usuário. Desta forma, dados são características ou propriedades que são
registradas de um elemento físico ou conceitual. Um software de gestão de recursos humanos, por exemplo, para
representar o funcionário, registrada propriedades como o número de registro, nome, data de nascimento e
departamento. As características de funcionário tornaram-se dados do software de gestão de recursos humanos.
Cada uma destas características, podemos definir assim, são dados de funcionário.
Os dados podem ser de tipos texto, numérico, lógico, mídia, data ou hora. O tipo representa a classificação, que
posteriormente, é utilizada pela ferramenta informatizada para determinar o espaço que deve ser reservado em
memória para guardar esse dado. O tipo do dado é de extrema importância para a base dados, pois, define
características de validação e de armazenamento que serão adotadas no momento de realizar a inclusão,
alteração ou pesquisa.

Definir corretamente o tipo do dado trás vantagens significativas, principalmente no volume físico ocupado
pelo banco de dados. Para que você compreenda melhor, imagine que valores numéricos decimais possuem uma
representação maior que de um número inteiro. Isso na área de tecnologia da informação é chamado de
ocupação física, e é mensurado em unidades de medida como bits, bytes, megabytes e etc. Desta forma, ressaltamos
a importância de definir corretamente o tipo de dado ao modelar seu banco de dados.
Para os processos gerenciais as informações são base para decisões e fonte para obtenção de conhecimento.
Selecionar as informações e aproveitá-las da melhor forma, é um dos aspectos mais importantes do processo de
gerenciamento de dados.
O gerenciamento de dados é necessário para que os dados possam ser guardados com segurança, e estar disponíveis
de forma rápida aos processos que necessitam manipulá-los. O gerenciamento de dados consiste em assegurar o
correto armazenamento (persistência de dados), recuperação (consulta) e manutenção dos dados. Dentre as
vantagens de implementarmos o gerenciamento de dados, podemos citar a segurança, a padronização e a
disponibilidade de dados. Como limitação, podemos destacar a dificuldade de normalização quando um processo
de gerenciamento de dados não é elaborado adequadamente ou há um gap semântico. Gap semântico é uma
lacuna ou falha de compreensão quanto aos dados que estamos normalizando. O gap semântico ocorre quando
não temos domínio da regra de negócio. Dominar a regra de negócio exige muita experiência e vivência no
processo que está sendo analisado. Por tanto, ao modelar seu gerenciamento de dados é fundamental que
tenham domínio da regra de negócio ou tem o aval de quem domina a regra de negócio.
O formato do arquivo de dados utilizado pelas planilhas eletrônicas, podem variar de acordo com o fabricante. O
Microsoft Excel utiliza, por exemplo, Caracteres Separados por Virgulas (CSV), XLS e XLSX, além de outras extensões. O
LibreOffice Calc, por exemplo, utiliza ODS, XLS, CSV e XLSV. Alguns formatos de arquivo, como podemos concluir,
permitem a interoperabilidade entre ferramentas. A interoperabilidade é a capacidade de trocar informações
entre sistemas ou tecnologias diferentes. Ao salvar sua planilha eletrônica escolha um formato de arquivo que
seja adequado para sua necessidade.
Um segundo modo de tramitar dados, bastante utilizado, principalmente em aplicações WEB, é o formato de
arquivos JSON - JavaScript Object Notation. Um arquivo JSON é um formato aberto, baseado em sistema de chave e
valor. Em linhas gerais utiliza-se de um sistema em que a chave descreve a propriedade e o valor determina o dado
desta propriedade

Sistemas Gerenciadores de Banco de Dados

Um SGBD é uma coleção de estruturas de dados relacionados, mantidos por uma aplicação informatizada
(SILBERSCHATZ, 2006). Conhecido popularmente como Software de Banco de Dados, é um tipo de sistema
especialmente elaborado com a finalidade de armazenar e recuperar grandes volumes de dados, com agilidade,
segurança e facilidade. Quando uma empresa adota um SGBD e o modela adequadamente, agrega ao seu processo de
gestão de informação agilidade, disponibilidade e segurança. No mercado de TI existe uma grande oferta destes
sistemas. São exemplos de SGBD o Oracle, Microsoft SQL Server, PostgreSQL, MySQL, InterBase, Firebird e MongoDB.

Olhando para o nosso dia a dia, observamos alguns exemplos de aplicações que adotam sistemas de banco de dados,
tais como:

· Sistemas de Cadastro Comercial

o Pedidos – estruturas para registrar e consultar pedidos de vendas de produtos.

o Clientes – controle de cadastro de clientes.


o Contas a Receber – informações de valores abertos para recebimento.

· Educação

o Cadastros de Alunos, Professores, Cursos, Disciplinas e Turmas – estruturas cadastrais necessárias para controle
dos cursos.

o Acadêmico – notas, faltas e informações de andamento dos cursos.

· E-Commerce

o Estrutura de Produtos – cadastro de produtos e gestão dos estoques.

o Clientes – controle de cadastro de clientes.

o Vendas e Carrinho – estrutura que dará origem a pedido de venda

o Acompanhamento do Pedido – sessão para que o cliente acompanhe o andamento do seu pedido de compra.

Um outro aspecto fundamental é considerar a arquitetura de infraestrutura que irá adotar. A empresa poderá
optar por realizar o investimento de aquisição de servidores, licenças de software, cabeamento, comunicação e
energia elétrica ou utilizar-se de Cloud Computer. A Cloud Computer é conhecida comumente como computação
em nuvem, permite que a hospedagem do servidor de banco de dados esteja em um servidor na Internet. Essa
modalidade de serviço permite contratar de forma segura todos os recursos para suportar os softwares
necessários à empresa.

Na Tabela 2 podemos observar a existência de 5 colunas que representam dados de Cliente. Cada uma das linhas
desta tabela representa um registro de cliente. Deste modo, cada conjunto de id, nome, e-mail, telefone e
cadastro representam conceitualmente um cliente. A normalização desta tabela, tipos de dados e número de
colunas, é definida a partir da análise preliminar realizada para construção do banco de dados.
As principais características, além da disponibilidade e integridade dos dados, típica de um sistema de tomada de
decisão é:

· Interface amigável com o usuário;

· Capacidade de processamento de volumes elevados de dados;

· Portabilidade – capacidade de ser portado para plataformas como mobile, web ou desktop;

· Interoperabilidade – capacidade de se comunicar com sistemas terceiros;

· Facilidade de receber personalizações.

Entre os sistemas de tomada de decisão destacam-se os sistemas de BI – Business Intelligence, Sistemas CRM –
Customer Relationship Management, Sistemas ERP – Enterprise Resource Planning e Sistemas de Data warehouse.
Nós iremos em unidades posteriores conhecer com profundidade cada um destes tipos de sistemas, mas vamos
compreender agora o que é comum entre estes tipos de software.

Unidade 4

Seção 1 – Data Mining

A primeira forma de analisarmos os dados é reuni-los em um repositório central, considerando que existem
diversas origens de dados, tais como planilhas, bancos de dados de sistemas ERP e sistemas de CRM. Para realizar a
centralização é fundamental que se faça a normalização dos dados e aplicar técnicas para eliminar resíduos, ou
seja, dados que são considerados sujeiras na base de dados. Uma das vantagens deste método é, uma vez realizada
a centralização, ter uma única base de consulta e mineração de dados. Por outro lado, é oneroso manter diversas
fontes de dados separadamente, e ter que centralizá-los sempre que necessária a análise dos dados. Isso exigiria
um processamento extra para preparar a base centralizado de dados.
A segunda forma, descrita por SILBERSCHATZ é manter as bases separadamente e utilizar, por meio de instruções
SQL – Structured Query Language, comandos capazes de relacionar as informações de várias fontes. A vantagem é
que não teremos a necessidade de ter de sintetizar em uma única base as diversas fontes, sempre que precisarmos
analisá-los. Poderemos realizar as consultas em fontes separadas ganhando com isso performance (tempo de
resposta). Entretanto, há uma desvantagem: a normalização e modelagem de dados precisa estar padronizada. Os
sistemas de consulta SQL são sensíveis a mudanças na estrutura e na normalização de campos. É preciso
atentar-se também a domínio da linguagem SQL, que apesar de padrão, conta com uma sintaxe de comandos
específicos.
Com o crescente aumento das bases de dados, e com isso um aumento significativo em sua complexidade, explorar
grandes quantidades de dados e padronizá-las, não é uma tarefa simples. A necessidade de classificação,
ordenação e por fim sintetização para análise, exigem ferramentas e técnicas especializadas. Uma destas
ferramentas é a Data Mining ou Mineração de Dados.
A granularidade de dados é a característica que define o nível de detalhamento de uma informação. Quanto
maior o nível de granularidade de uma informação, maior é a sua capacidade de sintetização. Inversamente,
quanto menor o nível de granularidade de uma informação, menor é o seu nível de sintetização. Por exemplo,
quando consideramos as vendas por dia, temos uma granularidade baixa, em relação a vendas por semana, que
sintetiza um conjunto de dias em uma única informação.
A capacidade de sintetização de dados está associada ao nível de granularidade necessário para análise da
informação. Grandes volumes de dados podem oferecer informações valiosas para tomada de decisão, mas pode
prejudicar a performance, quando muitos dados precisam ser analisados e/ou consultados simultaneamente.

O data mining engloba a descoberta de conhecimento em banco de dados. O processo de descoberta de


conhecimento em banco de dados passa por seis fases:

Seleção de dados;
Limpeza;
Enriquecimento;
Transformação ou Codificação;
Mineração de dados e
Apresentação.

Para compreendermos cada uma das fases, vamos utilizar o exemplo de um banco de dados de uma solução de ERP
para o segmento de supermercados. Vamos considerar que as vendas, por exemplo, são compostas por informações
como loja, data da venda, produto, quantidade, valor unitário, cliente e valor de desconto. O gerente da loja
deseja extrair informações gerenciais, como o total vendido por produto em um dado período.
Na fase de seleção, a massa de dados, ou bloco, que corresponde a data e loja desejada pelo gerente da loja, serão
extraídos do sistema gerenciador de banco de dados e serão disponibilizados na memória para serem tratados. Essa
fase é considerada a fase em que os dados brutos são selecionados, para que a partir deles as informações possam
ser extraídas.
Na fase de limpeza, podemos realizar a validação de dados que porventura sejam considerados sujeira, por
exemplo, vendas que apresentem quantidade igual a zero, ou tenham a identificação de um código de produto
inexistente. Essa fase possibilita deixar os dados que foram selecionados do banco de dados, uniformes em relação
a padrões. Imagine que tivéssemos por exemplo datas que estejam em formatos diferentes, por exemplo ‘14/01/21’ e
14/01/2021’. Aplicando o processo de limpeza, podemos normalizar e formatar para que todas as datas sejam
tratadas com o formato aplicado a ‘14/01/2021’.
sistemas gerenciadores de banco de dados, abordamos o processo de normalização e padronização de dados. Uma
base de dados que esteja desnormalizada ou fora de padrão, irá prejudicar a performance e a confiabilidade dos
dados. Apesar da fase de limpeza de existente no data mining, isso não exime a responsabilidade de padronizarmos
os nossos dados no momento em que estamos construindo o banco de dados, ou quando o sistema que irá
armazenar esses dados, está manipulando-os.
A fase de transformação de dados, ou como também é conhecida de codificação, é a fase em que reduzimos a
granularidade dos dados. Nesta fase é feito o agrupamento, por exemplo, dos itens de venda que são da mesma
loja, data e produto, reduzindo o número de elementos e agrupando os que tem as mesmas características. A
redução na granularidade irá cooperar aumentando a performance da análise e sintetizando as informações.

Na mineração de dados, após as fases anteriores, os dados podem agora ser analisados, minerados de acordo com
o interesse do gerente de vendas de nosso exemplo. Ele poderá utilizar-se de regras de associação, padrões
sequenciais e árvores de classificação para minerar os dados.

As regras de associação são elementos que definem relacionamento entre itens, por exemplo, a venda de itens de
padaria em relação a número de vendas de produtos de laticínio. Isso permite uma análise associativa entre
itens que na análise possam ter alguma relação, por exemplo, o aumento no número de unidades vendidas do
pão francês com a venda de unidades de leite em caixinha.

Já os padrões sequenciais, exibem comportamentos como recorrência de vendas de um cliente para o mesmo
produto em um dado período. Os padrões sequenciais auxiliam a determinar possíveis comportamentos,
tendências, baseado em comportamentos recorrentes.
As árvores de classificação identificam e classificam, por meio de características comuns, grupos de registros de
dados. Por exemplo, clientes que compram uma determinada marca de bebidas em relação ao horário, para que
possamos analisar informações de saldos de estoque nos períodos de maior giro, permitindo programar a
reposição dos itens no ponto de venda.
As As árvores de classificação identificam e classificam, por meio de características comuns, grupos de registros
de dados. Por exemplo, clientes que compram uma determinada marca de bebidas em relação ao horário, para que
possamos analisar informações de saldos de estoque nos períodos de maior giro, permitindo programar a
reposição dos itens no ponto de venda.

Na fase de apresentação, que como já se pressupõem, os dados serão apresentados. A apresentação pode se dar de
forma tabular, como em um relatório tabular, ou de forma visual, como em um grafo de barras. É muito
importante que observemos que a apresentação dos dados é algo que terá grande impacto no processo de análise
de dados. Por tanto, escolher corretamente a forma de exibição dos dados é algo que você deverá trabalhar com os
usuários destas informações. Consulte quem irá analisar os dados para determinar a melhor forma de
apresentação dos dados.

Seção 2 – Data Warehouse

Um data warehouse, depósito de dados, é um repositório de informações organizadas, cuja origem vêm de diversas
fontes de dados. A ideia é de um banco de dados centralizado, em que todas as informações das suas várias
origens, ficam concentradas para servirem ao processo de mineração de dados (data mining). A vantagem de se
concentrar os dados em um data warehouse é que a interface utilizada pelo usuário para realizar a mineração e
análise apontará apenas para esse repositório (local). Um outro ponto fundamental, é que o data warehouse não é
o banco de dados principal. Obtido por um processamento das bases originais, o data warehouse, é o que podemos
definir como um replica dos dados destinado à análise e tomada de decisão.
O objetivo principal é prover a centralização de dados de diversas fontes de dados, permitindo assim facilitar a
consulta no processo de análise e tomada de decisão
Carga de dados é o processo que irá obter os dados de suas fontes de origem, aplicar regras de modelagem,
determinando sua ordenação, normalização e granularidade. A carga de dados é definida como uma das
principais partes do processo de ETL – Extract Transform Load (Extrair Transformar Carregar). A execução da carga
de dados transforma os dados de acordo com regras de negócio determinadas sem modificar as bases de dados
originais. A partir da carga de dados, as bases de dados seguem ciclos de vida separados, isso tem significado
quanto a consistência e manutenibilidade da informação. Os dados modificados na base de dados original, não
serão atualizados no deposito de dados até que uma nova carga de dados seja realizada. Consiste na etapa mais
importante da geração do data warehouse.
A partir da carga de dados, o SGBD do depósito de dados está pronto para ser utilizado. Esse deposito de dados tem
por objetivo servir aos sistemas de análise e consulta de dados. Essa nova base de dados apresenta apenas dados
(fatia) dos dados originais. Sua periodicidade (tempo de registros) é menor que das bases originais, pois, não é
objetivo que seja uma cópia de todos os dados originais. Como abordamos anteriormente, devem possuir
granularidade específica para análise e conter dados com importância para sistemas de tomada de decisão.
A carga de dados poderá ser realizada de duas formas, por meio de cargas de dados completas (full) ou por meio de
carga de dados incrementais. A carga completa considera que todos os dados do deposito de dados serão
carregados, o que exigirá descartar os dados atuais do SGBD do data warehouse e realizar uma carga de dados
completa a partir das fontes de dados. Uma carga full é recomenda quando iniciamos a base de dados do depósito
ou quando existe uma grande quantidade de dados a serem atualizados, inviabilizando a atualização dos dados
incremental ou por substituição. A carga de dados incremental é a carga de apenas dados que passaram por
alguma atualização, ou foram incrementadas as fontes de dados.
Para compreender as diferenças entre carga completa e incremental, consideremos que o nosso deposito de dados
seja formado por dados de aproximadamente 730 dias (2 anos). Isso representaria que amanhã teremos novos
dados para inserir e remover de nossa base de dados. Se a volumetria de dados a serem atualizados representa um
percentual muito grande em relação aos dados que existem atualmente no depósito de dados, não é viável
realizar o processo incremental. Uma carga completa, na qual os 730 dias seriam recarregados, poderá exibir uma
performance (tempo e processamento) menor, sendo assim mais recomendada. Por tanto, uma carga
incremental só será interessante se o volume de inserções, atualizações e exclusões de dados não representar um
volume elevado de tempo e processamento.
Ao estabelecer os critérios de carga de dados, considere um procedimento em que, por exemplo, semanalmente
uma carga completa seja realizada e diariamente uma incremental. A escolha do horário para gerar está carga é
de suma importância, pois, as fontes de dados deverão estar a disposição para consulta sem que seus dados
estejam passando por atualizações.

Um data mart (repositório de dados específicos) é um conjunto de dados de um data warehouse. Considerados um
conjunto de assuntos especiais ou departamentos, tais como, Recursos Humanos, Logística, Produção e Vendas,
por exemplo, representam uma fatia dos dados disponíveis no repositório de dados. A vantagem está em termos
uma performance mais elevada na obtenção dos dados, pois, o repositório está organizado por áreas em que os
dados possuem relações de interesse comum.
O data mart permite que possamos fracionar porções especializadas do banco de dados do data warehouse,
contribuindo para extração mais rápida de dados a serem analisados. Ao dividir o data warehouse em conjuntos
de dados menores, podemos estabelecer políticas de acesso e compartilhamento dos dados por departamento e
usuário. Tais recursos serão muito interessantes quando existem vários níveis de alçada para visualização destes
dados. As chamadas visões departamentais, podem emergir de segregações de dados, tal como um data mart.
Em uma visão mais ampla, o data warehouse atende a demanda de toda a empresa, enquanto o data mart a
demanda departamental. Por considerar que para modelagem do data mart possa exigir dados de outros
departamentos, o data warehouse é gerado primeiro, permitindo que na modelagem do data mart agregações de
dados especificas possam ser disponibilizadas. Por exemplo, para área de materiais poder dimensionar melhor suas
áreas de armazenamento, será preciso informações de saldos de estoque de matéria prima (visão do data mart de
Logística) e de volumes de produção de produto acabado (visão do data mart de Produção). O cruzamento de
múltiplos data mart podem dar origem a um novo data mart, bem como, um data warehouse pode ser fonte de
informações para carga de dados de outros data warehouse.

A análise dos dados a partir do deposito de dados de um data warehouse ou data mart, pode ser realizada, por
exemplo utilizando se uma ferramenta OLAP – Online Analytical Processing, tal como um software de BI. O uso
de ferramentas especializadas para análise, permite que as análises que dão suporte a decisão sejam realizadas de
forma rápida e muito amigável.

Você também pode gostar