Introduccion Analitica de Datos

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 10

ANALÍTICA DE DATOS

Este concepto ha tomado fuerza en los últimos tiempos, debido a su importancia en la


aplicabilidad empresarial, puesto que es la ciencia que examina los datos en bruto, con el
firme propósito de obtener conclusiones acerca de la información que se puede obtener de
los mismos, analizar los datos de forma detallada y organizada, permite la toma de decisiones
asertivas ya que permite una mejor visualización y segmentación de la información acorde a
las necesidades y finalidades.

PROCESO

Algunos términos que han tomado protagonismo al respecto son:

● BIG DATA

Definición.

“Big Data es un término que describe el gran volumen de datos, tanto estructurados
como no estructurados, que inundan los negocios cada día. Pero no es la cantidad de
datos lo que es importante. Lo que importa con el Big Data es lo que las
organizaciones hacen con los datos. Big Data se puede analizar para obtener ideas
que conduzcan a mejores decisiones y movimientos de negocios estratégicos.
Es el conjuntos de datos o combinaciones de conjuntos de datos cuyo tamaño
(volumen), complejidad (variabilidad) y velocidad de crecimiento (velocidad) dificultan
su captura, gestión, procesamiento o análisis mediante tecnologías y herramientas
convencionales, tales como bases de datos relacionales y estadísticas
convencionales o paquetes de visualización, dentro del tiempo necesario para que
sean útiles.

Aunque el tamaño utilizado para determinar si un conjunto de datos determinado se


considera Big Data no está firmemente definido y sigue cambiando con el tiempo, la
mayoría de los analistas y profesionales actualmente se refieren a conjuntos de datos
que van desde 30-50 Terabytes a varios Petabytes.

La naturaleza compleja del Big Data se debe principalmente a la naturaleza no


estructurada de gran parte de los datos generados por las tecnologías modernas,
como los web logs, la identificación por radiofrecuencia (RFID), los sensores
incorporados en dispositivos, la maquinaria, los vehículos, las búsquedas en Internet,
las redes sociales como Facebook, computadoras portátiles, teléfonos inteligentes y
otros teléfonos móviles, dispositivos GPS y registros de centros de llamadas.

En la mayoría de los casos, con el fin de utilizar eficazmente el Big Data, debe
combinarse con datos estructurados (normalmente de una base de datos relacional)
de una aplicación comercial más convencional, como un ERP (Enterprise Resource
Planning) o un CRM (Customer Relationship Management).”
Fuente: https://www.powerdata.es/big-data

Propiedades del Big Data.

- Proporciona respuestas a gran diversidad de preguntas.


- Facilita el manejo de información al permitir la segmentación de datos.
- Adecuación de la información según la necesidad de búsqueda
- Identificación de problemas de una forma más comprensible.
- Permite tomar decisiones de forma rápida y eficaz.
- Deja ver las áreas problemáticas de una empresa, antes de que acaben con
sus beneficios o reputación.
- Aprovechamiento de datos para identificar nuevas oportunidades
- Reducción de costos.
- Creación de nuevos productos o servicios que permitan la satisfacción del
cliente.

Algunos ejemplos de Big Data según el sector empresarial.

“Turismo: mantener felices a los clientes es clave para la industria del turismo, pero
la satisfacción del cliente puede ser difícil de medir, especialmente en el momento
oportuno. Resorts y casinos, por ejemplo, sólo tienen una pequeña oportunidad de dar
la vuelta a una mala experiencia de cliente. El análisis de Big data ofrece a estas
empresas la capacidad de recopilar datos de los clientes, aplicar análisis e identificar
inmediatamente posibles problemas antes de que sea demasiado tarde.

Cuidado de la salud: el Big Data aparece en grandes cantidades en la industria


sanitaria. Los registros de pacientes, planes de salud, información de seguros y otros
tipos de información pueden ser difíciles de manejar, pero están llenos de información
clave una vez que se aplican las analíticas. Es por eso que la tecnología de análisis
de datos es tan importante para el cuidado de la salud. Al analizar grandes cantidades
de información - tanto estructurada como no estructurada - rápidamente, se pueden
proporcionar diagnósticos u opciones de tratamiento casi de inmediato.

Administración: la administración se encuentra ante un gran desafío: mantener la


calidad y la productividad con unos presupuestos ajustados. Esto es particularmente
problemático con lo relacionado con la justicia. La tecnología agiliza las operaciones
mientras que da a la administración una visión más holística de la actividad.

Retail: El servicio al cliente ha evolucionado en los últimos años, ya que los


compradores más inteligentes esperan que los minoristas comprendan exactamente
lo que necesitan, cuando lo necesitan. El Big Data ayuda a los minoristas a satisfacer
esas demandas. Armados con cantidades interminables de datos de programas de
fidelización de clientes, hábitos de compra y otras fuentes, los minoristas no sólo
tienen una comprensión profunda de sus clientes, sino que también pueden predecir
tendencias, recomendar nuevos productos y aumentar la rentabilidad.
Empresas manufactureras: Estas despliegan sensores en sus productos para recibir
datos de telemetría. A veces esto se utiliza para ofrecer servicios de comunicaciones,
seguridad y navegación. Ésta telemetría también revela patrones de uso, tasas de
fracaso y otras oportunidades de mejora de productos que pueden reducir los costos
de desarrollo y montaje.

Publicidad: La proliferación de teléfonos inteligentes y otros dispositivos GPS ofrece


a los anunciantes la oportunidad de dirigirse a los consumidores cuando están cerca
de una tienda, una cafetería o un restaurante. Esto abre nuevos ingresos para los
proveedores de servicios y ofrece a muchas empresas la oportunidad de conseguir
nuevos prospectos.

Otros ejemplos del uso efectivo de Big Data existen en las siguientes áreas:

- Uso de registros de logs de TI para mejorar la resolución de problemas de TI,


así como la detección de infracciones de seguridad, velocidad, eficacia y
prevención de sucesos futuros.
- Uso de la voluminosa información histórica de un Call Center de forma rápida,
con el fin de mejorar la interacción con el cliente y aumentar su satisfacción.
- Uso de contenido de medios sociales para mejorar y comprender más
rápidamente el sentimiento del cliente y mejorar los productos, los servicios y
la interacción con el cliente.
- Detección y prevención de fraudes en cualquier industria que procese
transacciones financieras online, tales como compras, actividades bancarias,
inversiones, seguros y atención médica.
- Uso de información de transacciones de mercados financieros para evaluar
más rápidamente el riesgo y tomar medidas correctivas.”
Fuente: https://www.powerdata.es/big-data

Desafíos del Big Data.

“Las especiales características del Big Data hacen que su calidad de datos se enfrente
a múltiples desafíos. Se trata de las conocidas como 5 Vs: Volumen, Velocidad,
Variedad, Veracidad y Valor, que definen la problemática del Big Data.
Fuente: www.pragma.com.co

Estas 5 características del big data provocan que las empresas tengan problemas
para extraer datos reales y de alta calidad, de conjuntos de datos tan masivos,
cambiantes y complicados.

Hasta la llegada del Big Data, mediante ETL podíamos cargar la información
estructurada que teníamos almacenada en nuestro sistema ERP y CRM, por ejemplo.
Pero ahora, podemos cargar información adicional que ya no se encuentra dentro de
los dominios de la empresa: comentarios o likes en redes sociales, resultados de
campañas de marketing, datos estadísticos de terceros, etc. Todos estos datos nos
ofrecen información que nos ayuda a saber si nuestros productos o servicios están
funcionando bien o por el contrario están teniendo problemas.”
Fuente: https://www.powerdata.es/big-data

Con base en lo anterior sobresalen los siguientes desafíos del Big Data:

- Gran cantidad de tipos de datos y fuentes pueden dificultar la integración de la


información recopilada.
- Volumen exagerado de datos que puede limitar la calidad en el proceso de los
mismos en tiempos razonables.
- Cambios constantes de la información, debido a que estos son volátiles y la
validez de la misma puede ser corta, esto quiere decir que si no se emplea la
recolección, segmentación y administración de datos en tiempos coherentes,
las conclusiones arrojadas no serán tan asertivas y conllevarán a la toma de
decisiones probablemente erradas.

No existen estándares de calidad en la unificación de datos, esto debido a que aún se


encuentra en proceso, solo se cuenta con las normas de calidad de datos ISO 8000
la cual aún está en proceso de maduración.

● DATA MINING

También conocido como minería de datos es el proceso de clasificar gran cantidad de


información o conjuntos de datos, se emplea con el fin de lograr patrones y establecer
relaciones que permitan solucionar problemas por medio del análisis adecuado de
datos. Con el Data Mining las empresas logran predecir tendencias que conllevan a
mejores decisiones, es de allí que surge el interés empresarial por esta herramienta.

Etapas del Data Mining.

1. Definición de objetivos: el proceso inicia comprendiendo el problema


comercial de la empresa, los expertos en Data Mining definen los objetivos del
proyecto y sus requisitos, en pocas palabras la definición del problema, esta
es la fase inicial.

2. Exploración de datos: en esta etapa los expertos recopilan, compilan y


exploran los datos, además de validar la calidad de los datos, es el momento
en el cual comparten ideas e intercambian información.

3. Organización de los datos: Se crea un modelo de datos para la modelación


de los mismos, se recopila y adecua la información, debido a que puede
generar en el manejo de datos un formato determinado. En esta etapa se
modifican los datos las veces que sean necesarias y se preparan para la
herramienta de modelado mediante la selección de tablas, registros y atributos.
Los expertos en Data Mining seleccionan y aplican varias funciones de minería
para el mismo tipo de problema.
4. Modelado y evaluación: estas fases están acopladas entre sí, puesto que
ambas se deben alinear hacia el cumplimiento del alcance de los valores
óptimos, para ello ambas pueden cambiar constantemente. Se puede decir
que cuando se logra la etapa de modelado se ha cumplido con el modelo de
alta calidad y cuando se logra la etapa de la evaluación se entra a la respuesta
de preguntas como ¿el modelo empleado logra el objetivo comercial?, ¿se
contemplan todos los problemas del negocio?, entre otros.

5. Desarrollo: se llevan los resultados a las bases de datos o la aplicación que


se considere pertinente.

https://unayta.es/data-mining-big-data

● HERRAMIENTAS ANALITICA DE DATOS

Son muchas las herramientas que se han ido generando a medida de que la analítica
de datos ha tomado fuerza por su aplicabilidad y ayuda en las empresas, algunas de
las más destacadas son:

Microsoft Power BI: “herramienta analítica de Microsoft y una de las más populares,
ya que ofrece visualizaciones interactivas de datos, así como una integración sencilla
con otras herramientas de la corporación. Además, Power BI puede integrarse en
aplicaciones de terceros mediante Power BI Embedded y permite compartir reportes
y análisis de datos de forma muy segura. Puede conectarse con más de 60 fuentes
de datos, como Spark, Hadoop o SAP y es fácil de utilizar incluso para usuarios sin
conocimientos técnicos.

Bismart es partner Power BI de Microsoft y llevamos años trabajando con esta


herramienta para conseguir aportar las mejores soluciones a nuestros clientes.”
Fuente: https://blog.bismart.com/es/9-mejores-herramientas-analisis-datos

Programación en R: es considerada como una de las mejores herramientas


analiticas de la industria, se emplea principalmente para el modelado de datos y
estadísticas. Esta es una herramienta fácil de usar que permite manipular y presentar
datos de formas variadas. podría decirse que supera otras herramientas con respecto
al rendimiento, capacidad de datos y resultados obtenidos de la información
recopilada. Otro de sus atributos es el funcionamiento en diversas plataformas
incluyendo MacOS, Windows UNIX, entre otros. Tiene más de 11.000 paquetes y se
clasifican por categoría y se instalan automáticamente.

SAS: también considerada una de las herramientas líderes en la analítica de datos,


ya que es un lenguaje de programación que permite manipular los datos fácilmente,
siendo manejable y con la capacidad de analizar los datos independientemente de sus
fuentes. Incluye redes sociales, web, análisis de marketing; esta herramienta es
empleada además para hacer perfiles de fieles y posibles clientes, y predecir el
comportamiento de los mismos además de optimizar la comunicación con ellos.

Python: “Se trata de una herramienta de open source y un lenguaje de scripts


orientado a los objetos y muy fácil de mantener, leer y escribir. Python fue desarrollado
a finales de los 80 por Guido van Rossum para soportar tanto métodos de
programación estructurados como funcionales. Aprender a usar esta herramienta es
muy fácil y tiene muchas similitudes con otros lenguajes como Ruby, JavaScript y
PHP. Tiene bibliotecas para el aprendizaje automático y puede usarse en plataformas
como JSON, base de datos MongoDB, servidor SQL.”
Fuente: https://blog.bismart.com/es/9-mejores-herramientas-analisis-datos

Excel: una de las herramientas más populares en las empresas, se puede decir que
su uso es fundamental en el trabajo diario de las organizaciones de diferentes sectores
del mercado, lo cual se dá por su versatilidad, porque juega un papel muy importante
en el análisis de datos internos de los clientes. Si bien, es una herramienta básica, su
opción avanzada de business analytic con sus diferentes opciones permiten que la
herramienta pueda realizar importantes modelados de datos.

Tableau Public: “es un software gratuito que conecta diferentes fuentes de datos,
como Microsoft Excel, Data Warehouse, datos basados en la web, etc. y crea
dashboards, mapas y visualizaciones que tienen actualizaciones en tiempo real desde
la web. También puedes compartirlos con un cliente o a través de los medios sociales.
Una vez que tienes acceso, puedes descargar diferentes formatos para un archivo.
Para disfrutar típicamente de esta herramienta y ver su poder, tu fuente de datos debe
ser muy buena. La capacidad de Big Data de esta herramienta la hace importante y el
hecho de que puedas analizar y visualizar los datos mucho mejor que otros programas
de visualización de datos les da una ventaja.”
Fuente: https://blog.bismart.com/es/9-mejores-herramientas-analisis-datos

Rapid Miner: “Esta es una potente herramienta para el data science integrado. Fue
desarrollada por una compañía que también realiza análisis predictivos y algunos
análisis más avanzados como machine learning, análisis de texto, análisis visual y
minería de datos sin necesidad de programación. Esta herramienta puede
incorporarse a cualquier tipo de fuente de datos, incluyendo Excel, Oracle, IBM SPSS,
Teradata, Access, Microsoft SQL, Dbase, Sybase, etc. Esta herramienta es capaz de
generar análisis tomando como base los ajustes de transformación de los datos de la
vida real, lo que significa que puede controlar los conjuntos de datos y los formatos
para el análisis predictivo.”
Fuente: https://blog.bismart.com/es/9-mejores-herramientas-analisis-datos

Apache Spark: “esta herramienta es un motor de procesamiento de datos que


funciona a gran escala y puede ejecutar aplicaciones que ya están en clusters Hadoop
más rápido (hasta 10 veces) en disco y hasta 100 veces más rápido si está en
memoria. El concepto de esta herramienta hace que la ciencia de los datos (en la que
se basa) sea muy fácil. Es una herramienta muy popular para el desarrollo de modelos
de aprendizaje de máquinas y pipelines de datos. También tiene una biblioteca
llamada MLib, de donde se pueden obtener técnicas para data science repetitivo como
el filtrado de colaboración, regresión, clasificación, etc. a partir de un conjunto
avanzado de algoritmos.
Fuente: https://blog.bismart.com/es/9-mejores-herramientas-analisis-datos

Qlik View: “tiene una serie de características únicas, algunas de las cuales son el
procesamiento de datos en memoria y la tecnología patentada para ayudarle a
ejecutar su resultado rápidamente y almacenar todos los datos que están presentes
en el informe. Esta herramienta mantiene automáticamente la asociación de datos y
puede comprimirlos a sólo el 10% del tamaño inicial. Visualiza la relación de los datos
con los colores, con un color dado a los datos relacionados y otro a los datos no
relacionados.
Fuente: https://blog.bismart.com/es/9-mejores-herramientas-analisis-datos

El uso de todas estas herramientas conlleva al manejo de datos y se emplean para la


optimización de los mismos, sus funciones son diferentes igual que sus capacidades
y características, es por ello que se debe conocer la funcionalidad de cada una para
que su aplicación pueda suplir las necesidades de la empresa.

Video recomendado.

Autor: ComputerHoy.com

Titulo: ¿Qué es Data Mining?

URL: URL: https://www.youtube.com/watch?v=ueAaIEr0PY4

CIBERGRAFÍA

● https://www.powerdata.es/big-data
● www.pragma.com
● https://www.master-data-scientist.com/que-es-data-mining/

También podría gustarte