Monografia John Ortiz
Monografia John Ortiz
Monografia John Ortiz
eventos. Por ejemplo, puede anticipar cuando las transacciones con tarjetas de crdito pudieran ser
fraudulentas o cual cliente de una compaa de seguros pudiera realizar una demanda o reclamo.
En el aprendizaje supervisado se reconocen dos tareas de aprendizaje, llamadas clasificacin
y regresin. La clasificacin se trata de la construccin de modelos predictivos para funciones con
rango discreto, mientras que la regresin se trata de la construccin de modelos predictivos para
funciones con rango continuo.
Mtodos de aprendizaje supervisado ms comunes:
Aprendizaje de conceptos: Se le proveen ejemplos al sistema cognitivo que pertenecen
(ejemplos positivos) o no pertenecen (ejemplos negativos) en un concepto (clase). Luego, se llama
al sistema para producir una descripcin generalizada del concepto para decidir en futuros casos
basados en esta descripcin.
Clasificacin o rbol de decisin de induccin (Decision Tree Induction). Los mtodos de
Clasificacin son muy populares y se utilizan para la aproximacin de funciones objetivo discretas.
Estos mtodos construyen estructuras de rbol que representan grficamente los datos de
entrenamiento. La principal ventaja de los rboles de decisin es que se interpretan fcilmente.
Los rboles de decisin tambin pueden ser representados como reglas de la forma "si-entonces".
Aprendizaje bayesiano. Este tipo de aprendizaje se basa en el teorema de Bayes e incluye
mtodos que utilizan las probabilidades y estadistica. Si se tiene conocimiento previo, ste puede
ser incorporado en forma de probabilidades iniciales.
Regresin lineal. La regresin lineal es un mtodo para la descripcin de una funcin objetivo
con una combinacin lineal de una serie de otras variables. El rango de la funcin objetivo debe
ser un intervalo continuo.
Redes neuronales: Genricamente, son mtodos de proceso numrico en paralelo, en el que
las variables interactan mediante transformaciones lineales o no lineales, hasta obtener unas
salidas. Estas salidas se contrastan con los que tenan que haber salido, basndose en unos datos
de prueba, dando lugar a un proceso de retroalimentacin mediante el cual la red se reconfigura,
hasta obtener un modelo adecuado.
Algoritmos genticos: Son mtodos numricos de optimizacin, en los que aquella variable o
variables que se pretenden optimizar junto con las variables de estudio constituyen un segmento
de informacin. Aquellas configuraciones de las variables de anlisis que obtengan mejores
valores para la variable de respuesta, correspondern a segmentos con mayor capacidad
reproductiva. A travs de la reproduccin, los mejores segmentos perduran y su proporcin crece
de generacin en generacin. Se puede adems introducir elementos aleatorios para la
modificacin de las variables (mutaciones). Al cabo de cierto nmero de iteraciones, la poblacin
estar constituida por buenas soluciones al problema de optimizacin, pues las malas soluciones
han ido descartndose, iteracin tras iteracin.
Aprendizaje No Supervisado
Este tipo de aprendizaje tambin se conoce como el aprendizaje a partir de la observacin. En
el aprendizaje no supervisado el sistema tiene que descubrir cualquier patrn (es decir,
asociaciones o clsteres) basadas nicamente en las propiedades comunes del ejemplo sin saber
cuntos o incluso si hay algn patrn. Los principales mtodos de aprendizaje de mquina no
supervisado son los siguientes:
Minera de secuencias. la minera de secuencias se refiere al aprendizaje a partir de datos
ordenados. El orden es generalmente temporal. Tiene tambin muchas contribuciones del rea de
investigacin de bases de datos y se ha propuesto como una extensin de minera de reglas de
asociacin.
Clustering o agrupacin. Clustering es el procedimiento de descubrimiento de grupos de
ejemplos, de manera que los ejemplos que pertenecen al mismo grupo sean tan similares como sea
posible, mientras que los ejemplos que pertenecen a grupos separados son tan diferentes como sea
posible.
Aplicaciones
Muchas de las actividades cotidianas involucran algoritmos de aprendizaje automtico,
incluyendo:
-
Deteccin de fraudes
una encuesta sobre el tema, encontrndose que los lenguajes de programacin R y Python son ms
usados para anlisis de grandes volmenes de datos. Los resultados de dicha encuesta se muestran
en la figura 2:
extensiones. Se pueden escribir cdigos en C, C++, Java, .NET o Python para manipular los
objetos de R directamente.
Python
Python es un lenguaje de programacin interpretado cuya filosofa hace hincapi en una
sintaxis que favorezca un cdigo legible. Python es un lenguaje de programacin multiparadigma,
es decir; soporta hacer programacin orientada a objetos y programacin imperativa. Su creador
fue Guido Van Rossum y debido a que es de cdigo libre la comunidad de desarrolladores ha
creado libreras o mdulos para hacer casi cualquier cosa.
En general la gente que hace anlisis de datos o estadstica conoce bien R Project, SAS o
SPSS. Pero pocos se han acercado a Python y sus libreras para anlisis de datos. Las ventajas
pueden ser cuestionables con respecto a software que especficamente fueron diseados con una
perspectiva estadstica, pero sin duda la potencia y calidad de libreras es muy buena.
Principalmente para hacer uso de algoritmos de Machine Learning las libreras en Python son
mejores que las de R, sobre todo las tcnicas de Deep Learning (3).
Quizs el mejor candidato para comparar el uso de Python en el anlisis de datos es R, por ser
software libre y ser actualmente de alta demanda y atraccin en la ciencia de datos. Sin embargo,
Python siendo realmente un lenguaje de programacin, no se limita a ser usado solamente para
analizar datos, sino bien puede ser parte de un sistema o para desarrollar un proyecto completo. ya
que soporta orientacin a objetos, programacin imperativa y, en menor medida, programacin
funcional.
Python fue diseado para ser ledo con facilidad. Una de sus caractersticas es el uso de
palabras donde otros lenguajes utilizaran smbolos.
Matlab
MATLAB (abreviatura de MATrix LABoratory, "laboratorio de matrices") es una
herramienta de software matemtico que ofrece un entorno de desarrollo integrado (IDE) con un
lenguaje de programacin propio (lenguaje M). Est disponible para las plataformas Unix,
Windows, Mac OS X y GNU/Linux. Entre sus prestaciones bsicas se hallan: la manipulacin de
Conclusiones
En resumen, el objetivo del machine learning (ML) es ensear a las mquinas el llevar a cabo
ciertas tareas ensendoles algunos ejemplos de cmo o cmo no llevar a cabo la tarea.
El aprendizaje de mquinas es un mtodo de anlisis de data que automatiza la construccin
de modelos analticos. ML le permite a las computadoras encontrar patrones ocultos, mediante el
uso de algoritmos que iterativamente aprenden de la data, sin estar programados explcitamente de
donde buscar.
El aspecto iterativo de ML es importante, dado que, a medida que los modelos se exponen a
nueva data, son capaces de adaptarse independientemente.
Debido a las nuevas tecnologas de computacin, ML hoy no es como el ML del pasado. As
como muchos algoritmos de ML han estado presentes desde hace mucho, la habilidad de aplicar
automticamente clculos matemticos complejos a grandes cantidades de informacin de manera
repetida y cada vez ms rpida, es un desarrollo reciente.
Un factor que ha impulsado el uso de ML es la construccin de modelos automticos en tiempo
real. Los humanos pueden crear tpicamente uno o dos buenos modelos en una semana, mientras
que el aprendizaje automtico puede crear miles de modelos en el mismo tiempo.
Referencias
1. Tzanis, George, y otros. Modern Applications of Machine Learning . University of
Thessaloniki, GR-54124 Thessaloniki, Greece : s.n.
2. KDNuggets. Languages for analytics/data mining. [En lnea] 2013. [Citado el: 25 de
Marzo de 2016.] http://www.kdnuggets.com/polls/2013/languages-analytics-data-mining-datascience.html.
3. Gorreta, Danielle. Algo sobre Python, anlisis de datos y machine learning. [En lnea]
[Citado el: 27 de Marzo de 2016.] https://dlegorreta.wordpress.com/2015/05/13/algo-sobrepython-analisis-de-datos-y-machine-learning/.