Inteligencia Artificial PDF
Inteligencia Artificial PDF
Inteligencia Artificial PDF
Zacapoaxtla Documento
La constante evolución del ser humano en ciencia y tecnología siempre buscado desarrollar
herramientas tecnológicas que ayuden a mejorar el trabajo o su calidad de vida, una de esas
tecnologías es la simulación de la inteligencia del ser humano, con el objetivo de emular y
potencializar el conocimiento humano. Con la idea de crear instrumentos que realizan
funciones similares a las nuestras, aparentando tener inteligencia propia. Inteligencia que
se desarrolla en varios aspectos y que se denomina Inteligencia Artificial.
Los primeros pasos de la inteligencia artificial IA los realizó Aristóteles (384-322 a.C),
cuando se dispuso a explicar y codificar ciertos estilos de razonamiento deductivo llamados
silogismos. Después sería Ramón Llull (d.C. 1235-1316), místico y poeta catalán, quien
construyó un conjunto de ruedas llamado Ars Magna, el cual se suponía iba a ser una
máquina capaz de responder todas las preguntas.
Campus
Zacapoaxtla Documento
Por su parte, Martin Gardner [Gardner 1982] atribuye a Gottfried Leibniz (1646-1716) el
sueño de “ un álgebra universal por el cual todos los conocimientos, incluyendo las verdades
morales y metafísicas, pueden algún día ser interpuestos dentro de un sistema deductivo
único”. Sin embargo, no existió un progreso sustancial hasta que George Boole [Boole 1854]
comenzó a desarrollar los fundamentos de la lógica proposicional.
Uno de los precursores también de la inteligencia artificial es el matemático Alan Turing,
que es considerado como el padre de la computación. Este científico inglés es más conocido
por su máquina de Turing: una máquina conceptual que utilizó para formalizar los
conceptos del modelo computacional que seguimos utilizando hoy día.
En 1950 Turing publicó un artículo llamado Computing machinery and intelligence donde
argumentaba que si una máquina puede actuar como un humano, entonces podremos
decir que es inteligente. En el artículo proponía una prueba, llamada Test de Turing, que
permitiría afirmar si una máquina es o no inteligente. Para llegar a esa conclusión, un ser
humano se comunicaría a través de un terminal informático con una entidad que se hallaría
en una habitación contigua. Esta entidad podría ser un humano o una máquina inteligente.
Si tras una conversación la persona no es capaz de distinguir si lo que hay en la otra
habitación es un humano o una máquina, entonces, en caso de ser una máquina, la
podemos considerar inteligente.
En mayo 11 de 1997, un programa de IBM llamado Deep Blue derrotó al actual campeón
mundial de ajedrez, Garry Kasparov. Por otra parte, Larry Roberts desarrolló uno de los
primeros programas de análisis de escena [Roberts 1963]. Este trabajo fue seguido por una
amplia labor de máquinas de visión (visión artifi cial) [Nalga 1993]. Otros proyectos que se
pueden mencionar son CYC [Goha and Lenat 1990, Lenat y Goha 1990, Lenat 1995], una de
cuyas metas era recolectar e interpretar gran cantidad de información para su
conocimiento. Aunque el interés en las redes neurales se estancó un poco después de los
trabajos pioneros de Frank Rosenblatt en los últimos años de la década de 1950, se reanudó
con energía en los años ochenta. En la actualidad hay distintas aplicaciones con la IA.
Inteligencia Articial.
La inteligencia artificial es amplia como concepto por lo que la siguiente figura muestra de
manera gráfica
Todos estos elementos del árbol de inteligencia artificial pueden ser evaluados por el test
de Turing, que con el paso de los años permite verificar las capacidades una máquina
inteligente cuyo conjunto confirma, lo que es la inteligencia artificial el día de hoy día.
Haciendo que una máquina que sea capaz de pasar el Test de Turing debe contar con las
siguientes capacidades.
• Visión.
• Robótica
Machin Learning
Los algoritmos de Machine Learning se dividen en tres categorías, siendo las dos primeras
las más comunes:
• Arboles de Decisión
• Regresión Lineal
• Agrupamiento (Clustering)
• Detección de anomalias
• Regresión Logística
• k Nearest Neighbor
• PCA / Principal Component Analysis
• SVM
• Gaussian Naive Bayes
• K-Means
• Redes Neuronales Artificiales
• Aprendizaje Profundo ó Deep Learning
• Clasificación de imágenes.
• Recomendaciones:
• Vehículos inteligentes
• Redes sociales
• Procesamiento de Lenguaje Natural (PLN)
• Búsquedas
• Medicina
• Ciberseguridad
Regresión Lineal
La regresión lineal es una técnica que genera a partir de pares de valores numéricos
llamados “ejemplo de entrenamiento”, una función de hipótesis de la forma:
ℎ = 𝑎$ + 𝑎& ∗ 𝑥&
Escoger valores iniciales de los parámetros es decir encontrar valores para 𝑎$ , 𝑎&
Recalcular los parámetros al minimizar una función de pérdida y que representa la precisión
de la hipótesis.
Campus
Zacapoaxtla Documento
Sustituir los parámetros nuevos en la hipótesis.
Repetir dos y tres hasta que el valor de los parámetros deje de cambiar.
En la hipótesis, la variable de entrada “X” debe ser una característica útil para predecir la
variable de salida “Y”
Ejemplificación.
X Y
Característica Salida
1 2.1
2.5 5
3 6.1
6 11.9
6.2 12.3
7 14
1 5
𝐸= . (ℎ0 − 𝑦0 )4
2𝑚 06&
Después debemos realizar la sustitución en cada uno de los términos y realizar la sumatoria
y al final dividir entre 2m.
𝜕𝐸
𝑎7 = 𝑎7 − 𝛼
𝜕𝑎7
X Y H=2x
Característica Salida
Campus
Zacapoaxtla Documento
1 2.1 2
2.5 5 5
3 6.1 6
6 11.9 12
6.2 12.3 12.4
7 14 14
Siguiendo con los datos anteriores supongamos que la columna x representa la publicidad
de años anteriores de una empresa y la columna Y son las unidades de automóviles vendidas
por la misma empresa, para calcular las ventas de un nuevo modelo de choche, tomando
en cuenta la inversión en publicidad.
Para lo cual signa valores iniciales a los parámetros proporcionando valores de la hipótesis,
recalcula los parámetros con las fórmulas de descenso de gradiente, después sustituye los
nuevos valores en la hipótesis, se repite el procedimiento hasta que los parámetros dejen
de cambiar. Encontrar los parámetros que mejor ajustan la función hipótesis al conjunto de
entrenamiento para predecir variables de salida desconocida.
Regresión logística.
La regresión logística genera una hipótesis que clasifica un conjunto de datos en dos
etiquetas llamadas positivas o negativas a partir de una característica numérica.
Para este modelo se emplea la función logística que tiene la siguiente fórmula:
1
ℎ=
1+ 𝑒 ?(<@ A<B CB A<D CD )
Donde x1 y x2 son características útiles para clasificar ejemplos de entrenamiento tomando
en cuenta que puede haber una o más características y e el número de Euler. El ejemplo de
entrenamiento corresponde a la clase:
+: 0.5 ≤ ℎ ≤ 1
𝑒𝑡𝑖𝑞𝑢𝑒𝑡𝑎 = I
−: 0 ≤ ℎ < 0.5
Mostrando que del lado derecho se le considera a la clase positiva y el lado izquierdo
negativa.
Naive Bayes
Es una técnica que clasifica un conjunto de datos en dos o más etiquetas o clases
predefinidas, para ello utiliza la siguiente fórmula:
5
X subíndice j son las características para determinar si un ejemplo pertenece a una clase, el
subíndice j es el número de la característica, h es la clase calculada por el algoritmo para
determinado ejemplo.
𝑃(𝑦0 ) probabilidad a priori indica la probabilidad a los datos de pertenecer a la clase “y”
MAP es el criterio que evalúa el cálculo para asignar una clase al ejemplo, las probabilidades
son decimales entre 0 y 1.
Por ejemplo:
P(IG)=600/1000=.6
Nota que la suma de la suma de las probabilidades a priori es igual a uno es decir la suma
de las dos probabilidades.
Tomando en consideración los datos anteriores, si al hospital llega un nuevo paciente los
siguientes síntomas:
Fiebre(F)= Si
Campus
Zacapoaxtla Documento
Falta de apetito(A)=No
Dolor estomacal(DE)=Si
Dolor de garganta(DG)=Si
P(IE|F,-A,DE,DG)= P(IE)*(F|IE)*P(-A|IE)*P(DE|IE)*P(DG|IE)=
.4*.6*.2*.9*.1= 0.00432
P(IG|F,-A,DE,DG)= P(IG)*(F|IG)*P(-A|IG)*P(DE|IG)*P(DG|IG)=
0.6*0.5*0.7*0.1*0.8=0.0168
El criterio máximum a posteriori, compara las probabilidades del paciente de tener cada
una de las enfermedades.
Encuentra la clase más probable de los datos al utilizar el algoritmo de Naive Bayes.
Árboles de decisión
CART es uno de los algoritmos para construir árboles de decisión. Y consiste en:
Se toman del conjunto de entrenamiento los atributos color y diámetro. Para calcular la
impureza se utiliza la siguiente fórmula:
𝐼 = 1 − . 𝑃(𝑖)∧4
06&
Por ejemplo, a partir de la características “X2” ¿El diámetro es mayo o igual que 3?
X1 X2 Y
Color Diámetro Cuerpo
Verde 3 Estrella
Amarillo 3 Estrella
Amarillo 3 Planeta
X1 X2 Y
Color Diámetro Cuerpo
Rojo 1 Meteorito
Rojo 1 Meteorito
Campus
Zacapoaxtla Documento
No D>=3 Si
Estrella
Meteorito
Estrella
Meteorito
Planeta
𝐺 = 𝐼Z?& − 𝐼7
Promedio=(3/5)*.44 +(2/5)*0=.266
Pregunta G
D>=3 0.64-0.266=0.37
En el algoritmo, se debe probar con varias preguntas y elegir la que proporcione la mayor
ganancia de información para representar un nodo.
Posterior mente el proceso debe repetirse con cada nodo hijo, el algoritmo se detiene hasta
etiquetar todos los ejemplos de entrenamiento.
Clustering Jerárquico.
El clustering jerárquico es una técnica para agrupar datos al encontrar similitudes entre ellos
cuando no se conocen el número de categorías en que se dividen, el agrupamiento
jerárquico cuenta con dos enfoques:
Divisivo: Al inicio considera todo el conjunto como un solo grupo, se encarga de separar los
elementos desemejantes en otros grupos.
Campus
Zacapoaxtla Documento
(1,1)
(-1,2)
Los valores absolutos se obtienen al sumar las diferencias sin signo de las coordenadas, las
distancias entre grupos pueden calcularse con enfoques:
Single linkage: Se obtiene la distancia entre los dos elementos más cercanos del grupo
Complete linkage: Se obtiene la distancia entre los elementos más lejanos del grupo.
Se toman como atributos las distancias en los ejes 𝑥& y 𝑥4 se construye la matriz de
proximidad con las distancias entre cada persona y todas las demáS.
Para desarrollar el algoritmo con este ejemplo: considera cada elemento como un grupo,
calcula la matriz de proximidad entre grupos, combina las dos grupos mas cercanos,
actualiza la matriz de proximidad, repite 3 y 4 hasta que todos los datos se agrupan en solo
una categoría, apartir de la técnica de clustering jerárquico, un especialista puede decidir
la cantidad de grupos en que debe dividir los datos de acuerdo a las necesidades de la
aplicación.
K means
La media es el valor obtenido al sumar todos los elementos y dividirlo entre el total de
elementos. Se obtienen con la siguiente formula:
5
1
𝑐 = . 𝑦0
𝑚
06&
Campus
Zacapoaxtla Documento
Donde m es la cantidad de elementos del grupo Y subíndice son las coordenadas de los
elementos del grupo, la distancia euclidiana es la más corta entre dos puntos del plano. Su
formula es:
Por ejemplo, para obtener la media de estos tres puntos, se suman las coordenadas x1 y se
dividen en tres, después se suman las coordenadas x2 y se dividen entre tres.
Para encontrar la media más cercana se calcula la distancia entre los puntos y cada una de
las medias en la formula:
`
𝑐50` = . 𝑑(𝐶X , 𝑦7 )
76&
Ck representa a cada una de las medias y yj representa a cada uno de los puntos del
conjunto.
Por ejemplo: en el siguiente conjunto las distancias euclidianas a las medias c1 yc2 son:
Mezclas Gaussianas.
Es un modelo que separa un conjunto de datos en una cantida conocida de grupos cuyos
elementos se mezclan, el modelo asume que los datos pueden agruparse en dos o mas
subconjuntos cuyos elementos conforman una distribución de Gauss, esta distribución
tienen la siguiente forma :
Donde N es el número de elementos del conjunto de datos x subíndice i es cada uno de esos
datos. Por ejemplo del siguiente conjunto de datos de 16 elementos la media es igual a 6.
A su vez, cada grupo tiene una probabilidad de representar los datos, por lo cual hay que
hallar este peso
Evalúa el primer elemento del conjunto en la ecuación, para ello sustituye los parámetros
del primer grupo para calcular el numerador.
Calcula también este valor para el segundo grupo y súmalo con el primero para calcular el
denominador.
Repite el cálculo, pero evaluando el segundo grupo en el numerador, elige el mayor valor
de W, el dato se asigna al grupo que entregó el mayor valor de esta variable.
Repite los pasos 2,3 y 4 para el resto de los elementos del conjunto.
Estos cinco pasos se consideran una iteración del paso E del algoritmo.
Después los datos ya se han separado en grupos. Optimiza los parámetros al evaluar las
siguientes ecuaciones. Para actualizar el peso suma las valores de W de cada dato del
primer subgrupo divide el total entre la cantidad de elementos en ese subgrupo realiza lo
mismo para el segundo subgrupo.
Campus
Zacapoaxtla Documento
Para actualizar la media multiplica cada dato por cada w del sub grupo suma los resultados
divide entre la suma de los valores de w realiza lo mismo para ambos sub grupos.
• Actualiza las desviaciones estándar con la siguiente ecuación, resta del primer dato
la media del sub grupo
• eleva al cuadrado multiplica por el valor w del dato
• repite uno dos y tres para el resto de lo datos y valores de w del sub grupo
• Suma los resultados
• Divide el numerador entre la suma de los valores de W
• Realiza lo mismo para ambos grupos
Recuerda que el algoritmo termina hasta que los parámetros dejen de cambiar.
El límite de la Internet de las cosas es que puede aprender de sí mismo y, por lo tanto,
adaptar su aplicación. Integrada con objetos conectados, la Inteligencia Artificial les
permitirá tomar decisiones autónomas. Planea para el futuro, donde “los automóviles cerca
de un accidente reorientarán instantáneamente el tráfico ascendente, donde un dispositivo
que dispense medicamentos comprenderá las necesidades del paciente y ajustará la dosis
de un viajero asmático según su destino” y la tasa de contaminación que prevalece
Campus
Zacapoaxtla Documento
Referencias bibliográficas.
UNA MIRADA AL FUTURO - Inteligencia artificial, abundancia, empleo y sociedad. Por ORBE,
Antonio, 2017, Alfaomega, Altaria.