Inteligencia Artificial PDF

Campus
Zacapoaxtla Documento
Inteligencia Artificial para el Internet de las Cosas

Fundamentos Teóricos
La constante evolución del ser humano en ciencia y tecnología siempre buscado desarrollar
herramientas tecnológicas que ayuden a mejorar el trabajo o su calidad de vida, una de esas
tecnologías es la simulación de la inteligencia del ser humano, con el objetivo de emular y
potencializar el conocimiento humano. Con la idea de crear instrumentos que realizan
funciones similares a las nuestras, aparentando tener inteligencia propia. Inteligencia que
se desarrolla en varios aspectos y que se denomina Inteligencia Artificial.
El término de Inteligencia Artificial se haya acuñado en el siglo pasado cuando en 1961

Marvin Minsky hizo una conferencia que nomino “Hacia la inteligencia artificial” o “Steps
Toward Artificial Intelligence”.
Para poder definir la Inteligencia Artificial es conveniente saber primero que

entendemos por Inteligencia y a que nos referiremos con Artificial.
Sucede con frecuencia, que utilizamos de manera equivocada la palabra inteligencia,

creemos que es algo propio del ser humano, con “chispa” o “brillante” o “más listos” que
otros, pero estos calificativos corresponden al Cociente de Inteligencia o IQ y no a la
Inteligencia.La inteligencia es una facultad intrínseca del ser “humano” que está
representada en el cuerpo del ser, por una red cristalina de neuronas cuyo recorrido
representa la personalidad del individuo
La inteligencia en la “facultad de entender, de comprender” . Por lo que todos tenemos esta

facultad, aunque con diferentes tiempos haciendo evidente que todos somos capaces de
lograr lo que sea pero en diferentes tiempos. Haciendo notar la diferencia con el concepto
de coeficiente de inteligencia IQ (Intelligence Quotient) que representa “La velocidad de
respuesta acertada del individuo” , por lo tanto, la diferencia entre los seres humanos es la
velocidad de respuesta acertada en la solución de problemas., sin importar sexo, raza,
creencia, religión ni país.
Antecedentes de la inteligencia artificial
Los primeros pasos de la inteligencia artificial IA los realizó Aristóteles (384-322 a.C),
cuando se dispuso a explicar y codificar ciertos estilos de razonamiento deductivo llamados
silogismos. Después sería Ramón Llull (d.C. 1235-1316), místico y poeta catalán, quien
construyó un conjunto de ruedas llamado Ars Magna, el cual se suponía iba a ser una
máquina capaz de responder todas las preguntas.
Campus
Por su parte, Martin Gardner [Gardner 1982] atribuye a Gottfried Leibniz (1646-1716) el
sueño de “ un álgebra universal por el cual todos los conocimientos, incluyendo las verdades
morales y metafísicas, pueden algún día ser interpuestos dentro de un sistema deductivo
único”. Sin embargo, no existió un progreso sustancial hasta que George Boole [Boole 1854]
comenzó a desarrollar los fundamentos de la lógica proposicional.

Uno de los precursores también de la inteligencia artificial es el matemático Alan Turing,
que es considerado como el padre de la computación. Este científico inglés es más conocido
por su máquina de Turing: una máquina conceptual que utilizó para formalizar los
conceptos del modelo computacional que seguimos utilizando hoy día.
En 1950 Turing publicó un artículo llamado Computing machinery and intelligence donde
argumentaba que si una máquina puede actuar como un humano, entonces podremos
decir que es inteligente. En el artículo proponía una prueba, llamada Test de Turing, que
permitiría afirmar si una máquina es o no inteligente. Para llegar a esa conclusión, un ser
humano se comunicaría a través de un terminal informático con una entidad que se hallaría
en una habitación contigua. Esta entidad podría ser un humano o una máquina inteligente.
Si tras una conversación la persona no es capaz de distinguir si lo que hay en la otra
habitación es un humano o una máquina, entonces, en caso de ser una máquina, la
podemos considerar inteligente.
En 1958, John McCarthy, responsable de introducir el término “inteligencia artificial”,

propuso utilizar el cálculo proposicional como un idioma para representar y utilizar el
conocimiento en un sistema que denominó la “Advice Taker”. A este sistema se le tenía que
decir qué hacer en vez de ser programado. Una aplicación modesta pero influyente de estas
ideas fue realizada por Cordell Green en su sistema llamado QA3
En mayo 11 de 1997, un programa de IBM llamado Deep Blue derrotó al actual campeón
mundial de ajedrez, Garry Kasparov. Por otra parte, Larry Roberts desarrolló uno de los
primeros programas de análisis de escena [Roberts 1963]. Este trabajo fue seguido por una
amplia labor de máquinas de visión (visión artifi cial) [Nalga 1993]. Otros proyectos que se
pueden mencionar son CYC [Goha and Lenat 1990, Lenat y Goha 1990, Lenat 1995], una de
cuyas metas era recolectar e interpretar gran cantidad de información para su
conocimiento. Aunque el interés en las redes neurales se estancó un poco después de los
trabajos pioneros de Frank Rosenblatt en los últimos años de la década de 1950, se reanudó
con energía en los años ochenta. En la actualidad hay distintas aplicaciones con la IA.
Inteligencia Articial.
Para entender la inteligencia artificial encontramos diferentes definiciones, una de ellas es

la establecida por John McCarthy que establece que “es la ciencia e ingeniería de hacer
máquinas inteligentes, en especial programas computacionales inteligentes”,. Otra
definición que puede tomarse como un resumen es que: la Inteligencia Artificial es aquella
Campus
“inteligencia creada por el ser humano”. Tomando en cuenta que la la inteligencia es una
facultad intrínseca representada por una red cristalina de neuronas.
La inteligencia artificial es amplia como concepto por lo que la siguiente figura muestra de
manera gráfica
Árbol de la Inteligencia artificial.
Todos estos elementos del árbol de inteligencia artificial pueden ser evaluados por el test
de Turing, que con el paso de los años permite verificar las capacidades una máquina
inteligente cuyo conjunto confirma, lo que es la inteligencia artificial el día de hoy día.
Haciendo que una máquina que sea capaz de pasar el Test de Turing debe contar con las
siguientes capacidades.
• Reconocimiento del lenguaje natural.

• Razonamiento.
• Aprendizaje.
Campus
• Representación del conocimiento
Complementado el Test de Turing exite la prueba de Test de Turing Total en la que la

terminal informática que permite la comunicación dispone de cámara de vídeo e imagen,
por lo que la comunicación se produce como si fuera una videoconferencia. También se
permite el paso de objetos a través de una compuerta. Para pasar esta prueba, una máquina
ha de tener dos capacidades adicionales.
• Visión.
• Robótica
Machin Learning
El ‘machine learning’ –aprendizaje automático– es una rama de la inteligencia

artificial que permite que las máquinas aprendan sin ser expresamente programadas para
ello. Una habilidad indispensable para hacer sistemas, no solo inteligentes, sino autónomos,
y capaces de identificar patrones entre los datos para hacer predicciones. Esta tecnología
está hoy presente en un sinfín de aplicaciones como las recomendaciones de Netflix o
Spotify, las respuestas inteligentes de Gmail o el habla natural de Siri y Alexa.
Algoritmos de 'Machine Learning'
Los algoritmos de Machine Learning se dividen en tres categorías, siendo las dos primeras
las más comunes:
• Aprendizaje supervisado: estos algoritmos cuentan con un aprendizaje previo

basado en un sistema de etiquetas asociadas a unos datos que les permiten tomar
decisiones o hacer predicciones. Un ejemplo es un detector de spam que etiqueta
un e-mail como spam o no dependiendo de los patrones que ha aprendido del
histórico de correos (remitente, relación texto/imágenes, palabras clave en el
asunto, etc.).
• Aprendizaje no supervisado: estos algoritmos no cuentan con un conocimiento

previo. Se enfrentan al caos de datos con el objetivo de encontrar patrones que
permitan organizarlos de alguna manera. Por ejemplo, en el campo
del marketing se utilizan para extraer patrones de datos masivos provenientes de
las redes sociales y crear campañas de publicidad altamente segmentadas.
• Aprendizaje por refuerzo: su objetivo es que un algoritmo aprenda a partir de la

propia experiencia. Esto es, que sea capaz de tomar la mejor decisión ante
diferentes situaciones de acuerdo a un proceso de prueba y error en el que se
recompensan las decisiones correctas. En la actualidad se está utilizando para
Campus
posibilitar el reconocimiento facial, hacer diagnósticos médicos o clasificar
secuencias de ADN.
Algoritmos de más utilizados en Inteligencia Artificial
• Arboles de Decisión
• Regresión Lineal
• Agrupamiento (Clustering)
• Detección de anomalias
• Regresión Logística
• k Nearest Neighbor
• PCA / Principal Component Analysis
• SVM
• Gaussian Naive Bayes
• K-Means
• Redes Neuronales Artificiales
• Aprendizaje Profundo ó Deep Learning
• Clasificación de imágenes.
Aplicaciones del Maching Learning
• Recomendaciones:
• Vehículos inteligentes
• Redes sociales
• Procesamiento de Lenguaje Natural (PLN)
• Búsquedas
• Medicina
• Ciberseguridad
Regresión Lineal
La regresión lineal es una técnica que genera a partir de pares de valores numéricos
llamados “ejemplo de entrenamiento”, una función de hipótesis de la forma:
ℎ = 𝑎$ + 𝑎& ∗ 𝑥&
El algoritmo para encontrar la hipótesis que se ajusta a los datos consiste en :
Escoger valores iniciales de los parámetros es decir encontrar valores para 𝑎$ , 𝑎&
Recalcular los parámetros al minimizar una función de pérdida y que representa la precisión
de la hipótesis.
Campus
Sustituir los parámetros nuevos en la hipótesis.
Repetir dos y tres hasta que el valor de los parámetros deje de cambiar.
En la hipótesis, la variable de entrada “X” debe ser una característica útil para predecir la
variable de salida “Y”
Ejemplificación.
X Y
Característica Salida
1 2.1
2.5 5
3 6.1
6 11.9
6.2 12.3
7 14
Dados los siguientes datos, se define una función de pérdida.
1 5
𝐸= . (ℎ0 − 𝑦0 )4
2𝑚 06&
Donde el subíndice “i” indica el ejemplo de entrenamiento, h subíndice “i” es el valor de la

hipótesis para un valor de entrada determinado, “y” subíndice “i” es el valor real de salida
para el valor de entrada y m es la cantidad de ejemplos en el conjunto de entrenamiento.
Después debemos realizar la sustitución en cada uno de los términos y realizar la sumatoria
y al final dividir entre 2m.
Para minimizar la pérdida se utiliza el algoritmo de descenso de gradiente fundamentada

en la fórmula:
𝜕𝐸
𝑎7 = 𝑎7 − 𝛼
𝜕𝑎7
Donde 𝑎7 representa los parámetros de la hipótesis.

:;
:<=
es la rapidez de cambio de E con respecto al cambio de 𝑎7 . Es decir, la derivada
𝛼 Alfa es la tasa de aprendizaje y determina cuan rápido cambiarán los valores de los
parámetros, donde el valor se asigna de acuerdo con el problema específico así como la
experiencia en machine learning.
X Y H=2x
Característica Salida
Campus
1 2.1 2
2.5 5 5
3 6.1 6
6 11.9 12
6.2 12.3 12.4
7 14 14
Siguiendo con los datos anteriores supongamos que la columna x representa la publicidad
de años anteriores de una empresa y la columna Y son las unidades de automóviles vendidas
por la misma empresa, para calcular las ventas de un nuevo modelo de choche, tomando
en cuenta la inversión en publicidad.
Para lo cual signa valores iniciales a los parámetros proporcionando valores de la hipótesis,
recalcula los parámetros con las fórmulas de descenso de gradiente, después sustituye los
nuevos valores en la hipótesis, se repite el procedimiento hasta que los parámetros dejen
de cambiar. Encontrar los parámetros que mejor ajustan la función hipótesis al conjunto de
entrenamiento para predecir variables de salida desconocida.
Regresión logística.
La regresión logística genera una hipótesis que clasifica un conjunto de datos en dos
etiquetas llamadas positivas o negativas a partir de una característica numérica.
Para este modelo se emplea la función logística que tiene la siguiente fórmula:
1
ℎ=
1+ 𝑒 ?(<@ A<B CB A<D CD )
Donde x1 y x2 son características útiles para clasificar ejemplos de entrenamiento tomando
en cuenta que puede haber una o más características y e el número de Euler. El ejemplo de
entrenamiento corresponde a la clase:
Positivas si el valor de h es mayor o igual a 0.5 y menor o igual a 1, y negativa si h es mayor

o igual que 0 y menor que 0.5.
+: 0.5 ≤ ℎ ≤ 1
𝑒𝑡𝑖𝑞𝑢𝑒𝑡𝑎 = I
−: 0 ≤ ℎ < 0.5
El límite de decisión es el polinomio 𝑎$ + 𝑎& 𝑥& + 𝑎4 𝑥4 al graficarse, separa los ejemplos de

entrenamiento en las dos clases positiva y negativa.
Ejemplo.
𝑔 = 𝑎$ + 𝑎& 𝑥& + 𝑎4 𝑥4 0 = −5 + 1𝑥& + 1𝑥4

Campus
Quedando la función 𝑥& + 𝑥4 = 5 y la gráfica.
Mostrando que del lado derecho se le considera a la clase positiva y el lado izquierdo
negativa.
Para seleccionar los parámetros que mejor ajustan la hipótesis al conjunto de

entrenamiento se utiliza el algoritmo de descenso de gradiente, la formula de optimización
de parámetros es:
5
𝑎7 = 𝑎7 − 𝛼 . (ℎ0 − 𝑦0 ) ∗ 𝑥7
06&
Donde el subíndice i es el índice del ejemplo de entrenamiento j es el índice del parámetro

a ajustar, la función logística también puede ser utilizada en problemas predictivos, por
ejemplo en el modelo del crecimiento demográfico.
Naive Bayes
Es una técnica que clasifica un conjunto de datos en dos o más etiquetas o clases
predefinidas, para ello utiliza la siguiente fórmula:
5
ℎ = 𝑀𝐴𝑃(𝑃(𝑦0 ) T 𝑃(𝑥7 |𝑦0 ))

76&
Donde y subíndice i son las clases en que se encuentra un ejemplo de entrenamiento o

dato, por ejemplo si se quiere clasificar en tres clases distintas, el valor del subíndice de Y
tomarálos valores de 1,2,3 .
X subíndice j son las características para determinar si un ejemplo pertenece a una clase, el
subíndice j es el número de la característica, h es la clase calculada por el algoritmo para
determinado ejemplo.
𝑃(𝑦0 ) probabilidad a priori indica la probabilidad a los datos de pertenecer a la clase “y”
𝑃(𝑦0 ) probabilidad condicional indica la probabilidad de los datos de presentar las

características “x”, cuando pertenecen a la clase “y”
Campus
MAP es el criterio que evalúa el cálculo para asignar una clase al ejemplo, las probabilidades
son decimales entre 0 y 1.
Por ejemplo:
En un hospital se tiene el historial de 1000 pacientes:400 tienen una infección estomacal.

Entonces la probabilidad de que tengan esa enfermedad es de 0.4.
P(IE)= 400/1000 =.4
600 tienen infección en la garganta, es decir probabilidad de 0.6
P(IG)=600/1000=.6
Nota que la suma de la suma de las probabilidades a priori es igual a uno es decir la suma
de las dos probabilidades.
Aquellos con infección estomacal presentan los siguientes síntomas:
Fiebre con probabilidad de 0.6

P(F|IE)= 0.6
Falta de apetito de .08
P(A|IE)= 0.8
Dolor estomacal con probabilidad de 0.9
P(DE|IE)=0.9
Dolor de garganta con probabilidad de 0.1
P(DG|IE)=0.1
Aquellos con infección en la garganta presentan los siguientes síntomas:
Fiebre con probabilidad de 0.5

P(F|IG) = 0.5
Falta de apetito de 0.3
P(A|IG) = 0.3
Dolor estomacal con probabilidad de 0.1
P(DE|IG) = 0.1
Dolor de garganta con probabilidad de 0.8
P(DG|IG) = 0.8
Tomando en consideración los datos anteriores, si al hospital llega un nuevo paciente los
siguientes síntomas:
Fiebre(F)= Si
Campus
Falta de apetito(A)=No
Dolor estomacal(DE)=Si
Dolor de garganta(DG)=Si
Se calcula la probabilidad de que tenga Infección estomacal..
P(IE|F,-A,DE,DG)= P(IE)*(F|IE)*P(-A|IE)*P(DE|IE)*P(DG|IE)=
.4*.6*.2*.9*.1= 0.00432
Se utilizó el recíproco de la probabilidad condicional del síntoma porque no tiene falta de

apetito.
Después se calcula la probabilidad de que tenga infección en la garganta.
P(IG|F,-A,DE,DG)= P(IG)*(F|IG)*P(-A|IG)*P(DE|IG)*P(DG|IG)=
0.6*0.5*0.7*0.1*0.8=0.0168
El criterio máximum a posteriori, compara las probabilidades del paciente de tener cada
una de las enfermedades.
Por tanto, se determina que el paciente tiene una infección en la garganta.
Encuentra la clase más probable de los datos al utilizar el algoritmo de Naive Bayes.
Árboles de decisión
Un árbol de decisión es una estructura ramificada, construida a partir de un conjunto de

entrenamiento, que sirve para separar los datos en dos o mas clases.
CART es uno de los algoritmos para construir árboles de decisión. Y consiste en:
1.-Calcular la impureza del conjunto de entrenamiento.
2.- Formula una pregunta a partir de un atributo.
3.-Obtener la ganancia de información de la pregunta

4.- Repetir 2 y 3 con todas las preguntas posibles para seleccionar, para el nodo
correspondiente la pregunta von la mayor ganancia de información.
5.- Para cada rama resultante, repetir el procedimiento a partir del paso 2.
Por ejemplo, par clasificar cuerpos celestes,

Campus
X1 X2 Y
Color Diámetro Cuerpo
Verde 3 Estrella
Amarillo 3 Estrella
Amarillo 3 Planeta
Rojo 1 Meteorito
Rojo 1 Meteorito
Se toman del conjunto de entrenamiento los atributos color y diámetro. Para calcular la
impureza se utiliza la siguiente fórmula:
𝐼 = 1 − . 𝑃(𝑖)∧4
06&
Donde k es el numero de clases en que se divide el conjunto.

P(i) es la probabilidad de escoger al azar un elemento de la clase “i”
La impureza del conjunto es de: I= 1-(2/5)2 –(1/5)^2 –(1/5)^2 = 0.64
Para formar un nodo del árbol, se realiza una pregunta a partir de los atributos.
Ésta crea dos ramas con conjuntos más pequeños.
Por ejemplo, a partir de la características “X2” ¿El diámetro es mayo o igual que 3?
La pregunta separa el conjunto inicial en los siguientes grupos
X1 X2 Y
Verde 3 Estrella
Amarillo 3 Estrella
Amarillo 3 Planeta
X1 X2 Y
Rojo 1 Meteorito
Rojo 1 Meteorito
Campus
No D>=3 Si
Estrella
Meteorito
Estrella
Meteorito
Planeta
La ganancia de información de esta pregunta se obtiene con la formula:
𝐺 = 𝐼Z?& − 𝐼7
Donde I subíndice j menos 1 es la impureza del nodo padre. I subíndice j es la impureza

promedio de los nodos hijos.
En el ejemplo la impureza de los nodos hijos es :
I=1-(2/2)^2 =0. I=1-(2/3)^2 - 1-(1/3)^2 =0.44
Y la impureza promedio de los nodos hijos es:
Promedio=(3/5)*.44 +(2/5)*0=.266
De modo que la ganancia de información con la pregunta elegida es :
Pregunta G
D>=3 0.64-0.266=0.37
En el algoritmo, se debe probar con varias preguntas y elegir la que proporcione la mayor
ganancia de información para representar un nodo.
Posterior mente el proceso debe repetirse con cada nodo hijo, el algoritmo se detiene hasta
etiquetar todos los ejemplos de entrenamiento.
Clustering Jerárquico.
El clustering jerárquico es una técnica para agrupar datos al encontrar similitudes entre ellos
cuando no se conocen el número de categorías en que se dividen, el agrupamiento
jerárquico cuenta con dos enfoques:
Divisivo: Al inicio considera todo el conjunto como un solo grupo, se encarga de separar los
elementos desemejantes en otros grupos.
Campus
Aglomerativo: Al inicio considera cada elemento como un grupo distinto, se encarga de

unir los elementos más parecidos.
El algoritmo “Agnes” corresponde al segundo enfoque y es de los mas utilizados. Se vale de

los conceptos de “distancia entre grupos” y “matriz de proximidad”.
Una manera de calcular la distancia entre grupos en un plano cartesiano es la siguiente:
Conocida como “distancia Manhattan”. 𝑑\ (𝑎, 𝑏) = |𝑥& − 𝑥4 | + |𝑦& − 𝑦4 |
(1,1)
(-1,2)
Los valores absolutos se obtienen al sumar las diferencias sin signo de las coordenadas, las
distancias entre grupos pueden calcularse con enfoques:
Single linkage: Se obtiene la distancia entre los dos elementos más cercanos del grupo
Complete linkage: Se obtiene la distancia entre los elementos más lejanos del grupo.
Las distancias entre grupos se almacenan en la matriz de proximidad.
Por ejemplo: se tienen los domicilios de 6 personas en forma de coordenadas cartesianas y

se quieren ubicar centros de atención cerca de ellos:
Se agrupan bajo el criterio de single linkage. Para ello :

Campus
Se toman como atributos las distancias en los ejes 𝑥& y 𝑥4 se construye la matriz de
proximidad con las distancias entre cada persona y todas las demáS.
Para desarrollar el algoritmo con este ejemplo: considera cada elemento como un grupo,
calcula la matriz de proximidad entre grupos, combina las dos grupos mas cercanos,
actualiza la matriz de proximidad, repite 3 y 4 hasta que todos los datos se agrupan en solo
una categoría, apartir de la técnica de clustering jerárquico, un especialista puede decidir
la cantidad de grupos en que debe dividir los datos de acuerdo a las necesidades de la
aplicación.
K means
Es un algoritmo de agrupamiento por particiones, utilizado para separar un conjunto de

entrenamiento en una cantidad conocida de grupos, se vale de los conceptos de media y
distancia euclidiana.
La media es el valor obtenido al sumar todos los elementos y dividirlo entre el total de
elementos. Se obtienen con la siguiente formula:
5
1
𝑐 = . 𝑦0
𝑚
06&
Campus
Donde m es la cantidad de elementos del grupo Y subíndice son las coordenadas de los
elementos del grupo, la distancia euclidiana es la más corta entre dos puntos del plano. Su
formula es:
𝑑; (𝑎, 𝑏) = _(𝑥& − 𝑥4 )4 + (𝑦& − 𝑦4 )

Donde a es el punto x1, y1 y b es el punto x2, y2
Por ejemplo, para obtener la media de estos tres puntos, se suman las coordenadas x1 y se
dividen en tres, después se suman las coordenadas x2 y se dividen entre tres.
Para encontrar la media más cercana se calcula la distancia entre los puntos y cada una de
las medias en la formula:
`
𝑐50` = . 𝑑(𝐶X , 𝑦7 )
76&
Ck representa a cada una de las medias y yj representa a cada uno de los puntos del
conjunto.
Por ejemplo: en el siguiente conjunto las distancias euclidianas a las medias c1 yc2 son:
De donde se agrupan los datos de esta forma:

Campus
El algoritmo en: asignar K medias de inicio, k es el número de grupos en que se dividirá el
conjunto.
Asignar cada ejemplo al grupo con la media más cercana.
Recalcular las medias de los grupos
Repetir 2 y 3 mientras las medias no cambien
La cantidad de grupos en que se divida la información depende del problema y puede

determinarse con un análisis previo por clustering jerárquico. El algoritmo es
sensible a la elección de las medias iniciales por lo que no siempre agrupará los elementos
de la misma manera
Mezclas Gaussianas.
Es un modelo que separa un conjunto de datos en una cantida conocida de grupos cuyos
elementos se mezclan, el modelo asume que los datos pueden agruparse en dos o mas
subconjuntos cuyos elementos conforman una distribución de Gauss, esta distribución
tienen la siguiente forma :
Y su fórmula matemática es:
Donde: El nombre de N para la función es dado que también se le llama distribución

normal X son los valores del eje horizontal “Mu” 𝜇 es el valor medio de los valores de X, la
gráfica de la función está centrada en este valor, “sigma” 𝜎 es la desviación estándar “e”
es el número de Euler, cuyo valor aproximado es de ≈ 2.7182.
Campus
Los valores en el eje vertical representan la probalididad de encontrar el dato X en el

conjunto. Por ejemplo, en el gráfico la probalidad de encontrar un cero es cercana a 0.4
La desviación estándar se calcula de la siguiente manera:
Donde N es el número de elementos del conjunto de datos x subíndice i es cada uno de esos
datos. Por ejemplo del siguiente conjunto de datos de 16 elementos la media es igual a 6.
Y la desviación estandar es de aproximadamente 1.58

Campus
La labor del algoritmo de entrenamiento es encontrar, para cada grupo, su media y

desviación estándar.
A su vez, cada grupo tiene una probabilidad de representar los datos, por lo cual hay que
hallar este peso
El algoritmo consiste en:
• Asignar valores iniciales para el peso la media y la deviación estándar.

• Ejecutar el paso E o Expectation, el cual asigna cada dato a un grupo
• Ejecutar el paso M o maximization, el cual actualiza los valores de los tres
parámetros
• Repetir 2 y 3 hasta que los parámetros dejen de cambiar
Suponiendo que el conjunto utilizado anteriormente se puede dividir en dos distribuciones
Gauss.
• Asigna los parámetros iniciales
• Las medias pueden ser 4 y 8
• Las deviaciones estándar iniciales iguales a uno
• Los presos 0.4 y 0.6
Campus
Evalúa el primer elemento del conjunto en la ecuación, para ello sustituye los parámetros
del primer grupo para calcular el numerador.
Calcula también este valor para el segundo grupo y súmalo con el primero para calcular el
denominador.
Repite el cálculo, pero evaluando el segundo grupo en el numerador, elige el mayor valor
de W, el dato se asigna al grupo que entregó el mayor valor de esta variable.
Repite los pasos 2,3 y 4 para el resto de los elementos del conjunto.
Estos cinco pasos se consideran una iteración del paso E del algoritmo.
Después los datos ya se han separado en grupos. Optimiza los parámetros al evaluar las
siguientes ecuaciones. Para actualizar el peso suma las valores de W de cada dato del
primer subgrupo divide el total entre la cantidad de elementos en ese subgrupo realiza lo
mismo para el segundo subgrupo.
Campus
Para actualizar la media multiplica cada dato por cada w del sub grupo suma los resultados
divide entre la suma de los valores de w realiza lo mismo para ambos sub grupos.
• Actualiza las desviaciones estándar con la siguiente ecuación, resta del primer dato
la media del sub grupo
• eleva al cuadrado multiplica por el valor w del dato
• repite uno dos y tres para el resto de lo datos y valores de w del sub grupo
• Suma los resultados
• Divide el numerador entre la suma de los valores de W
• Realiza lo mismo para ambos grupos
Recuerda que el algoritmo termina hasta que los parámetros dejen de cambiar.
Internet de las Cosas e Inteligencia Artificial.
El límite de la Internet de las cosas es que puede aprender de sí mismo y, por lo tanto,
adaptar su aplicación. Integrada con objetos conectados, la Inteligencia Artificial les
permitirá tomar decisiones autónomas. Planea para el futuro, donde “los automóviles cerca
de un accidente reorientarán instantáneamente el tráfico ascendente, donde un dispositivo
que dispense medicamentos comprenderá las necesidades del paciente y ajustará la dosis
de un viajero asmático según su destino” y la tasa de contaminación que prevalece
Campus
Sectores industriales de la salud y en casas inteligentes.
Referencias bibliográficas.
FUNDAMENTOS DE INTELIGENCIA ARTIFICIAL. Por LARA CARREÑO, Heriberto Enrique, 2019,

Editorial BUK.
INTELIGENCIA ARTIFICIAL - Con Aplicaciones a la Ingeniería. Por PONCE, Pedro, 2010,

Alfaomega.
UNA MIRADA AL FUTURO - Inteligencia artificial, abundancia, empleo y sociedad. Por ORBE,
Antonio, 2017, Alfaomega, Altaria.
INTELIGENCIA ARTIFICIAL Fundamentos, práctica y aplicaciones 2ª Edición. Por GARCÍA

SERRANO, Alberto, 2016, Alfaomega, RC Libros.

Inteligencia Artificial PDF

Cargado por

Copyright:

Formatos disponibles

Inteligencia Artificial PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Inteligencia Artificial PDF

Cargado por

Copyright:

Formatos disponibles

Campus

Inteligencia Artificial para el Internet de las Cosas

El término de Inteligencia Artificial se haya acuñado en el siglo pasado cuando en 1961

Para poder definir la Inteligencia Artificial es conveniente saber primero que

Sucede con frecuencia, que utilizamos de manera equivocada la palabra inteligencia,

La inteligencia en la “facultad de entender, de comprender” . Por lo que todos tenemos esta

Antecedentes de la inteligencia artificial

En 1958, John McCarthy, responsable de introducir el término “inteligencia artiﬁcial”,

Para entender la inteligencia artificial encontramos diferentes definiciones, una de ellas es

Árbol de la Inteligencia artificial.

• Reconocimiento del lenguaje natural.

Complementado el Test de Turing exite la prueba de Test de Turing Total en la que la

El ‘machine learning’ –aprendizaje automático– es una rama de la inteligencia

Algoritmos de 'Machine Learning'

• Aprendizaje supervisado: estos algoritmos cuentan con un aprendizaje previo

• Aprendizaje no supervisado: estos algoritmos no cuentan con un conocimiento

• Aprendizaje por refuerzo: su objetivo es que un algoritmo aprenda a partir de la

Algoritmos de más utilizados en Inteligencia Artificial

Aplicaciones del Maching Learning

El algoritmo para encontrar la hipótesis que se ajusta a los datos consiste en :

Dados los siguientes datos, se define una función de pérdida.

Donde el subíndice “i” indica el ejemplo de entrenamiento, h subíndice “i” es el valor de la

Para minimizar la pérdida se utiliza el algoritmo de descenso de gradiente fundamentada

Donde 𝑎7 representa los parámetros de la hipótesis.

Positivas si el valor de h es mayor o igual a 0.5 y menor o igual a 1, y negativa si h es mayor

El límite de decisión es el polinomio 𝑎$ + 𝑎& 𝑥& + 𝑎4 𝑥4 al graficarse, separa los ejemplos de

𝑔 = 𝑎$ + 𝑎& 𝑥& + 𝑎4 𝑥4 0 = −5 + 1𝑥& + 1𝑥4

Quedando la función 𝑥& + 𝑥4 = 5 y la gráfica.

Para seleccionar los parámetros que mejor ajustan la hipótesis al conjunto de

Donde el subíndice i es el índice del ejemplo de entrenamiento j es el índice del parámetro

ℎ = 𝑀𝐴𝑃(𝑃(𝑦0 ) T 𝑃(𝑥7 |𝑦0 ))

Donde y subíndice i son las clases en que se encuentra un ejemplo de entrenamiento o

𝑃(𝑦0 ) probabilidad condicional indica la probabilidad de los datos de presentar las

En un hospital se tiene el historial de 1000 pacientes:400 tienen una infección estomacal.

P(IE)= 400/1000 =.4

600 tienen infección en la garganta, es decir probabilidad de 0.6

Aquellos con infección estomacal presentan los siguientes síntomas:

Fiebre con probabilidad de 0.6

Aquellos con infección en la garganta presentan los siguientes síntomas:

Fiebre con probabilidad de 0.5

Se calcula la probabilidad de que tenga Infección estomacal..

Se utilizó el recíproco de la probabilidad condicional del síntoma porque no tiene falta de

Después se calcula la probabilidad de que tenga infección en la garganta.

Por tanto, se determina que el paciente tiene una infección en la garganta.

Un árbol de decisión es una estructura ramificada, construida a partir de un conjunto de

1.-Calcular la impureza del conjunto de entrenamiento.

2.- Formula una pregunta a partir de un atributo.

3.-Obtener la ganancia de información de la pregunta

Por ejemplo, par clasificar cuerpos celestes,

Donde k es el numero de clases en que se divide el conjunto.

La pregunta separa el conjunto inicial en los siguientes grupos

La ganancia de información de esta pregunta se obtiene con la formula:

Donde I subíndice j menos 1 es la impureza del nodo padre. I subíndice j es la impureza

En el ejemplo la impureza de los nodos hijos es :

I=1-(2/2)^2 =0. I=1-(2/3)^2 - 1-(1/3)^2 =0.44

Y la impureza promedio de los nodos hijos es:

De modo que la ganancia de información con la pregunta elegida es :

Aglomerativo: Al inicio considera cada elemento como un grupo distinto, se encarga de

El algoritmo “Agnes” corresponde al segundo enfoque y es de los mas utilizados. Se vale de