Analisis
Analisis
Analisis
Iván Ramírez-Morales
Bertha Mazon-Olivo
Coordinadores
Primera edición en español, 2018
Ediciones UTMACH
ISBN: 978-9942-24-120-7
Publicación digital
COORDINACIÓN EDITORIAL
Capítulo I
Ciencia de datos en el sector agropecuario ........................... 12
Iván Ramírez-Morales; Bertha Mazon-Olivo ;Alberto Pan
Capítulo II
Obtención de datos en sistemas agropecuarios ......................... 45
Salomón Barrezueta Unda; Diego Villaseñor Ortiz
Capítulo III
Internet de las cosas (IoT) ................................................................................. 72
Dixys Hernández Rojas; Bertha Mazon-Olivo; Carlos Escudero
Capítulo IV
Matemáticas aplicadas al sector agropecuario ......................... 101
Bladimir Serrano; Carlos Loor; Eduardo Tusa
Capítulo V
Estadística básica con datos agropecuarios ................................... 127
Irán Rodríguez Delgado; Bill Serrano; Diego Villaseñor Ortiz
Capítulo VI
Estadística predictiva con datos agropecuarios ......................... 218
Bill Serrano; Irán Rodríguez Delgado
Capítulo VII
Inteligencia de negocios en el sector agropecuario .............. 246
Bertha Mazon-Olivo; Alberto Pan; Raquel Tinoco-Egas
Capítulo VIII
Inteligencia Artificial aplicada a datos agropecuarios .......... 278
Iván Ramírez-Morales; Eduardo Tusa; Daniel Rivero
Introducción
1
http://www.kdd.org/
2
http://todobi.blogspot.com/2016/02/una-breve-historia-del-machine-learning.html
Ciencia de datos en el sector agropecuario 19
3
https://datascience.codata.org/
4
http://www.jds-online.com/journal/
5
https://www.oreilly.com/ideas/what-is-data-science
6
https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
Ciencia de datos en el sector agropecuario 21
7
https://www.gartner.com/newsroom/id/2819918
22 Iván Ramírez-Morales, Bertha Mazon-Olivo; Alberto Pan
3
https://www.nap.edu/read/23670/chapter/6
https://www.sv-europe.com/blog/10-reasons-organisation-ready-prescriptive-analytics/
http://www.healthcareimc.com/main/making-sense-of-analytics/
https://twitter.com/doug_laney/status/611172882882916352
Ciencia de datos en el sector agropecuario 25
9
http://information4dummies.blogspot.com/2014/04/modelo-yo-conceptos-de-representacion.
html
Ciencia de datos en el sector agropecuario 31
Datos
Los datos son el recurso más abundante del planeta; se cal-
cula que a nivel mundial, se generan a diario 2.5 Exabytes de
datos (BBC News, 2014; Khoso, 2016). En todo el mundo, las
empresas recopilan datos de sus transacciones diarias; los
gobiernos recopilan regularmente datos de censos e infor-
mes de incidencias en los departamentos de policía; a dia-
rio en las redes sociales, millones de personas suben fotos,
videos y envían mensajes de texto. Este diluvio de datos
crece rápidamente y cada vez más, con las nuevas tecnolo-
gías como el Internet de las Cosas (IoT), las redes de sensores
inalámbricas (WSN) y los objetos inteligentes (Smart Object).
En el 2013, la cantidad total de datos en el mundo, fue de 4,4
Zetta bytes (Zb), y se estima unos 44 Zb para el 2020 y 163 Zb
para el 2025 (BBC News, 2014; Khoso, 2016).
Los datos que se obtienen de diversas fuentes internas o
externas de una organización y aquellos que aún no han
sido procesados se los denomina datos crudos (raw data) o
32 Iván Ramírez-Morales, Bertha Mazon-Olivo; Alberto Pan
Información
Este término se refiere a un conjunto de hechos que tienen
un significado, un propósito y un formato adecuado para
la toma de decisiones. La información10 es el resultado del
procesamiento y análisis de los datos. Los datos depurados,
transformados, organizados, relacionados o clasificados se
convierten en información. El concepto de información res-
ponde a preguntas como: ¿qué?, ¿quién?, ¿dónde? y ¿cuándo?
La información es capaz de cambiar opiniones, pensamien-
tos y criterios de acuerdo a la forma de ser percibida por el
receptor (Guillén, López Ayuso, Paniagua, & Cadenas, 2015).
9
http://infomedicsa.blogspot.com/2016/04/dikw-datos-informacion-conocimiento.html
http://mizrablogs.blogspot.com/2017/02/capitulo-ii-datos-en-medicina.html
34 Iván Ramírez-Morales, Bertha Mazon-Olivo; Alberto Pan
Conocimiento
Es la realidad de un objeto, captada y entendida por un
sujeto. La información se transforma en conocimiento al ser
interpretada de forma reflexiva y con base en la experiencia.
El conocimiento responde a las preguntas ¿cómo?, ¿por qué?
Según Guillén et al. (2015), el conocimiento:
“…surge de ideas verificadas y validadas por conven-
ción”; es decir, “…es el resultado de procesar información
y hallar ciertos patrones invariantes que generan un
cuerpo coherente de juicios acerca del mundo”.
Tipos de conocimiento
El conocimiento según el origen puede ser:
• Tácito. Cuando el conocimiento se basa en la experien-
cia personal, éste resulta sencillo de aplicarlo pero difícil
explicarlo debido a que permanece en nuestro incons-
ciente de forma desarticulada.
• Explícito. Cuando el conocimiento es fácilmente expli-
cado de manera escrita u oral; se encuentra estructurado
y es fácil explicar y compartir con los demás. Ejemplo:
libros, artículos científicos, etc.
Roiger (2017) presenta la clasificación del conocimiento
según la forma de extracción:
• Evidente: Es aquella información que se puede obtener
de forma sencilla. Por ejemplo a través de una consulta
en una base de datos a través de un sistema informático,
se puede verificar las facturas emitidas por la venta de un
producto en una fecha determinada.
• Multi-dimensional: Es la información capaz de ser repre-
sentada mediante varias perspectivas o vistas, brindando
cierta estructura a los datos analizados. La técnica utili-
zada es el análisis mediante cubos OLAP. Por ejemplo:
Total de ventas de cajas de banano por, año, semestre
y mes. Dónde: total ventas es la medida de la informa-
ción, y las vistas son: producto=banano, año, semestre
y mes
Ciencia de datos en el sector agropecuario 35
Sabiduría (Wisdom).
Consiste en la capacidad de intuir, comprender e interpretar
el conocimiento para planificar o tomar la mejor decisión
posible a corto, mediano o largo plazo. Es la capacidad de
emplear el juicio basado en principios para saber ¿cuál es la
mejor decisión a tomar?
11
https://db-engines.com/en/ranking/relational+dbms
12
https://www.cloudera.com/
13
https://es.hortonworks.com/
14
https://www.hitachivantara.com/en-us/products/big-data-integration-analytics/penta-
ho-data-integration.html
15
https://es.talend.com/
16
https://www.informatica.com/products/data-integration.html
17
https://www.denodo.com/en
18
https://powerbi.microsoft.com/es/
19
https://www.hitachivantara.com/go/pentaho.html
20
https://www.qlik.com/us/
21
https://www.tableau.com/
22
https://www.microstrategy.com/es
23
https://www.oracle.com/solutions/business-analytics/business-intelligence/index.html
24
https://www.ibm.com/products/cognos-analytics
25
https://es.wikipedia.org/wiki/Aprendizaje_autom%C3%A1tico
40 Iván Ramírez-Morales, Bertha Mazon-Olivo; Alberto Pan
Referencia bibliográfica
BBC News. (2014). Big Data: Are you ready for blast-off? Retrieved
November 30, 2017, from http://www.bbc.com/news/busi-
ness-26383058
Bendre, M. R., Thool, R. C., & Thool, V. R. (2015). Big Data in Precision
Agriculture : Weather Forecasting for Future Farming. In 2015
1st International Conference on Next Generation Computing
Technologies (pp. 4–5). Dehradun, India. http://doi.org/10.1109/
NGCT.2015.7375220
Capgemini. (2015). A brief history of Data Science. Retrieved Octo-
ber 13, 2017, from https://whatsthebigdata.com/2015/02/17/his-
tory-of-data-science-infographic/
Collis, J., & Hussey, R. (2009). Business research: A practical guide for
undergraduate and postgraduate students. (3rd ed.). Palgrave
Macmillan: Hampshire. Retrieved from https://www.research-
gate.net/publication/38177413_Business_research_A_practical_
guide_for_undergraduate_and_postgraduate_students
Costa, C., & Santos, M. Y. (2017). The data scientist profile and its repre-
sentativeness in the European e-Competence framework and
the skills framework for the information age. International Jour-
nal of Information Management, (xxxx). http://doi.org/10.1016/j.
ijinfomgt.2017.07.010
Davenport, T., & Patil, D. J. (2012). Data Scientist The Sexiest Job of the 21st
Century Meet the people who can coax treasure out of messy, uns-
tructured data. Retrieved May 17, 2018, from http://billsynnotan-
dassociates.com.au/images/stories/documents/data_scientist.pdf
Dhar, B. V. (2013). Data Science and Prediction. Communications of
the ACM, 56(12), 64–73. http://doi.org/10.1145/2500499
FAO. (2016). Programa mundial del censo agropecuario 2020. Volu-
men 1. Programa, definiciones y conceptos. Retrieved from
http://www.fao.org/3/a-i4913s.pdf
42
Flores, I. (1981). Data base architecture. New York.: Van Nostrand Rei-
hold Company.
García-Marco, F.-J. (2011). La Pirámide de la Información Revisitada:
Enriqueciendo el Modelo Desde la Ciencia Cognitiva. El Profesio-
nal de La Informacion, 20(1), 11–24. http://doi.org/10.3145/epi.2011.
ene.02
Gartner. (2012). Analytic Ascendancy Model. Retrieved December 12, 2017,
from http://www.growwithfarm.com/evolving-analytics-from-des-
criptive-to-prescriptive/
Guillén, M. A., López Ayuso, B., Paniagua, E., & Cadenas, J. M. (2015).
Una revisión de la Cadena Datos-Información-Conocimiento
desde el Pragmatismo de Peirce. Documentación de Las Cien-
cias de La Información, 38(Dic), 153–177. http://doi.org/10.5209/
rev_DCIN.2015.v38.50814
Hernández Mendo, A., Castellano, J., Camerino, O., Jonsson, G., Villase-
ñor, Á., Lopes, A., & Anguera, M. T. (2014). Programas informáticos
de registro , control de calidad del dato , y análisis de datos. Psi-
cología Del Deporte, 23(1), 111–121.
Jifa, G., & Lingling, Z. (2014). Data, DIKW, Big Data and Data Science.
Procedia Computer Science, 31, 814–821. http://doi.org/10.1016/j.
procs.2014.05.332
Kamilaris, A., Kartakoullis, A., & Prenafeta-boldú, F. X. (2017). A review
on the practice of big data analysis in agriculture. Computers
and Electronics in Agriculture, 143(January), 23–37. http://doi.
org/10.1016/j.compag.2017.09.037
Khoso, M. (2016). How Much Data is Produced Every Day? Retrieved
November 30, 2017, from http://www.northeastern.edu/level-
blog/2016/05/13/how-much-data-produced-every-day/
Larson, D., & Chang, V. (2016). International Journal of Information Mana-
gement A review and future direction of agile , business intelli-
gence , analytics and data science. International Journal of Infor-
43
Datos meteorológicos
El clima es medido a través de los datos meteorológicos, los
cuales son obtenidos en las estaciones agrometeorológicas
de primer o segundo orden. El tipo de datos meteorológicos
(humedad, temperatura, precipitación, etc.) y la frecuencia
(semestral, bianual, anual, etc.) de las lecturas es una cues-
tión definida por la aplicación de dichos datos, como ejem-
plo determinar los períodos de mayor pluviosidad para la
programación del sistema de riego.
Para las aplicaciones a nivel de predio o de actividad, es
suficiente contar con los registros diarios de la estación agro-
meteorológica más cercana a la empresa o finca, para datos
con alta variabilidad estacional como la lluvia y la evapotrans-
piración lo más conveniente es contar con un pluviómetro y
un tanque de evaporación para un registro in situ.
Franco arenoso (FA), Franco limo arenoso (FLA), Franco limoso (FL), Franco arcilloso (FY)
Cuadro 2.4. Valores óptimos de propiedades generales del suelo para el cul-
tivo del cacao en Ecuador.
Referencia Bibliográfica
Albornoz, I. (2006). Software para el sector agropecuario. Littec, 1–39.
Retrieved from http://www.littec.ungs.edu.ar/pdfespa?ol/DT
05-2006 Albornoz.pdf
Arévalo-Gardini, E., Canto, M., Alegre, J., Loli, O., Julca, A., & Baligar, V.
(2015). Changes in soil physical and chemical properties in long
term improved natural and traditional agroforestry management
systems of cacao genotypes in peruvian amazon. PLOS ONE, 10(7),
e0132147. https://doi.org/10.1371/journal.pone.0132147
Barrezueta-Unda, S., & Paz-González, A. (2017). Estudio comparativo de la
estructura elemental de materia orgánica de suelo y mantillo culti-
vados de cacao en El Oro, Ecuador. Revista Agroecosistemas, (3), 2–9
Basso, L. R., Pascale Medina, C., de Obschatko, E. S., & Preciado Patiño, J.
(2013). Agricultura inteligente: la iniciativa de la Argentina para la
sustentabilidad en la producción de alimentos y energía. (Ministe-
rio de Agricultura, Ed.). Buenos Aires: IICA.
Bruulsema, T., P. Fixen, and G. Sulewski. 2013. “4R de La Nutrición de Las
Plantas”. IPNI, Norcross-Estados Unidos.
Chaparro, A. M. (2014, October 21). Sostenibilidad de los sistemas de
producción campesina en el proceso de mercados campesinos
(Colombia). Universidad de Córdoba, Servicio de Publicaciones.
Retrieved from http://www.tesisenred.net/handle/10803/283272
Cerda, R., Deheuvels, O., Calvache, D., Niehaus, L., Saenz, Y., Kent, J., …
Somarriba, E. (2014). Contribution of cocoa agroforestry systems to
family income and domestic consumption: looking toward intensifi-
cation. Agroforestry Systems, 88(6), 957–981. https://doi.org/10.1007/
s10457-014-9691-8
Coronado-Hernández, H. (2015). Sistema de información para el control
de procesos en la producción, poscosecha y análisis sensorial de
café especial. Revista Nova, 1(1), 1–8.
70
Cline, Marlin G. 1944. “Principles of soil sampling.” Soil Science 58 (4). jour-
nals.lww.com: 275.
Hirzel, J. 2008. “Diagnóstico Nutricional Y Principios de Fertilización En
Frutales Y Vides.” Colección Libros INIA-24. ISSN.
INTA. (2012). Monitoreo de plagas. In Aplicación eficiente de fitosanitarios
(pp. 1–16). Buenos Aires, Argentina: Ediciones Instituto Nacional de
Tecnologia Agropecuaria.
Krüger, H. (2006). Recursos naturales y medioambiente. Sostenibilidad
del desarrollo agrario, 1–13.
Palmieri, V., & Rivas, L. (2007). Gestión de información para la innovación
tecnológica agropecuaria. COMUNIICA, 3(2), 17–26. Retrieved from
http://infoandina.mtnforum.org/sites/default/files/publication/files/
GIinnovacion07.pdf
Pons-Pérez, C., Molina-Concepción, O., Ruiz-Martínez, L., Medero-Vega, V.,
Sánchez-Socarras, P., & Rojan-Mirón, R. (2016). Las TIC herramientas
para contribuir a la extensión agrícola y la innovación rural. Revista
Agricultura Tropical, 2(1), 77–83.
Pumisacho, M., & S. Sherwood. 2002. El Cultivo de La Papa en Ecuador.
Instituto Nacional Autónomo de Investigaciones Agropecuarias.
Ripa, P., & Larral, R. (2008). Monitoreo de plagas y registros. In Manejo
de plagas en paltos y cítricos (pp. 51–60). Santiago de Chile, Chile:
SACH.
SAGARPA. (2011). Manual técnico de muestreo de productos agrícolas
y fuentes de agua para la detección de organismos patógenos.
México: SENASICA.
SAGARPA. (2013). Diseño Conceptual de la Generación de Información
Agropecuaria. Mexico: SAGRAPA. Retrieved from http://infosiap.siap.
gob.mx/opt/estadistica/normatividad/sistema/nsagarpa-siap-verde.
pdf
Torres, S. (2012). Guía práctica para el manejo de banano orgánico en el
valle del Chira. Piura, Peru: Swisscontact.
71
Capítulo
Dixys Hernández Rojas; Bertha Mazon-Olivo;
Carlos Escudero
Dixys Hernández Rojas: Ingeniero Electrónico y Máster en Electrónica por la U. Central Marta
Abreu de Las Villas, Cuba. Docente e Investigador en algunas universidades de Cuba y Ecuador,
Director / Ingeniero de proyectos en Grupo Arteche en México y en Goliath Consulting LLC, Irvine,
USA. Actualmente es Profesor Titular y Director del Grupo de Investigación AutoMathTIC de la
UTMACH. Sus intereses de investigación son IoT, WSN y desarrollo de Sistemas Embebidos. Cursa
su doctorado en Universidade da Coruña, España. Cuenta con varias publicaciones.
Bertha Mazon-Olivo: Ingeniera en Sistemas y Magíster en Informática Aplicada por la Escuela
Politécnica de Chimborazo. Profesora Titular en la Universidad Técnica de Machala. Es estudiante
del programa doctoral en Tecnologías de la Información y las Comunicaciones en Universidade
da Coruña, España. Sus líneas de investigación son: Internet de las Cosas, Ciencia de Datos y Desa-
rrollo de Aplicaciones Informáticas. Cuenta con varias publicaciones indexadas.
Carlos Escudero: Máster de la Universidad de Vigo, España en 1991 y el Doctorado en Informática
de la Universidad de La Coruña en 1998. Obtuvo dos becas para ser investigador antes y después
de su doctorado en la Universidad Estatal de Ohio (1996 y 1998), durante 6 y 3 meses, respec-
tivamente. Actualmente es Profesor Asociado (desde 2000) y Vicedecano del Gobierno de la
Facultad de Informática de la Universidade da Coruña.
Internet de las cosas (IoT) 73
Definición de IoT
El concepto del Internet de las Cosas ha tenido múltiples
definiciones desde 1999 hasta nuestros días, refiriéndose
en sus inicios a solo cosas identificables vía RFID exclusiva-
mente, añadiéndoles inteligencia y mayor ámbito.
Podemos decir que el Internet de las cosas actual sería el
conjunto de objetos inteligentes, perfectamente auto-iden-
Internet de las cosas (IoT) 75
Arquitectura IoT
Actualmente existen varias arquitecturas de IoT y para este
capítulo se ha propuesto la arquitectura de la Imagen 3.1
que ha sido adaptada de (Campoverde, Hernandez-Rojas, &
Mazon-Olivo, 2015) y consta de 3 capas: Dominio de Aplica-
ción, Dominio de Red y Dominio de sensores.
Imagen 3.1. Arquitectura del Internet de las Cosas
Dominio de aplicación
En esta capa se encuentra la infraestructura de comunica-
ción, almacenamiento y procesamiento de datos, así como
las herramientas de análisis y presentación de la información
al usuario. La infraestructura puede estar formada desde un
servidor físico o virtualizado a un Centro de Procesamiento
de Datos (CPD) complejo que involucra un conjunto de recur-
sos físicos, lógicos y humanos para el control de los procesos
y datos en el contexto de IoT. La virtualización de los recursos
físicos y disponibilidad en internet se conoce como compu-
tación en la nube o Cloud Computing (Im, Kim, & Kim, 2013;
Suciu et al., 2015; Suciu, Halunga, Vulpe, & Suciu, 2013; Wang,
Bi, & Xu, 2014). A continuación, se describen algunas de las
principales funciones de esta capa:
• Recolección de datos crudos. El CPD se comunica con la
capa Dominio de Red mediante el internet y usa un pro-
tocolo de comunicación para recolectar los datos crudos
(Ali et al., 2016; Gitzel, Turrin, & Maczey, 2015; Karkouch,
Mousannif, Al Moatassime, & Noel, 2016). Existen varios
protocolos de comunicación, por ejemplo: MQTT, CoAP,
REST, XMPP, etc. (Al-Fuqaha, Guizani, Mohammadi,
Aledhari, & Ayyash, 2015; Mijovic, Shehu, & Buratti, 2016).
MQTT es muy popular por su bajo consumo de ancho de
banda y bajo consumo de recursos.
• Pre-procesamiento y almacenamiento de datos. Consiste
en la limpieza y transformación de datos para luego ser
almacenados en sistemas gestores de bases de datos, y/o
pasar a un sistema de cálculo o simplemente ser moni-
toreados y controlados en tiempo real (Cai, Xu, Jiang, &
Vasilakos, 2016; Kambatla, Kollias, Kumar, & Grama, 2014;
Moniruzzaman & Hossain, 2013; Wolfert, Ge, Verdouw, &
Bogaardt, 2017).
• Monitoreo y control. Los datos de sensores de la WSN se
presentan en un tablero de control (dashboard IoT) visual
para que el usuario comprenda el estado actual de la
zona o área que está vigilando. Un dashboard IoT ade-
más de monitorear sensores también puede controlar
Internet de las cosas (IoT) 77
Dominio de red
Comprende componentes de pre-procesamiento y comu-
nicación entre la Red de Sensores Inalámbrica (WSN) y la
plataforma IoT. Los componentes IoT de esta capa son:
• Gateway o Micro data center. Es un dispositivo con carac-
terísticas de un mini computador que además de coor-
dinar la comunicación con la WSN y con la plataforma
IoT, se encarga de obtener los datos crudos de los dispo-
sitivos IoT o motes, luego realizar un pre-procesamiento
y almacenamiento temporal y seguidamente enviarlos a
la plataforma IoT mediante un protocolo de comunica-
ción.
78 Dixys Hernández Rojas; Bertha Mazon-Olivo; Carlos Escudero
Dominio de sensores
En esta capa se ubican las redes de sensores inalámbricas
(WSN) y los dispositivos (motes) IoT que integran transduc-
tores, sensores y actuadores. En las secciones subsiguientes
se explican con más detalle.
Internet de las cosas (IoT) 79
Sensores
Los sensores típicamente convierten estímulos físicos en
señales eléctricas analógicas o digitales y pueden ser clasi-
80 Dixys Hernández Rojas; Bertha Mazon-Olivo; Carlos Escudero
Actuadores
Los actuadores son dispositivos capaces de conseguir el
movimiento de algo por medio de una energía o simple-
mente conmutar una corriente o un voltaje para que otro
dispositivo pueda generar una acción en su entorno de un
proceso dado. En función de esta energía los actuadores
pueden ser clasificados en neumáticos, hidráulicos y eléc-
tricos y en función del movimiento conseguido pueden ser
lineales o rotatorios.
Por medio de los actuadores, un sistema automatizado puede
abrir o cerrar una esclusa, activar o desactivar una electrovál-
vula para dejar pasar agua, encender o apagar una bomba de
agua, controlar el ángulo y altura de boquillas o dispensadores.
Abrir escotillas de sembradoras, ajustar la cantidad de fertili-
zantes, dosificar el alimento de animales y muchas más apli-
caciones. ¿Puede mencionar otras aplicaciones agropecuarias
donde un actuador ayuda a automatizar el proceso?
En el Cuadro 3.1, muestra algunos de los sensores y actua-
dores comerciales más usados en Agricultura de Precisión,
Internet de las cosas (IoT) 81
Tipos de Sensores a) b)
Temperatura
Humedad ambien-
tal
82 Dixys Hernández Rojas; Bertha Mazon-Olivo; Carlos Escudero
Tipos de Sensores a) b)
Radiación
Dendrómetros
Sensores combina-
dos
Actuadores para
riego: electroválvu-
las
Actuadores electro-
magnéticos
Actuadores de
movimiento
Internet de las cosas (IoT) 83
1
I²C: Inter-Integrated Circuit. Es un bus de datos serial que permite interconectar circuitos inte-
grados y partes de un circuito electrónico donde cada uno dispone de una dirección específica.
Internet de las cosas (IoT) 85
2
Open Hardware: Hardware libre, significa que los diagramas de los circuitos y sus especificacio-
nes son de acceso público y pueden ser replicados sin costos ni regalías.
3
https://www.arduino.cc/
88 Dixys Hernández Rojas; Bertha Mazon-Olivo; Carlos Escudero
4
https://www.raspberrypi.org/
5
https://beagleboard.org/black
Internet de las cosas (IoT) 89
Tecnologías de comunicación
Como hemos mencionado anteriormente la arquitectura
IoT está basada en redes WSN donde sensores inteligentes
intercambian información entre ellos y son capaces de enviar
datos de telemetría hacia el servidor gracias a los módulos
de comunicación inalámbricas que poseen, muchas veces
integradas con el procesador en un solo chip. Entre las tec-
nologías inalámbricas más usadas tenemos a: Zigbee, BLE,
Lora, Sigfox las cuales son detalladas en el Cuadro 3.3.
6
http://www.libelium.com/products/waspmote/hardware/
90 Dixys Hernández Rojas; Bertha Mazon-Olivo; Carlos Escudero
7
http://www.wi-fi.org/
8
http://www.zigbee.org/
Internet de las cosas (IoT) 91
9
https://www.bluetooth.com/
10
https://www.lora-alliance.org/
92 Dixys Hernández Rojas; Bertha Mazon-Olivo; Carlos Escudero
11
http://www.3gpp.org/
Internet de las cosas (IoT) 93
12
http://www.libelium.com/products/meshlium/
94 Dixys Hernández Rojas; Bertha Mazon-Olivo; Carlos Escudero
Cloud computing
Plataformas IoT
Las plataformas IoT son sistemas computacionales de pro-
veedores externos o desarrollados a medida, los cuales han
sido creados para recibir datos de sensores, almacenarlos en
sus sistemas de bases de datos y ofrecer servicios adicio-
nales de procesamiento, análisis de datos, monitoreo de la
WSN y control de actuadores. Las plataformas más destaca-
das actualmente son:
• Thingspeak: https://thingspeak.com/
•
IBM Bluemix: http://www.ibm.com/cloud-computing/
bluemix/
• Amazon: http://aws.amazon.com/es/iot/
• Carriots: https://www.carriots.com/
• Adafruit IO: https://io.adafruit.com/
• Thingworx: http://www.thingworx.com/
• Temboo: https://temboo.com/
• Thethings: https://thethings.io/
• IoTMach: http://iotmach.utmachala.edu.ec/
13
https://www.openstack.org/
14
https://cloudstack.apache.org/
15
https://www.ibm.com/cloud-computing/
16
https://aws.amazon.com/es/
17
https://azure.microsoft.com/es-es/
18
https://cloud.google.com/
Internet de las cosas (IoT) 97
Referencias Bibliográficas
Aazam, M., & Huh, E. N. (2015). Fog computing micro datacenter based
dynamic resource estimation and pricing model for IoT. In Pro-
ceedings - International Conference on Advanced Information
Networking and Applications, AINA (Vol. 2015–April, pp. 687–
694). http://doi.org/10.1109/AINA.2015.254
Ai, Y., Peng, M., & Zhang, K. (2017). Edge cloud computing technologies
for internet of things: A primer. Digital Communications and
Networks. http://doi.org/10.1016/j.dcan.2017.07.001
Al-Fuqaha, A., Guizani, M., Mohammadi, M., Aledhari, M., & Ayyash, M.
(2015). Internet of Things: A Survey on Enabling Technologies, Pro-
tocols and Applications. IEEE Communications Surveys & Tuto-
rials, PP(99), 1–1. http://doi.org/10.1109/COMST.2015.2444095
Ali, M. I., Ono, N., Kaysar, M., Shamszaman, Z. U., Pham, T.-L., Gao, F., …
Mileo, A. (2016). Real-time data analytics and event detection for
IoT-enabled communication systems. Web Semantics: Science,
Services and Agents on the World Wide Web, 42. http://doi.org/
http://dx.doi.org/10.1016/j.websem.2016.07.001
Botta, A., de Donato, W., Persico, V., & Pescapé, A. (2015). Integration of
Cloud Computing and Internet of Things: A Survey. Future Gene-
ration Computer Systems, 56, 684–700. http://doi.org/10.1016/j.
future.2015.09.021
Cai, H., Xu, B., Jiang, L., & Vasilakos, A. (2016). IoT-based Big Data Sto-
rage Systems in Cloud Computing: Perspectives and Challenges.
IEEE Internet of Things Journal, PP(99), 1. http://doi.org/10.1109/
JIOT.2016.2619369
Campoverde, A., Hernandez-Rojas, D., & Mazon-Olivo, B. (2015). Cloud
computing con herramientas open-source para Internet de las
cosas. Maskana, 6, 173–182. Retrieved from http://dspace.ucuenca.
edu.ec/handle/123456789/23826
Gitzel, R., Turrin, S., & Maczey, S. (2015). A Data Quality Dashboard for
Reliability Data, 90–97. http://doi.org/10.1109/CBI.2015.24
Im, J., Kim, S., & Kim, D. (2013). IoT mashup as a service: Cloud-based
mashup service for the internet of things. Proceedings - IEEE
99
Capítulo
sector agropecuario
Bladimir Serrano; Carlos Loor; Eduardo Tusa
1. Introducción
En la actualidad, se ha incrementado la necesidad de intro-
ducir los modelos y herramientas matemáticas en nuestras
investigaciones. La utilización e interpretación adecuada de
estas técnicas permiten la toma de decisiones óptimas para
favorecer el desarrollo de los sistemas productivos. El carác-
ter integral en la solución de las tareas científicas y econó-
micas, así como la eficiencia de los métodos utilizados para
influir sobre los objetivos de trabajo, exigen una alta prepa-
ración del especialista para emitir criterios con altos niveles
de fiabilidad en los procesos agrícolas.
Por otra parte, el aumento progresivo de la población mun-
dial, junto a la creciente necesidad de garantizar la alimen-
tación de ésta, sumado a los cambios climáticos; han conlle-
vado al constante desarrollo de la investigación agrícola. Para
realizar estudios y proyecciones futuras sobre procesos agrí-
colas, se hace imprescindible conocer: ¿Cómo lograr mayo-
res niveles de eficacia en el proceso de toma de decisiones?,
¿Qué métodos matemáticos permiten analizar datos con el
fin de obtener conclusiones científicas? ¿Cómo fortalecer las
investigaciones de los procesos agropecuarios utilizando la
Matemática Aplicada? Esta disciplina en las ciencias agrope-
cuarias permite brindar criterios y herramientas básicas para
manejar problemas, recurriendo incluso, a la utilización de
nuevas tecnologías con el fin de hacerle frente a objetos de
estudio altamente complejos.
El presente capítulo tiene como punto de partida, la estruc-
turación de los modelos matemáticos, su representación y
sus tipos, para centrarnos principalmente en la generación
Matemáticas aplicadas al sector agropecuario 103
2. Modelos matemáticos
Un primer acercamiento al modelamiento matemático
parte desde su principal propósito. Los modelos constitu-
yen representaciones, patrones, descripciones o analogías
que persiguen la visualización de un determinado objeto
de estudio que no puede ser valorado directamente, o del
cual se desprende un conjunto de postulados, datos o infe-
rencias reproducidas mediante expresiones matemáticas
(Fowler and Fowler 1997). Un modelo matemático puede ser
concebido como una representación en términos matemá-
ticos del comportamiento de dispositivos y objetos reales
(Fishwick 2007).
Un modelo matemático puede representar una simplifica-
ción o abstracción de un sistema real que existe en el uni-
verso. Así, el modelamiento matemático puede apreciarse
en el crecimiento y decaimiento de las poblaciones de ani-
males y seres humanos. Por ejemplo, la industria pesquera
debería estar interesada en el efecto de la pesca sobre el
crecimiento poblacional de los peces con la finalidad de no
agotar este recurso. Inicialmente, se puede asumir un com-
portamiento exponencial de la población, y más adelante
se pueden incorporar otros efectos, como los periodos de
reproducción de ciertas especies.
La modelización matemática puede resumirse en tres
pasos:
1. La construcción del modelo, es la transformación del sis-
tema no matemático en el lenguaje matemático.
2. El análisis del modelo, consiste en el estudio sistemático
del modelo.
3. La interpretación del análisis matemático, es la aplica-
ción de los resultados del estudio matemático al sistema
real.
104 Bladimir Serrano; Carlos Loor; Eduardo Tusa
3. Ecuaciones diferenciales
La naturaleza se encuentra sometida a constantes cam-
bios que pueden ser apreciados en diferentes campos de
estudio. En la agricultura, se puede observar las variaciones
que sufre un cultivo de ciclo corto en su tamaño durante el
transcurso del tiempo, así como la variación interna de su
cantidad de nitrógeno después de su fertilización. Existen
muchos problemas en las ciencias agropecuarias que son
formulados matemáticamente para determinar una fun-
ción desconocida que debe satisfacer cierta ecuación, en la
que figuran dicha función y sus derivadas. La ecuación que
contiene la función desconocida y varias de sus derivadas, es
una ecuación diferencial (Hinrichsen and Pritchard 2005).
La modelación matemática por ecuaciones diferenciales
es una aproximación determinística que en la actualidad se
ha constituido en la herramienta fundamental para cum-
plir con los objetivos planteados por muchos investigadores.
Su aspiración es comprender el comportamiento de cier-
tos fenómenos que involucran cambios descritos por ecua-
ciones que relacionan magnitudes variantes en el tiempo
(Greefrath 2011).
Retomando el ejemplo del modelo poblacional, la suposi-
ción de que la tasa de crecimiento posee un ritmo propor-
cional al tamaño de su población resulta razonable para una
población de animales en condiciones ideales de ambiente
ilimitado, nutrición adecuada, ausencia de depredadores,
inmunidad ante enfermedades. Si representamos las varia-
bles que están relacionadas en este fenómeno, encontramos
el tiempo, t, como la variable independiente y al número
de habitantes, N, como la variable dependiente. Bajo estas
condiciones, la rapidez de crecimiento de la población está
descrita por la siguiente ecuación (1)
110 Bladimir Serrano; Carlos Loor; Eduardo Tusa
% Ecuaciones diferenciales
f = @(t,x) [-k1*x(1);k1*x(1)-k2*x(2)];
% Comando para resolver ecuaciones diferenciales
[tsol, xsol] = ode45(f, [t0,tmax], [x0, y0]);
k1 = 1; % Constante de proporcionalidad 1
k2 = 1/10; % Constante de proporcionalidad 2
k3 = 3; % Constante de proporcionalidad 3
N = 1000; % Número de puntos
t0 = 0; % Condición inicial en t
y0 = 20; % Condición inicial en y
tmax = 12; % Ancho de la ventana
t = linspace(0,1,N); % Dominio de la función
% Ecuaciones diferenciales
yd1 = @(t,y) [k1*y-k3];
yd2 = @(t,y) [k1*y-k2*y.^2];
yd3 = @(t,y) [k1.*y-k2*y.^2-k3];
% Comando para resolver ecuaciones diferenciales
[t1, y1] = ode45(yd1, [t0,tmax], y0);
[t2, y2] = ode45(yd2, [t0,tmax], y0);
[t3, y3] = ode45(yd3, [t0,tmax], y0);
% Comandos de graficación de la función solución
plot(t1,y1,t2,y2,t3,y3,’LineWidth’,2)
axis([0 tmax 0 50])
grid on;
title(‘Gráficas de las curvas de la población de peces’)
xlabel(‘Tiempo [años]’)
ylabel(‘Población de peces [Tons]’)
legend(‘Sin aglomeración’,’Sin cosecha’,’Modelo completo’)
Fuente: Elaboración propia.
Imagen 4.12. Gráfica de las soluciones de las ecuaciones diferenciales (33), (34) y
(40) en MATLAB
4. Conclusiones
Se ha presentado detalladamente un enfoque matemático -
conceptual a través del cual, se pueden ilustrar soluciones ana-
líticas, gráficas y computacionales; de un pequeño grupo de
problemas presentes en el campo de las ciencias agropecua-
rias. Los modelos determinísticos ofrecen una aproximación
simple que permite la comprensión general de los elementos
esenciales que actúan en el problema mediante el estable-
cimiento de relaciones entre variables. Las ecuaciones dife-
renciales resuelven problemas que poseen comportamientos
dinámicos implícitos en su naturaleza cambiante en el tiempo.
Se han abordado principalmente ecuaciones diferenciales
ordinarias de primer orden, tanto lineales como no lineales.
El lector puede validar sus resultados a través del programa
MATLAB que implementa diferentes métodos numéricos para
la resolución de ecuaciones diferenciales. De esta manera, se
brinda herramientas matemáticas importantes para la conso-
lidación de una investigación portadora de una profunda fun-
damentación científica que orienten la modelización de los
objetos de estudio en diferentes áreas profesionales.
125
Referencia Bibliográfica
Austin, E. J., J. Willock, I. J. Deary, G. J. Gibson, J. B. Dent, G. Edwards-Jones,
O. Morgan, R. Grieve, and A. Sutherland. 1998. “Empirical Models of
Farmer Behaviour Using Psychological, Social and Economic Varia-
bles. Part I: Linear Modelling.” Agricultural Systems 58 (2): 203–24.
Bagni, Raul, Roberto Berchi, and Pasquale Cariello. 2002. “A Compari-
son of Simulation Models Applied to Epidemics.” Journal of Arti-
ficial Societies and Social Simulation 5 (3). http://jasss.soc.surrey.
ac.uk/5/3/5.html.
Barnes, B., and G. R. Fulford. 2011. Mathematical Modelling with Case Stu-
dies: A Differential Equations Approach Using Maple and MAT-
LAB, Second Edition. CRC Press.
Bober, William. 2013. Introduction to Numerical and Analytical Methods
with MATLAB® for Engineers and Scientists. CRC Press.
Bock, Hans H. 1996. “Probabilistic Models in Cluster Analysis.” Computa-
tional Statistics & Data Analysis 23 (1): 5–28.
Borrelli, Robert L., and Courtney S. Coleman. 1998. “Differential Equations:
A Modeling Perspective.” John Wiley and Sons. http://www.sidalc.
net/cgi-bin/wxis.exe/?IsisScript=uccma.xis&method=post&forma-
to=2&cantidad=1&expresion=mfn=002946.
Fedeniuk, Ricky Wayne. 1998. “Oxytetracycline Degradation in Model Meat
Processing Systems.” http://ecommons.usask.ca/handle/10388/etd-
10212004-001432.
Fishwick, Paul A. 2007. Handbook of Dynamic System Modeling. CRC
Press.
Fowler, A. C., and Anna C. Fowler. 1997. Mathematical Models in the
Applied Sciences. Cambridge University Press.
Greefrath, Gilbert. 2011. “Using Technologies: New Possibilities of Tea-
ching and Learning Modelling – Overview.” In Trends in Teaching
and Learning of Mathematical Modelling, edited by Gabriele Kai-
ser, Werner Blum, Rita Borromeo Ferri, and Gloria Stillman, 1:301–4.
International Perspectives on the Teaching and Learning of Mathe-
matical Modelling. Dordrecht: Springer Netherlands.
Gurney, William, and R. M. Nisbet. 1998. Ecological Dynamics. Oxford
University Press.
126
Capítulo
datos agropecuarios
Irán Rodríguez Delgado; Bill Serrano;
Diego Villaseñor Ortiz
Irán Rodríguez Delgado: Ingeniero Agrónomo (1992) Universidad Central de Las Villas, Cuba
Magister en Agricultura Sostenible (2009) Universidad de Cienfuegos, Cuba; Investigador Agre-
gado (2009) Instituto de Investigaciones de la Caña de Azúcar, Cuba; Profesor Titular (2015)
Universidad Técnica de Machala. Autor de cuatro libros y 17 artículos publicados.
Bill Serrano: Ingeniero Agrónomo e Ingeniero en Gestión Empresarial, Magister en Administra-
ción de Empresas y estudiante doctoral en Análisis Económico y Estrategia Empresarial en la
Universidad A Coruña. Fue Gerente de Almacén y Jefe Comercial Zonal en ICESA, Gerente de
producto en ICESA y COMPTECO. Actualmente Profesor Titular en la Universidad Técnica de
Machala.
Diego Villaseñor Ortiz: Profesor Titular de la Universidad Técnica de Machala (UTMach), es Inge-
niero Agrónomo, con Maestría en Ciencias Agronómicas con mención en suelos, obtenida en
la Universidad de Concepción (Chile). Actualmente es parte del programa de doctorado en
Ciencias del suelo y nutrición de plantas en la Universidad Estadual Paulista (Brasil).
128 Irán Rodríguez Delgado; Bill Serrano; Diego Villaseñor Ortiz
Concepto
La definición y conceptualización de la estadística como
ciencia es muy amplia y diversa, y se encuentra asociada
con la experiencia de cada profesional en su área del cono-
cimiento. La estadística, según Steel & Torrie (1985) comenzó
en sus inicios como una aritmética estatal de apoyo a los
gobernantes para la recaudación de impuestos y para Bar-
nett (1991) es la ciencia encargada de estudiar la forma en
que se emplea la información y ofrecer el procedimiento
ante situaciones prácticas que envuelven experimentos alea-
torios. Johnson y Kuby (2012) definen a la estadística como
el lenguaje universal de las ciencias, ya que es aquella que
involucra información numérica y gráfica donde se resume
su comportamiento y a partir de la cual se efectúa la inter-
pretación en cualquiera área del conocimiento.
Batanero (2001) señala que la estadística se ha dividido
clásicamente en dos segmentos; estadística descriptiva, la
que permite realizar resúmenes del conjunto de datos con
el objetivo de caracterizar y describir las variables objeto
de estudio, sin extender sus resultados a una población; y
la estadística inferencial, la cual estudia los resúmenes de
datos con referencia a un modelo de distribución probabilís-
tico y su finalidad es inferir el comportamiento de la pobla-
ción a partir de los resultados en la muestra. Sin embargo,
Estadística básica con datos agropecuarios 129
Propiedades
− Puede asumir un número incontable de valores.
− Alcanza un número infinito de valores entre dos puntos
fijos en función de la precisión que se utilice en el estu-
dio.
− Nunca puede ser medida con exactitud; el valor obser-
vado depende en gran medida de la precisión de los ins-
trumentos de medición.
− Con una variable continua se presenta inevitablemente
un error de medida, por ejemplo, la estatura de una per-
sona (1,67 m; 1,675 m; 1,6758 m), en los cuales siempre
se puede presentar un valor intermedio asociado con la
cantidad de decimales que se utilicen.
− Son las que se obtienen de mediciones. Pueden ser
representadas con números enteros (cuando se redon-
dean) o fraccionarios.
Ejemplo: se obtuvo el peso de tomates en gramos y se alcan-
zaron los siguientes valores: 80,5 g y 80,6 g; sin embargo,
entre los valores encontrados, si agregamos otro decimal,
puede existir otro valor que puede ser 80,55 g.
Discretas o discontinuas: son aquellas variables que solo
pueden alcanzar un determinado conjunto de valores den-
tro de su distribución de datos, los cuales serían disconti-
nuos o enteros, pero nunca fraccionados.
Propiedades
− Entre las categorías de la variable no se puede intro-
ducir una modalidad intermedia, únicamente aquellos
datos que pertenecen al conjunto.
Estadística básica con datos agropecuarios 135
Escalas de medición
Los valores finales que se obtienen luego de medir una
variable presentan distintos atributos dentro de los cuales
se encuentran el orden, la distancia y el origen, los cuales
136 Irán Rodríguez Delgado; Bill Serrano; Diego Villaseñor Ortiz
Propiedades
− Caracteriza (describe, identifica, nombra, nomina) a
un sujeto u objeto, de una muestra o población, en una
categoría, sin que exista un orden implícito entre ellas.
− No tiene magnitud ni intervalo.
− Lo que estudia o representa la variable solo puede
agruparse en categorías exhaustivas y mutuamente
excluyentes.
− Una categoría de esta variable no es más que la otra, no
existe un orden jerárquico, solo son diferentes.
− A cada una de las categorías de la variable se le asignan
atributos que pueden ser tanto nombres como números
(cuando se utilizan tienen un carácter simbólico).
− Representan el nivel más bajo de medición.
− Con la información generada por este tipo de variable
no pueden realizarse las operaciones aritméticas habi-
tuales (suma, resta, multiplicación y división).
Ejemplo: variedades de soya (INIAP 305, INIAP 308, INIAP
310, entre otras).
Ordinales: son aquellas que cuentan con un orden en sus
categorías como único atributo.
Propiedades
− Ordena o clasifica a los sujetos u objetos según posean
más, menos o la misma cantidad de la variable que se mide.
Estadística básica con datos agropecuarios 137
Propiedades
− Incluye en sus VFM el cero absoluto, es decir que el
cero es simplemente arbitrario o relativo y en realidad no
significa ausencia de la variable, sino que es un nivel más
de medición de la variable en cuestión.
− Tiene intervalos iguales y medibles. No tiene un origen
real, por lo que puede asumir valores negativos.
− No solo indica que las temperaturas 15°C y 30°C son
distintas y que 30°C es mayor que 15°C (orden), sino que,
además, agrega una nueva información al plantear que
30°C es cualitativamente tan distinto de 15°C como lo es
15°C de 0°C (distancia).
138 Irán Rodríguez Delgado; Bill Serrano; Diego Villaseñor Ortiz
Propiedades
− Tiene intervalos constantes entre valores, además de
un origen real.
− El cero significa la real ausencia de la variable, aunque
no del individuo.
− Tanto cero metros, como cero cantidad de vástagos en
una planta, significa ausencia de altura y de ahijamiento,
y no interesa que el primer valor corresponda a un indi-
viduo inexistente y el segundo a una planta que existe.
− Son las que mayor cantidad de información ofrecen.
− Permiten realizar las operaciones aritméticas habitua-
les como suma, resta, división y multiplicación.
Ejemplo: las variables altura de la planta a los 60 días (cm) o
peso de cerdos al sacrificio (kg).
Es importante significar que el análisis estadístico que se
desarrolla sobre variables nominales no es el mismo que
se aplica sobre variables ordinales, aunque si es igual para
las variables de intervalo o de razón, a excepción del coefi-
ciente de variación, el cual no puede ser calculado en varia-
bles donde el 0 es un valor más de variable (intervalo). Sin
embargo, aunque una variable numérica de intervalo es de
forma teórica diferente a una numérica de razón, en la prác-
tica se utiliza el mismo tipo de técnica estadística.
Una variable cualitativa puede ser dicotómica o politómica
medida en escala nominal u ordinal (categóricas) y una
Estadística básica con datos agropecuarios 139
Relación causa-efecto
En el ámbito de la investigación científica la experimenta-
ción surge cuando el investigador manipula una o varias
variables (Montero y León, 2005) con la finalidad de detectar
su influencia en otras variables medidas u observadas; por lo
que dominar sus características y propiedades constituye un
elemento importante que facilita el logro de una interpreta-
ción correcta del proceso estudiado. Su objetivo es demos-
trar relaciones de causalidad. De acuerdo al papel que jue-
gan en el problema o propósito de la investigación y en el
diseño experimental las variables se clasifican en variables
dependientes (VD), variables independientes (VI) y variables
intervinientes.
1. Dependientes: conocidas también como las variables de
medida, exógenas, de respuesta, de estudio o de resultado.
Características
− Depende del valor que asuman otros fenómenos o
variables independientes.
− Su variabilidad está condicionada por la VI y por otras
variables intervinientes.
− La VD es aquella que es observada o medida para
determinar el efecto de la causa de variación manipu-
lada por el investigador (VI).
− Es la variable que se desea caracterizar o explicar y en
muchos casos optimizar en función de la modificación
del o los factores de estudio (VI).
− En los estudios investigativos pueden observarse o
medirse una o varias VD, debido a que la manipulación
de una o dos VI pueden influir en varias particularidades
de la unidad muestral.
140 Irán Rodríguez Delgado; Bill Serrano; Diego Villaseñor Ortiz
Características
− Es aquella propiedad o característica que se supone es
la causa de variación del fenómeno estudiado.
− Es aquella cuyo valor no depende de otra variable, sino
del criterio del investigador al estructurar su diseño de
investigación.
− Los cambios en los valores o atributos de este tipo de
variable determinan cambios en los valores de otra.
− En investigación experimental se denomina de esta
manera a la variable que el investigador modifica en fun-
ción del estudio que desarrolla y es aislada de cualquier
otro factor.
− La VI es la que el investigador escoge para establecer
los grupos en el estudio, aunque normalmente se utili-
zan uno o dos factores, ya que estudiar simultáneamente
tres o más en un experimento imposibilita realizar una
interpretación correcta de la influencia de cada uno en
los resultados finales.
− La VI o variables explicativas se representan con la letra
X (X1, X2,…Xp) y se ubican en el eje de las abscisas (eje X).
Ejemplo: se necesita conocer el efecto de la fertilización con
nitrógeno (N) en el cultivo de la caña de azúcar, para lo cual
se estudian varias dosis (40 kg ha-1 de N, 60 kg ha-1 de N y 80
Estadística básica con datos agropecuarios 141
Características
− Es aquella que determina las relaciones entre dos o
más variables.
− Por su condición se interpone entre la VI y la variable
dependiente (VD).
Las variables intervinientes pueden ser confusoras, interme-
dias o de control.
Confusoras: propia de estudios observacionales en los cua-
les el investigador no interviene, su aparición puede intensi-
ficar o antagonizar la relación aparente entre el problema y
una posible causa. Influye sobre la VI y la VD. Ejemplo: varia-
ción genotípica de las plantas.
Intermedias: aparecen de manera inesperada, y por tanto
es metodológicamente incontrolable su acción entre el fac-
tor causal y el efecto. Su naturaleza es aleatoria, no se conoce
su distribución antes de efectuar la recolección de datos. Casi
siempre es numérica y se denominan covariables. Ejemplos:
precipitación y temperatura promedio en un periodo deter-
minado.
Control: posee fuerte influencia sobre la VD y ningún efecto
sobre la VI. Se identifica en el momento de la planeación de
la investigación. En estudios observacionales su control se
realiza mediante los criterios de exclusión y en los experi-
mentales mediante la aplicación de la técnica de bloqueo.
Aunque pueda tener algún tipo de influencia en la VD no
se estudia como factor causal. Ejemplo: variación de la ferti-
142 Irán Rodríguez Delgado; Bill Serrano; Diego Villaseñor Ortiz
Categorización de variables
Las variables numéricas, ya sean discretas o continuas, pue-
den transformarse en categóricas al perder sus atributos
de medición, a lo cual se le denomina categorización de la
variable y se utiliza cuando se necesita realizar algún diag-
nóstico de una situación determinada, lo que puede ayudar
a la toma de decisiones.
La transformación de una variable es posible siempre que
sea en una de menor jerarquía y de forma general se pre-
senta el inconveniente de la perdida de información, por lo
que en la práctica siempre es conveniente, cuando sea el
caso, medir las variables en la forma que ofrezcan la mayor
información posible.
Ejemplo: en una clínica veterinaria se obtuvo el peso en
kilogramos (variable numérica de razón) de 30 animales tra-
tados en una semana y con fines de diagnóstico se agrupan
de acuerdo al peso en: raza pequeña (hasta 5 kg de peso),
raza mediana (a partir de 5 y hasta 20 kg) y raza grande (más
de 20 kg), por lo que se define una nueva variable categó-
rica ordinal ya que perdió sus atributos de origen y distan-
cia, y posteriormente se agruparon en función de su pade-
cimiento a Babesia canis, construyéndose dos categorías,
enfermos con B. canis y no enfermos con B. canis (se define
una nueva variable categórica nominal al perder el atributo
orden) (anexo 1).
Media aritmética
Aunque existen varias medias, como la ponderada, hiper-
geométrica, cuadrática y armónica, la media aritmética es la
más utilizada entre todas las medidas de resumen de datos.
Se representa por la letra X con una barra horizontal encima
() para los datos muestrales y por la letra griega mu (µ) para
distribuciones de datos poblacionales. Solamente puede
calcularse en datos numéricos. Se define como la sumatoria
de todas las puntuaciones de una distribución de datos, divi-
dida por el número total de casos.
Estadística básica con datos agropecuarios 145
Propiedades
− Es única, o sea, que cada conjunto de datos posee una
sola media.
− Representa un valor alrededor del cual oscilan todos
los valores de la variable medida, es el valor medio de
todos los datos, por lo que también se le denomina pro-
medio.
− Tiene la ventaja de ser utilizada en procedimientos
estadísticos como la comparación de medias de varios
conjuntos de datos.
− Es apropiada para variables numéricas medidas en
escala de razón.
− Es la única medida donde la suma de las desviaciones
de cada valor respecto a la media es igual a cero. Se con-
sidera un punto de equilibrio en el conjunto de datos
(Lind et al., 2004).
− Para su cálculo se utilizan todos los valores de la serie
de datos, por lo que no se pierde ninguna información.
La media presenta la desventaja de que su valor puede
estar influenciado o afectado por valores extremos o atípi-
cos, denominados outliers en inglés (Milton, 1994). Según
Maronna (1995) la media es muy sensible a valores extremos,
por lo que no es robusta. Los valores de la distribución de
datos pueden ser muy pequeños o muy grandes; al alejarse
en exceso del resto de la serie de datos pueden condicio-
nar en gran medida el valor de la media o promedio, por lo
que puede perder representatividad. El investigador puede
optar por realizar los cálculos y tenerlos en cuenta o no, aun-
que debe realizar la aclaración.
Mediana
Es el valor central de los datos, es decir, supuesta la muestra
ordenada en forma ascendente o descendente, es el valor de
la serie de datos que divide en dos partes iguales a la pobla-
ción o muestra y se sitúa justamente en el centro de la mues-
146 Irán Rodríguez Delgado; Bill Serrano; Diego Villaseñor Ortiz
Propiedades
− Es única y siempre existe.
− Puede determinarse en variables numéricas de inter-
valo o de razón y en las categóricas ordinales (Lind et al.,
2004).
− No presenta el problema de estar influenciada por
valores extremos ya que no depende del valor que toma
la variable, sino del orden de las mismas, por ello es ade-
cuado su uso en distribuciones de datos asimétricas.
− Es mejor utilizar la mediana que la media cuando se
trata de un conjunto de datos en el cual existen valores
extremos o sesgados, o sea, en distribuciones asimétri-
cas, ya que proporciona una medida de tendencia cen-
tral más exacta.
Moda
Es el valor o la categoría de una variable que se presenta u
ocurre con la mayor frecuencia, o sea, el que más se repite.
Es una medida de centralización que tiene sentido estudiar
en una variable cualitativa o cuantitativa. Para determinar la
moda no necesita realizar ningún cálculo.
Propiedades
− Se puede utilizar en cualquier escala de medición.
− Si bien a simple vista no se observa la centralidad de
la moda, debemos indicar que, en un grupo normal, la
mayoría de los datos se encuentran cercanos a un punto
central, por lo que se presume que el dato que más se
repite estará cercano a este punto.
Estadística básica con datos agropecuarios 147
Medidas de posición
Representadas por los cuantiles y definidos como un valor
observado de la variable en la muestra por debajo del cual
se encuentra una frecuencia acumulada k, o sea, que el
número de valores menores o iguales a él constituyen la pro-
porción p del número total de observaciones en la muestra.
Se determinan mediante un método que obtiene la ubica-
ción de los valores que dividen un conjunto de observacio-
nes en partes iguales.
Dentro de los cuantiles se encuentran los percentiles, cuar-
tiles y deciles.
Percentiles
Un percentil de orden k es igual a un cuantil de orden k/100,
o sea, que para obtenerlo se divide la distribución de datos
en 100 partes iguales.
Cuartiles
Se determinan mediante la división de la distribución de
datos en cuatro partes iguales, obteniéndose cuatro gru-
pos con frecuencias similares (25%) y tres puntos de división
denominados cuartiles (Anderson et al., 2008).
− Primer cuartil (Q1) es igual al percentil 25 (P25).
148 Irán Rodríguez Delgado; Bill Serrano; Diego Villaseñor Ortiz
Deciles
Para obtenerlo se divide entre 10 la distribución total de
datos. En cualquier distribución de datos que se estudie el
valor del Decil 5 (D5) sería el mismo que el P50 (mediana) y
que el Q2.
La utilización práctica de las medidas de posición se centra
en conocer los porcentajes de casos que se encuentran por
debajo o por encima de un punto dentro del conjunto de
datos.
Ejemplo: se desea conocer los valores que representan las
diferentes posiciones en la distribución de datos de la varia-
ble peso de los animales (kg) atendidos en una clínica vete-
rinaria en una semana (anexo 1), para lo cual se elaboró un
diagrama de cajas y sesgos con la utilización del SPSS.
Procedimiento estadístico: abrir la base datos con el
SPSS>desplazarse en la barra de menú y seleccionar gráfi-
cos>generador de gráficos>aceptar>en galería se elige el grá-
fico que se desea elaborar, en este caso diagrama de cajas y
de las tres opciones que se muestran se marca la opción de
diagrama de caja 1-D por tratarse de una sola variable y se
traslada hacia la vista previa del gráfico, y se arrastra la varia-
ble peso de los animales hacia el eje X>aceptar. Se genera
el diagrama de cajas (Box plot) (Tukey, 1977), que puede ser
editado al ser seleccionado y dar doble clic. En el visor de
resultados del SPSS se muestra el diagrama de cajas y ses-
gos solicitado (Imagen 5.2.).
Estadística básica con datos agropecuarios 149
Imagen 5.2. Diagrama de cajas (Box plot) que muestra el valor de los cinco puntos
que lo integran y la posición del valor atípico dentro de la distribución de datos.
Rango
Conocido también como amplitud total, mide el recorrido total
de los valores en la muestra. Se denota con la letra R o como
AT. Es el límite dentro del cual se encuentran comprendidos
todos los valores de la serie de datos; se obtiene al determinar
la diferencia entre el número menor y el mayor (Garriga et al.,
2010). Cuanto mayor es el rango o amplitud de los datos, más
dispersos se encuentran alrededor de la media aritmética, sin
considerar la afectación de posibles valores extremos (Sokal y
Rohlf, 1994).
Propiedades
− Sus unidades son las mismas que las unidades de las
variables.
− El rango muestral no es una buena medida de dispersión,
ya que para su determinación solamente utiliza dos obser-
vaciones, o sea los valores extremos (máximo y mínimo),
por lo que puede estar influenciado por estos valores.
− El rango aumenta con el número de observaciones o se
queda igual; pero nunca disminuye.
− Puede dar indicios de la variabilidad que presenta la dis-
tribución de datos.
Estadística básica con datos agropecuarios 151
Varianza
Es la sumatoria de las diferencias cuadráticas de n puntua-
ciones con respecto a su media aritmética, o sea, mide el
promedio de las desviaciones al cuadrado de las observa-
ciones respecto a la media aritmética; por lo tanto, expresa
la variabilidad de la distribución de datos alrededor de la
media y nunca será negativa. Se denota por S2 para los datos
muéstrales y por sigma cuadrado (σ2) para datos poblacio-
nales. Se expresa en el cuadrado de la unidad de medida
utilizada.
Cuando se calcula la varianza en poblaciones de datos en
el denominador de la fórmula se utiliza el total de observa-
ciones (N), aunque es el caso menos común, sin embargo,
cuando interesa estimar la varianza poblacional y se utilizan
datos que provienen de una muestra (caso más común), en
el denominador de la fórmula se le resta uno al tamaño de
la muestra (n-1), que serían los grados de libertad; con lo que
se busca aplicar una pequeña medida de corrección que
hace a la varianza más representativa y un estimador no ses-
gado de la varianza de la población.
Características
− La desviación típica o estándar origina como resul-
tado un valor numérico que representa el promedio de
la diferencia que se presenta entre los datos y la media
aritmética.
− Su utilización es muy importante para evaluar el área
que queda por debajo de una curva de distribución nor-
152 Irán Rodríguez Delgado; Bill Serrano; Diego Villaseñor Ortiz
Coeficiente de variación
El coeficiente de variación (CV) es la relación que se pre-
senta entre la desviación típica o estándar de una población
o muestra y su media aritmética. Es también denominado
Coeficiente de variación de Pearson y su fórmula es:
Ecua. 1 Ecua. 2
Propiedades
− Es adimensional debido a que no se expresa en unida-
des, las cuales se simplifican al dividir la desviación típica
o estándar entre la media aritmética. Se expresa en por-
centaje (%), lo que garantiza una mejor interpretación.
− Indica la variabilidad o dispersión relativa de los datos
de la variable analizada alrededor de la media aritmé-
tica.
− Si el valor del CV aumenta existe mayor heterogenei-
dad de los valores de la variable en cuestión; y si dismi-
nuye se presenta mayor homogeneidad.
− Es la única medida que no es generada por el SPSS por
lo que debe ser calculada de forma manual con la utili-
zación de la fórmula descrita anteriormente.
Estadística básica con datos agropecuarios 153
Medidas de distribución
Describen la forma en que se reúnen los datos de acuerdo a
la frecuencia en que se encuentran dentro de la distribución.
Permiten conocer la forma en que se agrupan o separan los
valores en relación con su representación gráfica, aunque su
utilidad radica en la posibilidad de identificar las característi-
cas de la distribución sin necesidad de generar dicho gráfico.
Sus principales medidas son el coeficiente de asimetría de
Fisher y el coeficiente de Curtosis.
Ecua. 3
Propiedades
− Medida de forma o apuntamiento que permite identi-
ficar si las frecuencias de datos se distribuyen de forma
uniforme alrededor de la media aritmética, la cual cons-
tituye su eje de asimetría.
154 Irán Rodríguez Delgado; Bill Serrano; Diego Villaseñor Ortiz
Coeficiente de curtosis
Propiedades
− Medida de apuntalamiento que proporciona el grado
de concentración que muestran las frecuencias de los
valores en el punto medio de la distribución de datos.
− Se denota como g2.
Puede ser:
Leptocúrtica: es cuando se presenta una alta concentra-
ción de frecuencias de valores en el punto central de la dis-
tribución de datos. La distribución de datos es leptocúrtica
cuando g2>0.
Estadística básica con datos agropecuarios 155
Descripción de datos
La descripción de datos constituye una de las principales
funciones de la estadística, la misma puede ser realizada
por medio del cálculo de las medidas de resumen de datos,
tablas y gráficos, en los cuales se muestra la forma en que se
comporta o descubrir patrones de distribución ocultos en
la información recolectada previamente. Sin embargo, no
todos los procedimientos estadísticos son realmente útiles
para las diferentes escalas de medida: lo que se debe tener
en cuenta en el momento de realizar un análisis descriptivo.
En el cuadro 5.1. se presentan las distintas medidas descripti-
vas para las diferentes escalas en que se miden las variables,
así como tablas de frecuencias, tablas de contingencia (para
su elaboración se requieren dos o más variables categóricas)
y técnicas gráficas descriptivas recomendadas.
156 Irán Rodríguez Delgado; Bill Serrano; Diego Villaseñor Ortiz
Cuadro 5.1. Alternativas para resumir los datos de forma tabular y gráfica en función
de las escalas de medición de las variables analizadas.
Escala
de Gráficos
TF TC* Estadísticos descriptivos
medi- recomendados
ción
Nominal Solo y
Si Si No No No Barras y circular
u ordinal mediana
Histograma, dia-
Menos
Intervalo Si No Si Si Si grama de cajas y
el CV
sesgos
Histograma, dia-
Razón Si No Si Si Si Si grama de cajas y
sesgos
Notación: TF=Tabla de Frecuencia. TC=Tabla de Contingencia. *La TC se realiza
cuando se cuenta con dos o más variables categóricas medidas en escala ordinal
o nominal.
Estadísticos descriptivos
Son estadísticos utilizados para describir las características
de variables numéricas y su determinación mediante el uso
de un software estadísticos es algo sencillo; sin embargo, la
presentación de los resultados y su interpretación correcta
es el elemento fundamental a tener en cuenta en cualquier
proceso investigativo que se desarrolle.
Para las variables en los que sus VFM son números, las
medidas de resumen de datos (tendencia central, posición,
Estadística básica con datos agropecuarios 157
N Válido 30
Perdidos 0
Media 18,5067
Mediana 15,6500
Moda 4,90a
Varianza 165,985
Asimetría 1,158
Curtosis 2,545
Rango 57,50
Mínimo 3,50
Máximo 61,00
Percentiles 25 4,9000
50 15,6500
75 25,7750
a. Existen múltiples modas. Se muestra el valor más pequeño.
Interpretación
Los valores diferentes en las medidas de tendencia central
son un indicio que evidencia que la distribución de datos no
es similar a la distribución normal. La =18,51 kg, se encuen-
tra afectada por un valor extremo; el valor de la Me es 15,65
kg y constituye una mejor medida de tendencia central que
la media aritmética, ya que no se encuentra afectada por el
valor extremo presente en los datos, sin embargo, se deduce
que se presenta de forma general un sobrepeso generali-
zado en los animales considerados en el estudio. Los valores
que más se repiten son el 4,9 y el 27,3 (dos veces cada uno),
por lo que es una distribución bimodal, aunque el programa
Estadística básica con datos agropecuarios 159
Cuadro 5.3. Tabla de distribución de frecuencias para la variable peso de los ani-
males en kg.
Imagen 5.3. Histograma de frecuencias para la variable peso de los animales en kg.
Casa-te- Recuento 5 8 13
rraza % dentro de B. canis 25,0% 40,0% 32,5%
Patio-ca- Recuento 8 5 13
lle % dentro de B. canis 40,0% 25,0% 32,5%
Recuento 20 20 40
Total
% dentro de B. canis 100,0% 100,0% 100,0%
Estadística básica con datos agropecuarios 167
Estimación puntual
En investigación científica se estudian fenómenos y se efec-
túan mediciones de una o más variables aleatorias pertene-
ciente a una población, las cuales presentan una distribu-
ción probabilística que puede ser conocida o desconocida,
y le corresponden algunos parámetros que la caracterizan
como son la media poblacional, la varianza poblacional, la
proporción poblacional, entro otros. Estos parámetros gene-
ralmente son desconocidos (a veces no es factible ni eco-
nómico estudiar a cada individuo de la población), por ello,
cuando se estudia una variable se toma una muestra aleato-
ria de esa variable y se efectúan estimaciones válidas y con-
fiables de dichos parámetros.
Con la finalidad de realizar estimaciones aproximadas de
los parámetros poblaciones con la precisión y confiabilidad
que el problema investigado requiere, se utilizan estimado-
res puntuales (un valor concreto); que constituyen estadísti-
cos que tienen el objetivo de acercarse lo más posible al ver-
dadero valor del parámetro poblacional (Horra, 2003), entre
los que se encuentran:
El estadístico o estadígrafo media muestral , es un estima-
dor de la varianza poblacional µ (se simboliza como = µ̂ ).
168 Irán Rodríguez Delgado; Bill Serrano; Diego Villaseñor Ortiz
Ecua. 4
Ecua. 5
Ecua. 6
Ecua. 7
170 Irán Rodríguez Delgado; Bill Serrano; Diego Villaseñor Ortiz
Ecua. 7
Ecua. 8
Donde:
n=tamaño de la muestra.
N=tamaño de la población.
Z1-α/2= valor obtenido en la tabla de la distribución nor-
mal estandarizada para una confiabilidad de 1-α, valor que
es fijado previamente por el investigador en relación con la
rigurosidad del estudio que desarrolla. De forma convencio-
nal se trabaja en la mayoría de las investigaciones con una
probabilidad de error (α)=0,05 (error de tipo I) y un nivel de
confianza del 95% a dos colas (el valor tipificado es 1,96).
β=error de tipo II. 1-β es el poder estadístico (normalmente
0,80) y el valor tipificado de Z1-β =0,84.
p=probabilidad de ocurrencia.
q=complemento de p.
d=error máximo de estimación permitido (precisión). Es
fijada por el investigador y lleva la misma unidad de medida
que la variable de estudio.
S=desviación típica o estándar obtenida en estudios preli-
minares o en un estudio piloto.
En la práctica es común trabajar con estimaciones puntua-
les, y aunque son útiles presentan limitaciones, entre las que
se encuentran.
Estadística básica con datos agropecuarios 171
Ecua. 9
Donde
=̅ Estimación puntual que se realiza a partir de una muestra
de tamaño n.
Primero se le resta la expresión que aparece para buscar
el LI y se suma para buscar el LS (forma abreviada de escribir
la fórmula).
σ=Desviación típica o estándar de la varianza poblacional
(conocida).
n=Tamaño de muestra.
Zα/2=Percentil de la distribución normal estandarizada, del
orden 1-ɑ/2, el cual depende de la confiabilidad de la esti-
mación, con este valor se busca el percentil correspondiente
de 1-ɑ/2.
Ecua. 10
Ecua. 11
Estadística básica con datos agropecuarios 173
Ecua. 12
Cuadro 5.6. Prueba de muestra única que muestra los límites del intervalo de con-
fianza para la estimación de la variable precipitaciones promedio por día con llu-
vias con una confiabilidad del 95%.
Valor de prueba = 0
Sig. 95% de intervalo
Diferencia
t gl (bilate- de confianza de la
de medias
ral) diferencia
Inferior Superior
Precipita-
ciones por
2,718 89 ,008 3,0367 ,817 5,257
día con
lluvia
Conceptualización y caracterización
Una prueba de hipótesis es un procedimiento estadístico
utilizado para verificar la veracidad o falsedad de una hipó-
tesis a partir de la información que ofrece una muestra alea-
toria tomada en su población correspondiente. Bajo este
contexto se presenta la inferencia estadística, en la cual los
valores obtenidos de una muestra aleatoria representativa
son utilizados para estimar parámetros de la población de
estudio donde fueron obtenidos.
Estadística básica con datos agropecuarios 175
Significancia estadística
En el recorrido de una línea de investigación se transita
por diferentes momentos (niveles de la investigación), y si en
cada uno de ellos se plantean estudios con hipótesis, estas
pueden ser empíricas (son aquellas que se presentan en los
niveles exploratorio, descriptivo y relacional; y se originan a
partir de la experiencia del investigador) o racionales (aque-
llas que se presenta en los niveles explicativo, predictivo y
aplicativo; y tiene su origen en el conocimiento previo, o sea,
en los antecedentes investigativos).
Desde el punto de vista estadístico no hay diferencia entre
hipótesis empírica o hipótesis racional, la diferencia se pre-
senta en la forma en que se comprobará dicha hipótesis.
En el nivel exploratorio las hipótesis se comprueban sin
procedimientos estadísticos, ya que este nivel es cualitativo
y no se realiza uso de la estadística.
Si el estudio es cuantitativo y el investigador establece una
hipótesis, esta debe ser verificada; y para ello se necesita
desarrollar un procedimiento estadístico denominado signi-
ficancia estadística (Fisher, 1954), en el cual se utilizan herra-
mientas estadísticas y cuenta con cinco pasos, los cuales se
describen a continuación:
1. Planteamiento de hipótesis
Consiste en plantear las hipótesis estadísticas en la que se
definen la hipótesis del investigador denotada convencio-
nalmente como H1 (llamada hipótesis alternativa), ya que
en realidad es el planteamiento que se desea demostrar
y constituye la base de la investigación; y la hipótesis nula,
expresada como H0, la cual es la negación de la hipótesis
que plantea el investigador y siempre contiene la igualdad.
Ambas hipótesis son excluyentes y de forma convencional
Estadística básica con datos agropecuarios 177
5. Tomar la decisión
La decisión a tomar se encuentra relacionada con el p-va-
lor calculado en la prueba estadística y el nivel de significa-
ción fijado. El p-valor al ser un valor de probabilidad varía
entre 0 y 1.
Si el p-valor obtenido es menor al alfa predefinido para
realizar la prueba (α=0,05 u otro) se presenta evidencia esta-
dística que permite dar por válida la hipótesis del investiga-
dor. Si se obtiene un p-valor mayor al nivel de significancia
se rechaza la hipótesis del investigador.
¿Qué sucede si el p-valor es igual a alfa? Esto no debe ocu-
rrir ya que el p-valor es una variable numérica continua y el
SPSS lo muestra con seis o más decimales (doble clic encima
del valor), aunque normalmente se tiende a redondear las
Estadística básica con datos agropecuarios 181
Procedimiento estadístico
1. Planteamiento de hipótesis
H0: La distribución de la variable peso de los animales es
similar a la distribución normal.
H1: La distribución de la variable peso de los animales es
diferente a la distribución normal.
2. Establecimiento de nivel de significación: α=0,05.
Estadística básica con datos agropecuarios 183
Pasos en SPSS
Se elige la base de datos definida y se abre con el SPSS>se
busca en la barra de menú la pestaña analizar>pruebas no
paramétricas>cuadros de diálogos antiguos>clic en K-S de
una muestra…> trasladar la variable peso de los animales a
lista de variables de prueba>aceptar.
En el visor de resultados del SPSS se muestran los resul-
tados de la Prueba de Kolmogorov-Smirnov de la variable
peso (kg) de los animales (Cuadro 5.8).
Media 18,5067
Parámetros normalesa,b Desviación
12,88351
estándar
Absoluta ,122
Máximas diferencias extremas Positivo ,121
Negativo -,122
Estadístico de prueba ,122
Sig. asintótica (bilateral) ,200c,d
a. La distribución de prueba es normal.
b. Se calcula a partir de datos.
c. Corrección de significación de Lilliefors.
d. Esto es un límite inferior de la significación verdadera.
184 Irán Rodríguez Delgado; Bill Serrano; Diego Villaseñor Ortiz
Procedimiento estadístico
1. Planteamiento de hipótesis
H0: La distribución de datos de la variable supervivencia de
los camarones para cada laboratorio de procedencia es simi-
lar a la distribución normal.
H1: La distribución de datos de la variable supervivencia de
los camarones para cada laboratorio de procedencia no es
similar a la distribución normal.
2. Establecimiento de nivel de significación: α=0,05.
3. Selección y desarrollo de la prueba estadística: Prueba
de normalidad
Estadística básica con datos agropecuarios 185
Pasos en el SPSS
Abrir la base de datos con el SPSS>buscar en la barra de
menú y dar clic en la opción analizar>estadísticos descripti-
vos>explorar>trasladar la variable de estudio a lista de depen-
dientes y los grupos formados a lista de factores>clic en la
pestaña gráficos> en descriptivos se deshabilita la opción de
tallo y hojas ya que es innecesaria en esta prueba y se selec-
ciona la opción gráficos de normalidad con pruebas>conti-
nuar>aceptar.
En el visor de resultados del SPSS se muestran los resulta-
dos de la prueba de normalidad (Cuadro 5.9.).
Cuadro 5.9. Prueba de normalidad de datos.
Dos grupos
La aplicación y explicación de esta prueba cuando se tra-
baja con dos grupos, se efectuará en la sección “Prueba T
de Student para muestras independientes”, debido a que al
Estadística básica con datos agropecuarios 187
Procedimiento estadístico
1. Planteamiento de hipótesis
H0: Se asumen varianzas homogéneas para la densidad del
suelo en los diferentes sistemas productivos a una profundi-
dad de 0-15 cm.
H1: No se asumen varianzas homogéneas para la densidad
del suelo en los diferentes sistemas productivos a una pro-
fundidad de 0-15 cm.
2. Establecimiento de nivel de significación: α=0,05.
3. Selección y desarrollo de la prueba estadística
Prueba de homogeneidad de varianzas. Test de Levene
188 Irán Rodríguez Delgado; Bill Serrano; Diego Villaseñor Ortiz
Pasos en el SPSS
Analizar>comparar medias>ANOVA de un factor>se traslada
la variable de interés que es numérica para el recuadro de
Lista de dependientes y para Factor la variable indepen-
diente (grupos)>clic en opciones y se selecciona la pestaña
Prueba de homogeneidad de las varianzas, la cual es la que
interesa en este ejemplo>continuar>aceptar.
En el visor de resultados del SPSS se muestra la tabla con
la prueba de homogeneidad de varianzas para la variable
densidad aparente del suelo a una profundidad de 0-15 cm
(Cuadro 5.10.).
Cuadro 5.10. Prueba de homogeneidad de varianzas (Test de Levene) para la varia-
ble dependiente densidad aparente del suelo.
Pruebas paramétricas
Se aplican cuando los datos cumplen con los requisitos ana-
lizados en la sección “Distribución de la variable aleatoria”.
Las pruebas paramétricas presentan mayor capacidad para
detectar una relación real o verdadera entre dos variables,
cuando esta existe. Pueden ser para una muestra, para dos
o más muestras independientes y para dos o más muestras
relacionadas.
Procedimiento estadístico
1. Planteamiento de hipótesis
H0: La producción de leche de vaca es igual en los grupos
de casos y controles.
H1: La producción de leche de vaca es diferente en los gru-
pos de casos y controles.
2. Establecimiento de nivel de significación: α=0,05.
3. Selección y desarrollo de la prueba estadística: para reali-
zar el contraste de la hipótesis se desarrolla la Prueba T para
muestras independientes. Lo que se necesita conocer es si la
diferencia entre los grupos es significativa en relación con la
producción de leche.
Pasos en el SPSS
Buscar la matriz de datos y abrirla con el SPSS>seleccionar
en la barra de menú la opción analizar>comparar medias>se
elige prueba T para muestras independientes, se traslada la
Estadística básica con datos agropecuarios 191
Inferior Superior
Se asumen
varianzas ,003 ,959 ,530 286 ,596 ,10618 ,20018 -,28783 ,50019
iguales
No se
asumen
,530 ,596 ,10618 ,20018 -,28783 ,50019
varianzas
iguales
Análisis de varianza
El análisis de varianza (ANOVA por sus siglas en inglés) es
una herramienta estadística que se utiliza para conocer la
varianza que se presenta en uno o más factores de estudio
(variables independientes), definidas a partir del criterio de
conformación de grupos utilizado por el investigador) con
respecto a una o varias variables numéricas medidas en la
investigación (variables dependientes).
El ANOVA es una extensión de la prueba T Student para
muestras independientes y tiene la ventaja que permite rea-
lizar comparaciones de medias en estudios con más de dos
grupos sin que el error de tipo I se incremente.
A continuación, se mencionan los diferentes tipos de pro-
cedimientos para realizar un ANOVA, los cuales se asocian
con el número de factores que se estudian (uno o más de
uno) y si las observaciones realizadas son independientes en
cada grupo o son medidas repetidas dentro de los grupos.
Estadística básica con datos agropecuarios 193
Procedimiento estadístico
1. Planteamiento de hipótesis
H0: Las medias de pH del suelo en los sistemas productivos
son iguales.
H1: Las medias de pH del suelo en sistemas productivos son
diferentes.
2. Establecimiento del nivel de significación: α=0,05.
3. Selección y desarrollo de la prueba estadística: debido
a que se cuenta con cinco grupos y la variable dependiente
es numérica se aplica la prueba paramétrica ANOVA de un
factor intersujetos.
Primeramente, se identifican los tipos de variables estudia-
das, en este caso la VI (sistema productivo), la cual consti-
tuye el factor de estudio y cuenta con cinco versiones (pasto,
cacao, banano, maíz y bosque) y la VD (pH del suelo a la
profundidad de 0-15 cm).
Una vez cargada la base de datos en el visor de datos del
SPSS (vista de datos y vista de variables) se selecciona dentro
de la barra de menú y se da clic en la pestaña analizar>com-
parar medias>ANOVA de un factor>se traslada a la lista de
dependientes la variable pH del suelo y a factor los grupos
objeto de estudio o de comparación, en este caso, la varia-
ble sistemas de producción, clic en la pestaña opciones>se
selecciona los descriptivos, la prueba de homogeneidad de
varianzas para comprobar el cumplimiento del requisito
de homogeneidad de varianza; además, se seleccionan las
pruebas Brown-Forsythe y Welch, las cuales ajustan los gl y
constituyen alternativas al Ratio F que permiten utilizar la
196 Irán Rodríguez Delgado; Bill Serrano; Diego Villaseñor Ortiz
Pruebas post-hoc
Las pruebas post-hoc (a posteriori), constituyen alternativas
que se encuentran implementadas en el paquete estadístico
SPSS (18 pruebas en total; 14 para cuando se asumen varian-
zas homogéneas y cuatro para el caso que no se asumen
varianzas homogéneas), son aquellas que permiten conocer
entre que grupos o tratamientos de comparación se presen-
tan las diferencias o similitudes (Lizasoain & Joaristi, 2003).
Cuando no se presentan diferencias significativas entre los
grupos o tratamientos no es necesario interpretar la prueba
post-hoc y se concluye el procedimiento estadístico, aunque
puede existir un análisis de datos desde el punto aritmético.
Las pruebas post-hoc son aquellas que controlan el error
de tipo I (se produce en la comparación de cada uno de
los pares de grupos por separado), algunas son más robus-
tas que otras y se eligen en función del cumplimiento del
requisito de homogeneidad de varianzas, número de grupos
conformados y la cantidad de observaciones realizadas por
grupo (Cuadro 5.13.).
Pruebas no paramétricas
Las pruebas no paramétricas se aplican para variables cate-
góricas (nominales u ordinales) o cuando la variable numé-
rica no cumple con al menos uno de los requisitos descritos
en la sección “Distribución de la variable aleatoria”.
Prueba Chi-cuadrado
Chi-cuadrado de Pearson (denotada por χ²), es una prueba
estadística utilizada para evaluar hipótesis acerca de la rela-
ción o asociación que se presenta entre dos variables categó-
ricas (nominal u ordinal) ya sean dicotómicas o politómicas.
Se aplica en el nivel relacional, el cual es bivariado y casi siem-
pre la variable grupo es fija y la otra es aleatoria. Es la prueba
no paramétrica más utilizada en la investigación científica,
siempre parte del supuesto que indica que las dos variables
en estudio no se encuentran relacionadas desde el punto
de vista probabilístico y su finalidad es identificar diferencias
entre los grupos participantes (pueden ser dos o más). Tiene
numerosas aplicaciones, entre las que se encuentran:
− Prueba χ² de bondad de ajuste (utilizada para comparar
la frecuencia evaluada en un grupo con el parámetro de su
población y la variable aleatoria es categórica).
− Prueba χ² de independencia (utilizada cuando ambas
variables son categóricas dicotómicas o politómicas, lo que
200 Irán Rodríguez Delgado; Bill Serrano; Diego Villaseñor Ortiz
Procedimiento estadístico
1. Planteamiento de hipótesis
H0: El lugar de tenencia de los caninos no se encuentra
relacionado con el padecimiento a B. canis.
H1: El lugar de tenencia de los caninos se encuentra relacio-
nado con el padecimiento a B. canis.
2. Nivel de significación de la prueba: α=0,05.
3. Selección y desarrollo de la prueba estadística
Una vez organizada la matriz de datos en la vista de varia-
bles y vista de datos del SPSS se procede a aplicar el Test de
Chi-cuadrado, la cual se realiza a continuación del procedi-
miento aplicado para obtención de la tabla de contingencia
descrito en la sección “Tablas de contingencia”.
Pasos en el SPSS
Buscar la base de datos y abrirla con el SPSS>en la barra
de menú del software buscar la opción analizar>estadís-
ticos descriptivos>tablas cruzadas>pasar la variable fija (los
dos grupos creados en función del padecimiento a B. canis)
Estadística básica con datos agropecuarios 201
Referencia Bibliográfica
Aguilera, A. M. (2005). Análisis de tablas de contingencia bidimensio-
nales. Obtenido de http://www.ugr.es/~focana/dclasif/aaguilera.
pdf
Aguilera, A. M. (2006). Modelización de tablas de contingencia mul-
tidimensionales. Editorial La Muralla. Obtenido de https://www.
casadellibro.com/libro-modelizacion-de-tablas-de-contingen-
cia-multidimensionales/9788471337603/1106248
Aguirre, C., & Vizcaino, M. (2010). Aplicación de estimadores estadisti-
cos y diseños experimentales en investigaciones forestales. Iba-
rra, Ecuador: Editorial Universitaria. Universidad Técnica del Norte.
Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2008). Estadística para
administración y economía. Santa Fe: CENGAGE LEARNING.
10a. edición. ISBN-13: 978-607-481-319-7.
Barnett, V. (1991). Sample Survey Principles and Methods. Londres:
Edward Arnold.
Batanero, C. (2001). Didáctica de la estadística. Granada, España:
Grupo de Educación Estadística de la Universidad de Granada
(GEEUG). ISBN: 84-699-4295-6.
Canavos, G. C. (1988). Probabilidad y estadística. Aplicaciones y méto-
dos. México: Editorial McGRAW HILL. Obtenido de https://estadis-
ticaunicaes.files.wordpress.com/2012/05/george-c-canavos-pro-
babilidad-y-estadc3adstica-aplicaciones-y-mc3a9todos.pdf
Casas, J. M. (1996). Inferencia estadística para economía y adminis-
tración de empresas. Madrid, España: Editorial Universitaria.
ISBN: 9788480041959. Obtenido de https://www.casadellibro.
com/libro-inferencia-estadistica-para-economia-y-administra-
cion-de-empresas/9788480041959/512409
Castañeda, M. B. (2010). Procesamiento de datos y análisis estadísti-
cos utilizando SPSS. Río grande do sur: EDIPRUC.
Castro, A., Rodríguez, I., & Ramírez, I. (2018). Evaluación de la produc-
ción de leche en bovinos alimentados con cáscara de banano
maduro. Revista Científica Agroecosistemas, 6(1), 108-114. Obte-
nido de https://aes.ucf.edu.cu/index.php/aes/article/view/171/206
Depool, R., & Monasterio, D. (2013). Probabilidad y estadística. Apli-
caciones a la ingeniería. Barquisimeto, Venezuela: Universi-
203
206 Anexos
No. Peso (kg) Clasificación de la Presencia de B. canis
(numérica raza por su peso (categórica nominal
de razón) (categórica ordinal dicotómica)
politómica)
24 4,9 Pequeña No enfermo
25 25,4 Grande Enfermo
26 23,2 Grande Enfermo
27 27,3 Grande No enfermo
28 22,9 Grande Enfermo
29 4,9 Pequeña No enfermo
30 13,8 Mediana Enfermo
Anexos 207
No. Babesia canis Lugar de tenencia
16 Con Babesia canis Patio-calle
17 Con Babesia canis Terraza-patio
18 Con Babesia canis Patio-calle
19 Con Babesia canis Terraza-patio
20 Con Babesia canis Patio-calle
21 Sin Babesia canis Patio-calle
22 Sin Babesia canis Casa-terraza
23 Sin Babesia canis Terraza-patio
24 Sin Babesia canis Casa-terraza
25 Sin Babesia canis Patio-calle
26 Sin Babesia canis Patio-calle
27 Sin Babesia canis Casa-terraza
28 Sin Babesia canis Terraza-patio
29 Sin Babesia canis Terraza-patio
30 Sin Babesia canis Casa-terraza
31 Sin Babesia canis Terraza-patio
32 Sin Babesia canis Casa-terraza
33 Sin Babesia canis Terraza-patio
34 Sin Babesia canis Casa-terraza
35 Sin Babesia canis Patio-calle
36 Sin Babesia canis Patio-calle
37 Sin Babesia canis Terraza-patio
38 Sin Babesia canis Casa-terraza
39 Sin Babesia canis Terraza-patio
40 Sin Babesia canis Casa-terraza
208 Anexos
Anexo 3. Base de datos de precipitaciones ocurridas en el periodo junio-noviembre
de 2017 en la granja Santa Inés de la Universidad Técnica de Machala.
Días Meses
Junio Julio Agosto Septiembre Octubre Noviembre
1 0 0,4 2,1 0,1 0 0,7
2 0 0 0,3 0 3,5 5,6
3 0 0,2 0,7 0,3 2 0,5
4 0 0 0 0 0,6 1,2
5 0 0 0 0,9 2,4 0
6 0,5 0,5 0 0,4 0,8 1,8
7 3,1 0 0 0,3 0 2
8 0,9 0 1,6 0,2 0 3,5
9 1,9 0 0 0 0 0,5
10 0 0 0 0 0,1 0
11 5,8 0 0,3 0,5 0,7 0
12 10,9 0 0,4 0,8 0,4 2
13 3 0 0 0,9 0 0
14 1,2 0 0 0 0 0
15 0,3 0 0,2 0,5 0 0,5
16 0 0 0 0,6 1,5 0,1
17 3,8 0 0,1 0,1 0,1 1,7
18 6,6 4,7 0,1 0,5 0 0
19 0 3,1 0 0,3 0 0
20 0,4 0 0 0 0 0
21 1 0,8 2,9 1,5 1 0
22 0,2 2,5 0,7 1,3 0 0
23 0,3 0 0,1 0 1,2 1,2
24 0,7 0 0 0 1 1
25 0,9 0,7 1 0,5 0 0,1
26 0 0 0 0 0 1,3
Anexos 209
Días Meses
27 0 0,1 0 0 0 0
28 4,3 0,8 0 0,6 0,5 0
29 4,1 0,4 0 0 0 0
30 0 0,2 0 0 0,4 0
31 0 0,2 0 0 0,1 0
Días
con 19 13 13 18 16 16
lluvia
210 Anexos
Anexo 4. Tabla de números aleatorios.
Anexos 211
212
No. Grupo Producción de leche promedio semanal por vaca (kg)
Anexos
Semana Semana Semana Semana Semana Semana Semana Semana
1 2 3 4 5 6 7 8
Anexos
213
Anexo 6. Porcentaje de supervivencia de camarones obtenidos en cada laboratorio
de procedencia de las larvas utilizadas para la siembra.
214 Anexos
Anexo 7. Densidad aparente del suelo (de 0-15 cm de profundidad) en sistemas
productivos de la granja Santa Inés, pertenecientes a la Universidad Técnica de
Machala.
Anexos 215
Anexo 8. pH del suelo (entre 0-15 cm de profundidad) en sistemas productivos de
la granja Santa Inés, pertenecientes a la Universidad Técnica de Machala.
216 Anexos
Anexo 9. Prueba de Games-Howell que muestra las comparaciones múltiples rea-
lizadas para la variable pH del suelo en función de los sistemas productivos estu-
diados.
Anexos 217
06 Estadística predictiva con datos
Capítulo
agropecuarios
Bill Serrano; Irán Rodríguez Delgado
Interpretación de la Regresión
El análisis de regresión abarca el tratamiento de la depen-
dencia de una variable (variable dependiente, variable expli-
cada, predicha, regresada, variable de respuesta, endógena,
resultado) respecto de una o varias variables (variables inde-
pendientes, variables explicativas, predictora, regresora, estí-
mulo, exógena, covariante, variable de control), con el pro-
pósito de estimar la media poblacional de la primera en
términos de los valores conocidos de las segundas.
Cuando en el tratamiento de la dependencia de una varia-
ble se observa una sola variable independiente se deno-
mina análisis de regresión simple y cuando existe más de
una variable independiente toma el nombre de análisis de
regresión múltiple.
Considere el siguiente ejemplo: A un agrónomo le inte-
resa averiguar las razones de la estabilidad en la distribución
del rendimiento de un cultivo dentro de una población. La
regresión intenta averiguar cómo cambia el rendimiento
promedio del cultivo dado la cantidad de fertilizante apli-
cado. Es decir, lo que intenta predecir es el rendimiento del
cultivo a partir de la cantidad de fertilizante aplicado. Consi-
dere el Gráfico 6.1, correspondiente a un diagrama de disper-
sión. El gráfico muestra la distribución de los rendimientos
del cultivo en una población hipotética, correspondientes
220 Bill Serrano; Irán Rodríguez Delgado
Regresión y causalidad
La causalidad en forma simple se dice que es el principio o
el origen de algo. Este concepto es traído a la práctica para
explicar la relación entre una causa y su efecto. En la estadís-
tica, este término explica la relación de necesidad de coocu-
rrencia de dos variables.
A pesar de que la regresión establece la relación estadís-
tica que pueda existir entre la dependencia de una variable
respecto a otras, y por más fuerte que esta sea, no implica
que exista causalidad necesariamente. Para determinar la
causalidad, es necesario acudir a consideraciones teóricas o
a priori. Usando el ejemplo citado del rendimiento del cul-
tivo, no existe motivo estadístico para suponer que el fertili-
zante depende del rendimiento del cultivo, sin embargo, la
lógica indica que la relación es a la inversa, ya que no es posi-
ble controlar la cantidad de fertilizante aplicado mediante el
rendimiento del cultivo.
Regresión y correlación
El análisis de regresión y la correlación se vincula de manera
estrecha. Por un lado, el propósito principal del análisis de
correlación es determinar el grado de asociación lineal entre
dos variables, por ejemplo, si se desea conocer la correlación
entre la lluvia y el rendimiento de un cultivo; entre la cantidad
222 Bill Serrano; Irán Rodríguez Delgado
Ejemplo Ilustrativo:
El Cuadro 6.3 proporciona datos sobre el rendimiento de un
cultivo por hectárea (medido en tonelada) y el abono apli-
cado (medido en kilogramos). Mediante el software stata
encontramos la ecuación de la regresión:
Estadística predictiva con datos agropecuarios 227
Gráfico 6.4.Heterocedasticidad
Cuadro 6.4. Rendimiento por hectárea considerando el abono aplicado y los milí-
metros de agua recibidos.
Cuadro 6.5. Producción hipotética promedio del cultivo de arroz en las provincias
de El Oro, Guayas y Los Ríos.
Referencia bibliográfica
Berndt, Ernst R. (1991). The Practice of Econometrics, Classic and Con-
temporary, Addison-Wesley.
Cameron, A. Colin y Pravin K. Trivedi. (2005). Microeconomics: Methods
and Applications, Cambridge University Press, Nueva York.
Depool, R., & Monasterio, D. (2013). Probabilidad y estadística. Apli-
caciones a la ingeniería. Barquisimeto, Venezuela: Universi-
dad Nacional Experimental Politécnica Antonio José de Sucre
(Unexpo). Obtenido de http://www.bqto.unexpo.edu.ve/avisos/
PROBABILIDADYESTADISTICA(2-7-13).pdf
Garriga, A. J., Lubin, P., Merino, J. M., Padilla, M., Recio, P., & Suárez, J. C.
(2010). Introducción al análisis de datos. Madrid, España: Univer-
sidad Nacional de Educación a Distancia (UNED).
Goldberger, Arthur S. (1998). Introductory Econometrics, Harvard Uni-
versity Press.
Goldberger, A. S. (1968). Topics in Regression Analysis, Macmillan,
Nueva York.
Greene, William H. (2000). Econometric Analysis, 4a. ed., Prentice Hall,
Englewood Cliffs.
Gujarati, Damodar N. (2006). Essentials of Econometrics, 3a. ed.,
McGraw-Hill, Nueva York.
Gujarati y Porter. (2010). Econometría,5a. ed., McGraw-Hill, Nueva York.
Hayashi, Fumio. (2000). Econometrics, Princeton University Press, Prin-
ceton, N. J.
Hernández, R., Fernández, C., & Baptista, P. (2014). Metodología de la
investigación (Sexta ed.). D.F. México: McGraw-Hill.
IBM Corp. (2016). SPSS Statistics versión 24.0.0.0 de prueba para Win-
dows. Barcelona: International Business Machines Corp.
Johnston, J. (1984). Econometric Methods, 3a. ed., McGraw-Hill, Nueva
York.
Kennedy, Peter. (1998). A Guide to Econometrics, 4a. ed., MIT Press,
Cambridge, Mass.
245
Capítulo
sector agropecuario
Bertha Mazon-Olivo; Alberto Pan; Raquel Tinoco-Egas
El origen:
• Internos. Son de la propia empresa, pueden presentarse
en bases de datos, archivos o reportes de sistemas infor-
máticos (ERP, CRM, SCM)
• Externos. Se obtienen de otras organizaciones (redes
sociales, sistemas de información geográfica, sistemas
gubernamentales) mediante web services, descarga de
sitios web, por email, reportes de sistemas informáticos.
El formato:
• Estructurados. Se obtienen de bases de datos relaciona-
les, otras data warehouse
• Semi-estructurados. Por lo general son archivos en for-
matos: CSV, JSON, XML, HTML, etc.
• No estructurados. datos de archivos como PDF, imagen,
sonido, video, etc.
El tamaño:
• Volúmenes de datos normales. Cientos o miles de regis-
tros medidos en KB o MB.
• Grandes volúmenes de datos (big data). Millones de regis-
tros medidos en GB, TB o PB (Peta Byte), generalmente
se encuentran en sistemas clusterizados con mecanis-
mos de procesamiento y almacenamiento distribuido.
1
Apache Hadoop: http://hadoop.apache.org/
2
Hortonworks: https://es.hortonworks.com/
3
Cloudera: https://www.cloudera.com/
4
AWS Amazon Web Services: https://aws.amazon.com/es/
5
Microsoft Azure: https://azure.microsoft.com/es-es/
258 Bertha Mazon-Olivo; Alberto Pan; Raquel Tinoco-Egas
1
https://www.denodo.com/en
2
https://www.informatica.com
3
http://www.compositesw.com/products-services/data-virtualization-platform/
Inteligencia de negocios en el sector agropecuario 263
Objetivo
Diseñar una solución de inteligencia de negocios (Dash-
board EIS) para el proceso de producción en un consorcio
camaronero, empleando técnicas de análisis multidimensio-
nal OLAP y herramientas que permiten el diseño de un data
warehouse, la ejecución del proceso ETL y la implementa-
ción de un dashboard BI (panel de control de los principales
KPI’s), con el propósito de mantener oportunamente infor-
mados a los ejecutivos que toman decisiones.
268 Bertha Mazon-Olivo; Alberto Pan; Raquel Tinoco-Egas
Plan de trabajo
El plan de trabajo para este caso de estudio, se divide en
actividades, tareas, recursos, responsables y distribución del
tiempo y costos según la metodología CRISP-DM. Por cues-
tión de limitaciones de espacio no se lo incluye en este texto.
Preparación de datos
En esta fase lo ideal es tener acceso a datos reales de una
empresa como una base de datos de un sistema transaccio-
nal. Debido a que se está tratando con un caso de estudio
simulado, se trabajó con datos en una hoja de cálculo.
Modelado
En la Imagen 7.8, se muestran los modelos lógicos de los
data marts que conforman la data warehouse según el caso
de estudio de control de producción del consorcio camaro-
nero.
270 Bertha Mazon-Olivo; Alberto Pan; Raquel Tinoco-Egas
2. Seleccionar las
medidas y dimen-
siones a utilizar, en
este caso se asume
que se dispone de
datos condensados
en una sola hoja
de cálculo denomi-
nada “DATOS BRU-
TOS”.
3. En el lado dere-
cho de la pantalla
se cargan todas
las dimensiones y
medidas, las cuales
se pueden renom-
brar dando clic
derecho.
4. En la parte
izquierda se pue-
den observar los
datos seleccio-
nando la opción
Data. En la opción
de Relaciones se
pueden observar
las relaciones de las
tablas en caso de
haber importado
de una base de
datos.
Inteligencia de negocios en el sector agropecuario 273
7. Se pueden mos-
trar los valores en
las barras, dirigirse a
la pestaña Formato
y habilitar opción
Etiquetas de datos.
274 Bertha Mazon-Olivo; Alberto Pan; Raquel Tinoco-Egas
8. Para cambiar el
título al gráfico ubi-
carse en Título de la
pestaña Formato,
se modifica el texto
del título y listo.
9. Se puede cam-
biar el estilo del grá-
fico seleccionando
otro diseño en
Visualizaciones.
Dashboards BI
Un dashboard es un tablero de control que permite el
manejo integrado de la información importante de la
empresa que es útil para la toma de decisiones. En este caso
de uso, primero se diseñaron los gráficos estadísticos y luego
se publicaron en internet en la cloud de Power BI mediante
una cuenta que se puede crear gratuitamente; sin embargo,
esta cuenta es limitada y, si se requieren de más servicios
o prestaciones se debe cancelar un valor mensual o anual.
Para darle un estilo personalizado de aplicación web, se creó
Inteligencia de negocios en el sector agropecuario 275
Imagen 7.9. Capturas de pantalla de la aplicación web (dashboar BI) con estadísti-
cas de producción de camarón de un consorcio camaronero. En a) estadística de
piscinas, en b) estadísticas de siembra y en b) estadísticas de cosecha.
a) Estadística de piscinas
b) Estadística de siembra
276 Bertha Mazon-Olivo; Alberto Pan; Raquel Tinoco-Egas
c) Estadística de cosecha
Referencia Bibliográfica
Cornejo, R., Navarrete, M., Valdivia, R., Aroca, P., & Aracena, S. (2014).
Desarrollo de una base de datos integrada de Censo y encuesta
mediante el uso de elementos de inteligencia de negocios y SIG.
Ingeniare. Revista Chilena de Ingeniería, 22, 205–217. http://doi.
org/10.4067/S0718-33052014000200007
De Mauro, A., Greco, M., & Grimaldim, M. (2015). What is Big Data ? A
Consensual Definition and a Review of Key Research Topics. In
International Conference on Integrated Information (IC-ININFO
2014) (Vol. 1644, pp. 97–104). http://doi.org/10.1063/1.4907823
FAO. (2016). Programa mundial del censo agropecuario 2020. Volu-
men 1. Programa, definiciones y conceptos. Retrieved from
http://www.fao.org/3/a-i4913s.pdf
Ghosh, R., Halder, S., & Sen, S. (2015). An Integrated Approach to Deploy
Data Warehouse in Business Intelligence Environment. In Proce-
edings of the 2015 Third International Conference on Computer,
Communication, Control and Information Technology (C3IT) (p.
7). http://doi.org/10.1109/C3IT.2015.7060115
Gounder, M. S., Iyer, V. V., Professor-ccis, A., Mazyad, A. Al, & Prof, A.
(2016). A Survey on Business Intelligence tools for University Das-
hboard development. 2016 3rd MEC International Conference
on Big Data and Smart City.
Laudon, K. C., & Laudon, J. P. (2012). Sistemas De Información Geren-
cial. (Pearson, Ed.) (12 Edición). México: Pearson Education.
Marinheiro, A., & Bernardino, J. (2015). Experimental Evaluation of
Open Source Business Intelligence Suites using OpenBRR, 13(3),
810–817.
Mazon-Olivo, B., Rivas, W., Pinta, M., Mosquera, A., Astudillo, L., & Galle-
gos, H. (2017). Dashboard para el soporte de decisiones en una
empresa del sector minero. Conference Proceedings - Universi-
dad Técnica de Machala, 1, 1218–1229. Retrieved from http://inves-
tigacion.utmachala.edu.ec/proceedings/index.php/utmach/article/
view/219/191
Moniruzzaman, A., & Hossain, S. (2013). Nosql database: New era of
databases for big data analytics-classification, characteristics and
comparison. International Journal of Database Theory and
278
Capítulo
a datos agropecuarios
Iván Ramírez-Morales, Eduardo Tusa; Daniel Rivero
Aprendizaje no supervisado
El aprendizaje automático no supervisado, consiste en asig-
nar una máquina la tarea de inferir una función que describa
la estructura oculta de los datos, dado que éstos no han sido
previamente etiquetados. En este caso no se cuenta con la
posibilidad de evaluar fácilmente la exactitud del resultado
de la función inferida.
En este tipo de algoritmos, la salida se asocia con el grado
de similitud entre las características de entrada, es decir que
el aprendizaje se centra en las asociaciones que ocurren en
un conjunto de datos tratando de encontrar cualquier tipo
de regularidad en los datos.
Estas técnicas suelen ser utilizadas para agrupar datos
según su criterio de similitud. Además son muy utilizadas
para visualización de datos ya que permiten reducir a dos o
tres dimensiones, datos multidimensionales. Precisamente
por esta propiedad, los algoritmos no supervisados suelen
ser utilizados para extracción de características previo al
entrenamiento con alguno de los algoritmos de aprendizaje
supervisado.
282 Iván Ramírez-Morales; Eduardo Tusa; Daniel Rivero
Aprendizaje supervisado
El aprendizaje supervisado consiste en el descubrimiento de
patrones válidos a partir de conjuntos de datos de entrena-
miento que han sido previamente etiquetados. En el apren-
dizaje supervisado, cada ejemplo tiene un un objeto de
entrada y un valor de salida deseada.
Un algoritmo de aprendizaje supervisado analiza los datos
de entrenamiento y produce una función inferida, que
puede ser utilizado para el mapeo de nuevos ejemplos. Una
correcta selección de ejemplos, permitirá el algoritmo para
determinar correctamente las etiquetas de clase para nue-
vas instancias. Esta capacidad de inferir la clase de datos
nuevos, se conoce como generalización.
Para entrenar un algoritmo con técnicas de aprendizaje
supervisado, es necesario en primer lugar identificar el con-
junto de datos para el entrenamiento. Este tiene que ser
representativo del universo de datos y debe haber sido eti-
quetado y revisado por expertos en el área.
La precisión va depender en gran medida de las caracterís-
ticas del vector de entrada, estas características deben con-
tener suficiente información sobre el patrón de entrada para
que sea capaz de predecir con precisión la salida deseada.
Debido a un efecto que se denomina la “maldición de la
multidimensionalidad”, el vector de entrada no debe tener
demasiadas características.
Los algoritmos de aprendizaje automático suelen tener
varios parámetros que deben ser ajustados durante el pro-
ceso de entrenamiento, estos paŕametros permiten modelar
de mejor manera y elevan la precisión de la función apren-
dida.
Existe una gran variedad de algoritmos de aprendizaje
supervisado. No existe uno que sea válido para todos los pro-
blemas, cada uno tiene sus particularidades. La selección del
algoritmo idóneo se realiza habitualmente en un proceso
que es empírico y requiere de muchas pruebas cuyo resul-
tado final es la optimización del modelo.
Inteligencia Artificial aplicada a datos agropecuarios 283
Gráfico 8.3 Representación del hiperplano y margen óptimos del modelo (m).
Gráfico 8.4 SVM con un kernel gaussiano φ ((a, b)) = (a, b, a2 + b2) (Shiyu, Nov,
13, 2016)
Gráfico 8.6 Representación de una Red Neuronal Profunda (Liu et al, 2017)
Análisis de señales
En el sector agropecuario es cada vez más común la gene-
ración de datos a partir de sensores, estos equipos generan
señales que en ocasiones son muy complejas para su análisis
manual. Es por esto que varios investigadores han recurrido
al uso de las técnicas de aprendizaje automático.
Una experiencia que se desarrolló en la Universidad Téc-
nica de Machala consiste en el desarrollo de un nuevo
método para el análisis de mastitis subclínica en el ganado
bovino. Este método se basa en el uso de un espectrómetro
de reflectancia en el infrarrojo cercano (Near Infrared Reflec-
tance - NIR), aplicado sobre muestras de leche cruda que
fueron previamente etiquetadas con la metodología están-
dar de California Mastitis Test.
Se recogieron un total de 210 muestras de leche en recep-
tores estériles etiquetados individuales. Se obtuvieron mues-
tras de 67 vacas lecheras de raza mixta con 4,3 ± 1,8 años de
edad, seleccionadas al azar de cinco granjas de la zona.
En el Gráfico 8.7 se observa las características de los espec-
trogramas NIR y sus ligeras diferencias que deberán ser
analizadas utilizando técnicas de ML. El conjunto de datos
estará disponible al público para su análisis una vez que el
manuscrito sea publicado.
En el trabajo presentado, los modelos fueron desarrolla-
dos utilizando una técnica k-NN cuyo objetivo era detectar
294 Iván Ramírez-Morales; Eduardo Tusa; Daniel Rivero
Análisis de imágenes
Entre la comunidad del sector agropecuario es sabido que
las enfermedades de las plantas y de los animales amena-
zan a la seguridad alimentaria, en esta área en particular,
el uso de técnicas de inteligencia artificial tiene un papel
fundamental para la identificación precisa y oportuna de
enfermedades en los cultivos. Sin embargo esta tarea no es
para nada trivial, y requiere de una gran cantidad de recur-
sos para el entrenamiento y desarrollo de los algoritmos.
Actualmente se utilizan imágenes multiespectrales e hipe-
respectrales para el cálculo de índices de salud de la vege-
tación, sin embargo su utilización está muy limitada debido
al alto costo de los equipos. Por otra parte, en los últimos
10 años se ha dado un fenómeno de universalización de la
posesión de smartphones, al punto de que prácticamente
en todas las unidades de producción agropecuaria hay al
menos un dispositivo.
Esta particularidad ha hecho que el diagnóstico de enfer-
medades mediante smartphone sea una realidad cada vez
más cercana. Existen bases de datos tanto públicas como
privadas que han recopilado y etiquetado decenas de miles
de imágenes de plantas enfermas y sanas. En algunos casos
estas imágenes han sido recolectadas en condiciones con-
troladas, por lo que se infiere que su veracidad es alta. En
el caso de bases de datos de animales sanos y enfermos, a
criterio de los autores, no existen muchas fuentes de infor-
mación, por lo que se recomienda iniciar una investigación
en este sentido.
298 Iván Ramírez-Morales; Eduardo Tusa; Daniel Rivero
Análisis de sonidos
Uno de los signos para el diagnóstico de enfermedades en
los animales de granja, está relacionado con el sonido que
emiten los animales. Particularmente en las enfermedades
respiratorias. Los médicos veterinarios consideran a la tos,
como un mecanismo de defensa del cuerpo, contra la posi-
ble entrada de agentes extraños en el sistema respiratorio.
Las características de la tos son indicativos de posibles
enfermedades respiratorias. Partiendo de esta premisa,
varios investigadores han estudiado los sonidos durante un
Inteligencia Artificial aplicada a datos agropecuarios 299
Análisis de videos
La supervisión por video se utiliza comúnmente en aplicacio-
nes de detección y clasificación en la industria agropecuaria,
principalmente en las cadenas agroindustriales y procesos
de postcosecha.
Una aplicación que resulta interesante debido a su poten-
cialidad para automatizar las medianas y pequeñas fábricas
agroindustriales tiene que ver con la utilización conjunta de
técnicas de visión por computadora, técnicas de deep lear-
ning y algunos servo motores. En el trabajo de Afrisal et al
(2013) se utilizó una webcam para obtener vídeos en una
planta de procesamiento de frutas.
El algoritmo de visión por computadora transforma el RGB
(rojo, verde y azul) en el espacio de color HSV (tono, satura-
ción y valor) para facilitar los procesos de segmentación de
color. Luego un algoritmo de agrupamiento separa las frutas
de acuerdo con el nivel de madurez y tamaño. Finalmente,
los servo motores se activan para mover la fruta a una ban-
deja de acuerdo con su grado de calidad.
Gráfico 8.10 Diseño del clasificador portátil desarrollado por Afrisal et al
(2013)
Referencia Bibliográfica
Afrisal, H., Faris, M., P., G. U., Grezelda, L., Soesanti, I., & F., M. A. (2013).
Portable smart sorting and grading machine for fruits using
computer vision. In 2013 International Conference on Compu-
ter, Control, Informatics and Its Applications (IC3INA) (pp. 71–75).
ieeexplore.ieee.org.
Chedad, A., Moshou, D., Aerts, J. M., Van Hirtum, A., Ramon, H., & Berck-
mans, D. (2001). AP—Animal Production Technology: Recognition
System for Pig Cough based on Probabilistic Neural Networks.
Journal of Agricultural Engineering Research, 79(4), 449–457.
Jones, R. H. (1984). Fitting Multivariate Models to Unequally Spaced
Data. In E. Parzen (Ed.), Time Series Analysis of Irregularly Obser-
ved Data (pp. 158–188). Springer New York.
Kapoor, P., & Bedi, S. S. (2013). Weather Forecasting Using Sliding Win-
dow Algorithm. International Scholarly Research Notices, 2013.
https://doi.org/10.1155/2013/156540
Liu M, Shi J, Li Z, Li C, Zhu J, Liu S. Towards Better Analysis of Deep
Convolutional Neural Networks. IEEE Trans Vis Comput Graph
2017;23:91–100.
McCulloch, W. S., & Pitts, W. (1943). A logical calculus of the ideas
immanent in nervous activity. The Bulletin of Mathematical
Biophysics, 5(4), 115–133.
Ramírez, I., Rivero Cebrián, D., Fernández Blanco, E., & Pazos Sierra, A.
(2016). Early warning in egg production curves from commercial
hens: A SVM approach. Computers and Electronics in Agricul-
ture, 121, 169–179.
Ramírez-Morales, I., Fernández-Blanco, E., Rivero, D., & Pazos, A. (2017).
Automated early detection of drops in commercial egg produc-
tion using neural networks. British Poultry Science. https://doi.org
/10.1080/00071668.2017.1379051
Shannon, C. E. (1950). XXII. Programming a computer for playing chess.
The London, Edinburgh, and Dublin Philosophical Magazine
and Journal of Science, 41(314), 256–275.
Shiyu, J. (Nov, 13, 2016). Kernel method in SVM. Retrieved from https://
commons.wikimedia.org/w/index.php?curid=60458994
302
Vapnik, V., Golowich, S. E., & Smola, A. J. (1997). Support Vector Method
for Function Approximation, Regression Estimation and Signal
Processing. In M. I. Jordan & T. Petsche (Eds.), Advances in Neural
Information Processing Systems 9 (pp. 281–287). MIT Press.
Vapnik, V. N., & Kotz, S. (1982). Estimation of dependences based on
empirical data (Vol. 41). Springer-Verlag New York.
Vézina A. Sigatoka leaf spot | The knowledge platform on the banana.
The knowledge platform on the banana 2017. http://www.pro-
musa.org/Sigatoka+leaf+spot (consultado el 11 de mayo de 2018).
Análisis de Datos Agropecuarios
Edición digital 2017- 2018.
www.utmachala.edu.ec