Mineria de Textos 2
Mineria de Textos 2
Mineria de Textos 2
1
LA MINERÍA DE TEXTO COMO HERRAMIENTA PARA LA IDENTIFICACIÓN DEL PERFIL
INVESTIGATIVO: CASO GESTIÓN DEL CONOCIMIENTO EN AMÉRICA LATINA DE 2012
A 2018
INFORME FINAL
2
MARZO 2019
3
CONTENIDO
pág.
INTRODUCCIÓN .................................................................................................................. 9
1 IDENTIFICACIÓN DEL PROBLEMA ................................................................................ 10
1.1 PLANTEAMIENTO DEL PROBLEMA ........................................................................ 10
1.2 FORMULACIÓN DEL PROBLEMA............................................................................ 15
2 OBJETIVOS ..................................................................................................................... 16
2.1 OBJETIVO GENERAL ............................................................................................... 16
2.2 OBJETIVOS ESPECÍFICOS...................................................................................... 16
3 JUSTIFICACIÓN .............................................................................................................. 17
4 MARCO REFERENCIAL .................................................................................................. 18
4.1 MARCO TEÓRICO Y CONCEPTUAL ....................................................................... 18
4.2 MARCO CONTEXTUAL ............................................................................................ 25
5 ESTRATEGIA METODOLÓGICA .................................................................................... 27
6 RESULTADOS Y DISCUSIÓN ......................................................................................... 41
6.1 ANÁLISIS HERRAMIENTAS ..................................................................................... 41
6.2 PRODUCCIÓN ECUACIÓN DE BÚSQUEDA ............................................................ 59
6.3 ANÁLISIS Y DEPURACIÓN DATOS ......................................................................... 60
6.4 CARACTERIZACIÓN PERFIL DE LA INVESTIGACIÓN SOBRE GESTIÓN DEL
CONOCIMIENTO EN AMÉRICA LATINA DE 2012 A 2018 ............................................. 75
7 CONCLUSIONES ............................................................................................................ 89
8 RECOMENDACIONES .................................................................................................... 90
BIBLIOGRAFÍA ................................................................................................................... 91
1
LISTA DE TABLAS
pág.
2
países latinoamericanos
Tabla 21. Investigadores con sus respectivas publicaciones sobre Gestión del 86
Conocimiento
3
LISTA DE FIGURAS
pág.
Figura 11. The Forrester Wave Q3 2018 para plataformas de análisis de texto 53
basadas en AI
4
Figura 20. Ejecución Nodo “POS Tagger” 61
Figura 23. Visualización tabla resultante del Nodo “Document Data Extractor” 63
Figura 27. Visualización tabla resultante del Nodo “Bag Of Words Creator” 65
5
Figura 41. Ejecución Nodo “Row Filter” 72
6
RESUMEN
Este documento presenta los resultados del trabajo de minería de texto aplicado a la
investigación sobre gestión del conocimiento en América Latina de 2012 a 2018. El sistema
permite identificar qué se está investigando, las prácticas o aplicaciones que tiene en la
industria, los países que están dando mayor producción, los autores que se destacan, y las
instituciones donde se investiga. Como fuente de información se utiliza la base de datos
bibliográfica de resúmenes y citas de artículos de revistas científicas llamada SCOPUS de las
cuales se extrajeron unos documentos a partir de una ecuación de búsqueda que fue
construida con base a una documentación previa del tema gestión del conocimiento, los
documentos que arrojó la ecuación de búsqueda fueron procesados y analizados siguiendo
la metodología propuesta por Alan Porter que consta de las fases de inteligencia, análisis e
interpretación. El software de análisis utilizado es KNIME basado en técnicas de minería de
texto y el cual es de código abierto.
Como resultado se obtuvo que la investigación sobre gestión del conocimiento en América
Latina ha tenido un comportamiento creciente en cuanto a la cantidad de publicaciones a
través de los años, donde Colombia por medio de la Universidad Nacional de Colombia ha
sido la de mayor participación en América Latina y el autor que más ha publicado artículos
acerca de gestión del conocimiento es Arias Pérez, J.
7
ABSTRACT
This document presents the results of the work on text mining applied to research on
knowledge management in Latin America from 2012 to 2018. The system allows to identify
what is being researched, practices or applications that the industry has, the countries which
are the largest production, the authors that are imported, and the institutions where they are
investigated. The source of the information is used the basis of the bibliographic data of the
abstracts and the citations of the articles the scientific journals called SCOPUS from which the
documents were extracted are published in a search equation that was based on an
information base on the subject knowledge management The documents that produced the
search equation were processed and analyzed following the methodology proposed by Alan
Porter that consists of the phases of intelligence, analysis and interpretation. The analysis
software used is KNIME based on text mining techniques and which is open source.
As a result, it was found that research on knowledge management in Latin America has had
an increasing behavior in terms of the number of publications over the years, where Colombia
through the National University of Colombia has been the largest participation in Latin
America. Latina and the author who has published the most articles about knowledge
management is Arias Pérez, J.
8
INTRODUCCIÓN
Con la caracterización del perfil de la investigación sobre gestión del conocimiento se cumple
con el objetivo principal de dar a conocer a los grupos de investigación lo que está
investigando América Latina para ubicarlos en contexto. Además, se provee una investigación
descriptiva como soporte que les permita a los grupos de investigación tener un punto de
partida, una visión para seguir profundizando su investigación basado en los avances que ya
han realizado otras universidades del continente.
9
1 IDENTIFICACIÓN DEL PROBLEMA
Según las estadísticas entregadas por Colciencias (2017), en 2015 se registraron 4.638
grupos de investigación en Colombia, que comparado con el año 2017 refleja un crecimiento
del 12,26% lo cual es importante, pero sigue siendo muy bajo con respecto a otros países de
primer mundo, esto es una consecuencia, según Dinero (2018) de “invertir menos de 0,8%
del PIB (Producto Interno Bruto) en materia de innovación”.
10
Tabla 1. Gasto en investigación y desarrollo por PIB de países en el mundo
País Gasto en investigación y
desarrollo por PIB
Japón 3,29%
Alemania 2,93%
Francia 2,22%
Australia 2,11%
China 2,07%
Canadá 1,71%
Italia 1,33%
Rusia 1,10%
Turquía 0,88%
Sudáfrica 0,73%
Argentina 0,63%
México 0,53%
Fuente: www.dinero.com/edicion-impresa/mundo/articulo/paises-que-invierten-en-
innovacion/254269.
El crecimiento del Producto Interno Bruto (PIB) en América Latina y el Caribe para 2018 y
2019 será de 1,6% en este año, con una recuperación en el próximo: 2,6%. La retracción
estará impulsada fundamentalmente por la baja en la proyección de Venezuela, en el caso
de Colombia el FMI calcula que la economía colombiana crecerá 3,6% en 2019. Este
comportamiento, le permite a Colombia ser la tercera económica de mayor crecimiento entre
los países seleccionados por el FMI, solo superado por Chile y Perú, que registrarán un alza
de 3,8% y 3,7%, respectivamente.
11
Figura 2. Proyecciones económicas de América Latina y el Caribe
12
El último The Global Competitiveness, encargado de medir la competitividad nacional,
determina el nivel de productividad de los países de América Latina y países referentes como
Suiza, Estados Unidos y España, según el siguiente ranking:
A pesar de las limitaciones económicas a las cuales se enfrentan los grupos de investigación
en Colombia, se han podido lograr resultados importantes, en el departamento del Cauca, la
Universidad del Cauca, por ejemplo, logró una nueva patente para bolsa biodegradable de
almidón de yuca, además siguiendo el hilo de las universidades públicas en Colombia, la
Universidad del Valle logró una patente de tratamiento contra el cáncer sin efectos
secundarios. Así podemos encontrar muchos otros logros de los grupos de investigación en
Colombia que sin duda demuestra el talento y capacidades para producir grandes aportes a
la ciencia.
13
investigación donde manifiestan que sus resultados no se aplican y por lo tanto se consideran
inútiles ya que no reportan beneficios a la sociedad.
Todo lo anterior refleja la necesidad de los grupos de investigación dado que requieren del
conocimiento de las tendencias y necesidades del mundo real para planificar y organizar el
trabajo investigativo, esto mediante la consideración del empleo de herramienta de minería
de texto para el análisis del estado actual que derive en la caracterización del perfil de la
investigación latinoamericana sobre gestión del conocimiento, ya que esto tiene la ventaja de
que no es lo mismo utilizar personal para la revisión bibliográfica de los movimientos en
materia de investigación a que un programa lo realiza automáticamente proporcionando un
panorama más claro a los diferentes grupos de investigación de la universidad y que permita
tomar como referencia o punto de partida para continuar con el desarrollo de su actividad
investigativa y alcanzar los objetivos propuestos evitando así las dificultades descritas
anteriormente.
14
todo esto apoyado en técnicas de minería de textos que permitan caracterizar el perfil de la
investigación sobre Gestión del Conocimiento en América Latina.
15
2 OBJETIVOS
16
3 JUSTIFICACIÓN
La gestión del conocimiento tiene un proceso que por lo general en las grandes empresas
tienen muy bien definidos y los ponen en práctica, para enfocarlo en la industria del desarrollo
de software, por ejemplo, basan sus técnicas de desarrollo bajo metodologías ágiles que
deben hacerse bajo determinada estructura y que es fundamental que los desarrolladores
tengan claras para realizar su trabajo, es decir, que dominen ese conocimiento. Normalmente
en una empresa si se desea introducir un modelo de gestión del conocimiento, es importante
primero analizar la situación actual, esta situación se puede determinar mediante un mapa de
conocimiento que permite conocer lo que debe saber el trabajador y por ende diagnosticar
qué conocimiento le falta, es aquí donde cobra importancia la gestión del conocimiento ya
que el mapa es la guía que indica las debilidades y fortalezas para sí mismo diseñar el plan
de capacitación, la documentación de lecciones aprendidas y la conformación de
comunidades mediante prácticas de gestión del conocimiento, lo cual evita reprocesos e
inducciones malas y que a su vez genera un gasto potencialmente innecesario a las
empresas.
17
4 MARCO REFERENCIAL
Riquelme, Ruiz y Gilbert (2006) concluyeron que “La minería de datos (MD) es un intento de
buscarle sentido a la explosión de información que actualmente puede ser almacenada”.
18
4.1.2 MINERÍA DE TEXTO
Pérez y Cardoso (2010) concluyeron que “La minería de textos tiene como objetivo extraer
información de texto no estructurado, tal como entidades (personas, organizaciones, fechas,
cantidades) y las relaciones entre ellas”.
La minería de texto es una forma específica de minería de datos que se relaciona con el texto
y que consiste en descubrir el conocimiento que no está literalmente escrito en los
documentos. Las relaciones son demasiados complejas y la información suele estar no
estructurada o semiestructurada, permite extraer información útil e importante de formato de
documentos heterogéneos tales como páginas web, correos electrónicos, artículos de
revistas, respuestas de encuestas con final abierto, formularios web, etc. Esto se hace
mediante la identificación de patrones dentro de textos, tales como tendencias en el uso de
palabras, dependencias, estructura sintáctica y correlaciones de los términos contenidos en
el texto. El objetivo de la minería de texto es la búsqueda de conocimiento en grandes
colecciones de documentos capturando los temas y conceptos claves y descubriendo
relaciones ocultas, actualmente se usa para extracción de información, análisis de opiniones,
clasificación de documentos y elaboración de resúmenes, entre otras aplicaciones.
19
Ascribe Buzzlogix text analysis api
Clarabridge Dataladder productmatch
Clustify Eaagle text mining software
Discovertext IBM SPSS Predictive Analytics
Intellexer Expert System cogito tool
Ureveal IBM infosphere Warehouse
KNIME Lextek Profiling Engine
Lexalytics Megaputer Text Analyst
Kbsportal Reverb
Langsoft Power Text Solutions
Meaningcloud Enterprise Edition
Ontotext Linguamatics I2E
Netowl Loop AI Labs
Polyvista SAS Text Miner
Monkeylearn Treparel KMX Text Analytics
Picturesafe Textpipe Pro
SIFT VP Student Edition
Textquest Data Science Toolkit
Visualtext Rapidminer Text Mining
Aika R Programming
GATE S-EM (SpyEM)
Lingpipe Open Calais
Datumbox Skyttle API
Fuente: Elaboración propia con base en Arvinder Kaur, Deepti Chopra., “Comparison of Text
Mining Tools”, University School of Information and Communication Technology, Guru
Gobind Singh Indraprastha University, New Delhi, Delhi, India.
➔ Hoyos Angel, S.T. (2011). Perfil académico de investigación de los trabajos de grado
de la licenciatura en lenguas modernas de la pontificia Universidad Javeriana: 2001-
2009.
20
➔ Asensio Blasco, E. (2014). Aplicación de técnicas de minería de datos en redes
sociales/web.
➔ Takano Abratani, C., Chavez Espinoza, J., Grandez Márquez, M.A. (2017). Aplicación
de minería de datos para determinar patrones de consumo futuro en clientes de una
distribuidora de suplementos nutricionales.
➔ Botta Ferret, E., Cabrera Gato, J.E. (2007). Minería de textos: una herramienta útil
para mejorar la gestión del bibliotecario en el entorno digital.
Son muchos los autores que han definido el concepto de gestión del conocimiento, sin
embargo, se ha seleccionado la definición dada por Grau (2001) que plantea lo siguiente:
21
4.1.6 INVESTIGACIÓN EN AMÉRICA LATINA
En la actualidad América Latina tiene indicadores más bajos que el primer mundo ya que la
tendencia es esperar que los avances y grandes logros científicos y tecnológicos vengan de
los países desarrollados, pero una forma de propiciar el desarrollo es el uso de herramientas
que faciliten un poco el trabajo investigativo en esta área.
Una revisión del informe “El Estado de la Ciencia 2017”, tomando como muestra el
comportamiento de las publicaciones científicas en la base de datos SCOPUS, revela entre
muchos otros indicadores, un panorama de como es el comportamiento en América Latina
del desarrollo de la investigación de ciencia y tecnología, además de cómo es la evolución de
la inversión en I+D.
22
Figura 7. Evolución de la inversión en I+D de América Latina y el Caribe e Iberoamérica
(Millones de dólares PPC)
4.1.7 METADATOS
En cuanto a las ventajas que traen consigo los metadatos, Agudelo (2013) concluyó que:
✓ Disminución del tráfico en la red al realizar las búsquedas o generar los índices
mediante la clasificación de la representación del objeto.
23
✓ Precisión en los procesos de búsqueda y recuperación en documentación
almacenada en la internet.
Los datos no estructurados, generalmente son datos binarios que no tienen estructura
interna identificable. Es un conglomerado masivo y desorganizado de varios objetos que no
tienen valor hasta que se identifican y almacenan de manera organizada.
24
• Organización documentos.
• Detección de plagios.
• Búsqueda contradicciones.
Minería de fuentes abiertas, • Identificación de temas.
Tesauros • Exploración de tesauros.
e-Commerce • Toma de decisiones.
Marketing • Localización de “trozos” de
información.
• Análisis de mercado.
e-Learning • Herramientas
colaborativas.
Help Desk • Generación de casos
modelo.
• Detección de fallos.
Fuente: Justicia de la Torre, M.C. (2017). Nuevas Técnicas de Minería de Textos:
Aplicaciones.
En un mundo donde las noticias que anuncian un nuevo producto forman parte del que hacer
en la industria y la investigación en los momentos actuales basados en los diferentes medios
de comunicación es importante entender un poco más el proceso que esto conlleva y que
permite obtener exitosos resultados en la mayoría de los casos. La gestión del conocimiento
y los procesos de innovación que generan competitividad es quizás la respuesta que sustenta
la realidad que viven las organizaciones en su búsqueda diaria por sobresalir en un mercado
que cada día se hace más exigente.
Berry y Taggart (1994) concluyeron que “La innovación consiste no sólo en nuevos productos
y procesos, sino también en nuevas formas de organización, nuevos mercados y nuevas
fuentes de materias primas”.
25
Rothwell (1992) define la innovación como “un proceso que incluye la técnica, el diseño, la
fabricación y las actividades comerciales y de gestión implicadas en la venta de un nuevo
producto o el uso de un nuevo proceso de fabricación o equipamiento”
Este trabajo está alineado con el propósito de los siguientes proyectos de investigación que
actualmente se están desarrollando en la Universidad Cooperativa de Colombia sede Cali, ya
que el perfil de la investigación como producto final de este trabajo permite crear un mapa de
conocimiento mapeado en el mundo que permita determinar los autores investigadores y las
instituciones que más se destacan, es decir, donde se deben enfocar los grupos de
investigación de la universidad ya así poder apoyar su labor investigativa :
26
5 ESTRATEGIA METODOLÓGICA
En función del propósito con el que se realiza este trabajo, es una investigación aplicada, ya
que mediante la aplicación de técnicas de minería de texto siguiendo la metodología
propuesta por Alan Porter, se busca construir un perfil de la investigación sobre gestión del
conocimiento en América Latina dentro del periodo comprendido entre los años 2012 a 2018,
que pueda ser de utilidad para los grupos de investigación.
Este trabajo de investigación aplica también como descriptiva, ya que se realiza una
descripción lo más completa posible de lo que pasa en América Latina sobre gestión del
conocimiento que permita obtener una imagen esclarecedora del estado de la situación y con
este construir un perfil de la investigación.
Las fuentes de información científicas son bases de datos que almacena documentos
académicos y científicos en formato digital que están indexadas bajo una estructura que la
minería de texto puede explotar al máximo y cuya finalidad es poner en la red a disposición
de todos los investigadores interesados los resultados científicos que derivan de la actividad
de la ciencia, estas fuentes no han sido lo suficientemente explotadas porque normalmente
en una actividad de investigación, se revisa la bibliografía documento por documento y esto
conlleva a demorar los tiempos de ejecución, sin embargo, empleando tecnología puede
llegar a abarcar mucho más, reduce los tiempos de consulta y permite usando minería de
texto acceder a la información que se requiere de una forma más sencilla.
La evolución de las fuentes de información científicas viene marcada por la facilidad que se
le ofrece al usuario en la navegación de su interfaz, los diversos criterios de búsqueda y la
eficiencia de los algoritmos de búsqueda para optimizar las consultas, por ende, se procede
a caracterizar la importancia de las fuentes de información para diversos tipos de
investigación científica que se desarrollan en cualquier campo de conocimiento, reflejando su
evolución a través del tiempo:
27
Figura 8. Evolución fuentes de información desde 1586 hasta 1992
En el mercado se puede encontrar una gran variedad de bases de datos bibliográficas que
almacenan documentos académicos y científicos con información de alta calidad, La
Universidad de Antioquia (2018) enumera algunas de las que se encuentran disponibles:
➔ Access engineering:
Enfocada en las 14 principales áreas de Ingeniería, AccessEngineering ofrece
amplio contenido proveniente de 314 libros electrónicos. Adicionalmente
incluye un diccionario de ciencias e ingeniería que contiene más de 18.000
términos.
➔ Access Medicine:
Es un centro de recursos en línea que proporciona información sobre los
últimos avances médicos, textos completos de literatura médica, audio
conferencias y simulaciones de exámenes USML. Ofrece los siguientes tipos
de contenido: Libros, base de datos de Medicamentos, simulador de exámenes
USML on-line, AccessMedicine Weekly Podcasts, DDX diagnosaurus, casos
de estudio, educación de pacientes.
28
➔ ACS:
Base de datos editada por la American Chemical Society, con acceso a 35
revistas especializadas en el área química y ciencias afines.
➔ Alfaomega:
Base de datos bibliográfica que ofrece acceso a 89 libros digitales en las áreas
de Educación, Ingeniería, computación, administración y psicología.
➔ APS Physics:
Esta es una colección de 13 revistas especializadas en física, editada por la
American Physical Society. Tiene acceso al Physical Review Online Archive
(PROLA) y contiene los artículos publicados en revistas APS entre 1893 y
2008.
➔ ASME:
Es una base de datos creada por la “American Society of Mechanical
Engineers”, establecida en 1880, que ha generado un código de diseño,
construcción, inspección y pruebas para equipos. Esta colección consta de 26
revistas especializadas en ingeniería mecánica.
➔ Bibliotechnia:
Esta es una colección que cuenta con 448 libros de diferentes áreas
académicas como administración, educación, ingeniería, física, entre otros.
➔ Bio One:
Ofrece acceso en línea a una colección de más de 70 revistas con contenidos
de alta calidad en Ciencias Biológicas, Ecológicas y del Medio Ambiente.
29
➔ Cambridge Journals Online:
Esta Base de Datos Bibliográfica es editada por la Universidad de Cambridge
y ofrece acceso a más de 200 títulos de revistas en áreas de Humanidades,
Ciencias naturales y exactas y Ciencias sociales y humanas.
➔ Clinical Key:
Clinical Key incorpora la mayor cantidad de recursos clínicos y quirúrgicos de
Elsevier, incluidos todos los contenidos de MD Consult, First Consult,
Procedures Consult, Journals Consult Health Science, The Clinics of North
America, Clinical Pharmacology, entre otros. Así como contenido seleccionado
de PubMed, Guidelines, Clinical Trials, entre otros. A partir del año 2015 la
Base de Datos Bibliográfica Clinical Key incorpora una amplia colección que
incluye revistas médicas y quirúrgicas de Elsevier, libros de referencia, Clínicas
Médicas y Quirúrgicas de Norteamérica, monográficos clínicos, videos,
imágenes, medicamentos clínicos, la Enciclopedia Médico-Quirúrgica - EMC y
ensayos clínicos, entre otros.
➔ CRCnetBASE:
Es una Base de Datos de libros en texto completo de las principales
referencias científicas, técnicas y médicas sobre química, física, ingeniería y
farmacéutica, editados por CRC Press y Taylor & Francis.
➔ Current Contents:
Current Contents Connect provee acceso a información bibliográfica completa
de 4.461 revistas académicas en las siguientes disciplinas: Agricultura,
Biología y Ciencias del Medio Ambiente; Ingeniería, Informática y Tecnología;
Ciencias de la vida y Física, Química y Ciencias de la tierra; además incluye
una colección de más de 4.400 sitios Web académicos evaluados.
➔ DialNet:
DialNet es una hemeroteca virtual multidisciplinaria con material predominante
en habla hispana y con acceso a cerca de 3,500 publicaciones electrónicas y
35,000 artículos en texto completo.
➔ Ebooks 7-24:
Plataforma de libros electrónicos, ofrece los títulos de las editoriales Cengage
Learning, Ecoe Ediciones y la Corporación para las investigaciones Biológicas;
son libros de texto ampliamente utilizados para mediar los procesos de
enseñanza-aprendizaje en programas de ingeniería, ciencias económico-
administrativas, ciencias básicas, ciencias sociales y ciencias de la salud.
30
➔ Ebsco:
Base de datos multidisciplinaria con acceso más de 12.000 títulos de revistas
de editores de todo el mundo, los cuales están agrupados en 10 Bases de
Datos Bibliográficas principales, a saber: Fuente Académica, Master File
Complete, News paper source, Academic Search Complete, Business Source
Complete, Masterfile Complete, Newspaper Source, Psychology and
Behavioral Sciences Collection y Regional Business News.
➔ Embase:
Esta Base de Datos es producida por Elsevier, con más de 19 millones de
registros en temas del área Biomédica y la Farmacología. Se pueden encontrar
publicaciones producidas desde 1964 y se complementa con la colección de
MEDLINE, la cual es producida por US National Library of Medicine.
➔ Emerald:
Colección electrónica que ofrece amplia información académica y científica en
disciplinas como Ingeniería, Administración y Ciencia de la Información.
Emerald gestiona un repertorio de más de 290 revistas y más de 2.000 libros
y volúmenes de series de libros, así como una amplia selección de productos
y servicios en línea.
➔ Engineering Village:
Es una Base de Datos en la que se puede encontrar una amplia gama de
innovación y progreso científico, e investigaciones técnicas enfocadas a las
diferentes disciplinas de la ingeniería. Tiene millones de citas bibliográficas,
resumen de gran cantidad de Journals, actas de conferencias, cubre 120 años
de literatura (Backfiles) y se actualiza semanalmente.
➔ ERIC:
ERIC (The Education Resources Information Center) es una biblioteca digital
de recursos de información relacionada con la educación. Es una base de
datos bibliográfica, con acceso a textos completos de artículos y otros
materiales educativos, tales como audio y video, con un cubrimiento desde
1966 hasta la fecha.
31
80/20”, empresas en su tendencia financiera, comparación frente a la
economía en general, frente al sector y frente a otra empresa tipo. Posibilidad
de generar bases de datos para procesos de prospección o Investigación.
➔ Hapi Online:
HAPI Online contiene referencias bibliográficas completas de artículos,
reseñas de libros, documentos, obras literarias originales y otros materiales
que aparecen en más de 400 publicaciones claves de ciencias sociales y
humanidades publicados a nivel internacional sobre Centroamérica y
Sudamérica, México, e hispanos en los Estados Unidos desde 1970.
➔ IEEE Explore:
Publica información de la más alta calidad técnica desde 1988. Comprende las
siguientes áreas: ingeniería eléctrica, ciencias de la computación,
telecomunicaciones y electrónica. Permite acceso a los registros y abstract
plus, texto completo publicados desde 1988. Además, ofrece documentos
como: revistas y magazines, memorias de conferencias (proceedings), normas
y libros (sólo resúmenes).
➔ Jama Network:
Esta base de datos editada por la "American Medical Association" (AMA),
contiene once publicaciones arbitradas (peer-reviewed) con una amplia
circulación en el mundo en el campo de la medicina. Ofrece a sus lectores una
información basada en la evidencia médica y un foro único para el debate
sobre el futuro de la práctica de la medicina y la salud pública.
32
➔ Journal Citation Reports (JCR):
Esta Base de Datos es creada por el Institute for Scientific Information (ISI),
que evalúa objetiva, sistemática y críticamente las revistas más importantes
del mundo, con información cuantificable y estadísticas basadas en datos de
citas que permiten establecer el factor de impacto de una revista dentro de una
categoría o disciplina. Sirve para poder elegir el título de revista más idóneo
en donde publicar nuestros artículos de investigación.
➔ Jstor:
Esta base de datos se compone de publicaciones periódicas con fines
académicos en las áreas de antropología, estudios asiáticos, negocios,
ecología, economía, educación, finanzas, historia, lenguaje y literatura,
matemáticas, filosofía, ciencias políticas, estudios de población, sociología y
estadística. Brinda acceso en texto completo a 195 publicaciones de
información retrospectiva que apoya la investigación histórica.
➔ Knovel:
Permite el acceso a libros técnicos y científicos en formato electrónico,
además, proporciona herramientas interactivas, en la búsqueda, manejo y
análisis de diversas fuentes de información. Contiene las siguientes áreas:
adhesivos, sellantes, recubrimientos y tintas; aeroespacial y de tecnología de
radar; bioquímica, biología y biotecnología; cerámica e ingeniería cerámica;
química e ingeniería química; materiales de construcción e ingeniería;
ingeniería eléctrica y electricidad ingeniería; ingeniería ambiental; ciencia de
los alimentos; referencias generales de ingeniería; ciencias de la vida y
química materiales; mecánica y de ingeniería mecánica; metales y metalurgia
otro; productos farmacéuticos, cosméticos y artículos de tocador; plásticos y
cauchos; seguridad, salud e higiene; semiconductores y electrónica.
➔ Leyex.info:
Base de Datos Bibliográfica especializada en información económica y jurídica
de Colombia. Contiene leyes, decretos, 70 códigos, circulares, resoluciones,
jurisprudencia, laudos arbitrales, proyectos de ley, comunicados de prensa de
la Corte Constitucional, tratados internacionales, diario oficial, noticias
económicas y jurídicas, revistas económicas y jurídicas y la Constitución
Política de Colombia.
➔ Lilacs:
Índice de referencia de la literatura técnico-científica en Ciencias de la Salud
en América Latina y el Caribe, de libre acceso a 630 revistas
aproximadamente. Disponible desde 1990.
➔ Médica Panamericana:
Esta Base de Datos Bibliográfica, de la editorial Médica Panamericana, cuenta
con una colección de 54 libros electrónicos en las áreas de Biología, Educación
física, Enfermería, Medicina, Microanálisis, Nutrición, Odontología, Psicología,
Química, Química farmacéutica y Salud pública.
33
➔ Micromedex:
Esta base de datos ofrece información sobre medicamentos y medicina
complementaria a través de dos colecciones importantes: Drugdex y
DrugReax. Drugdex es una fuente de información en medicamentos,
indispensable y con información referenciada e imparcial en cuanto a dosis,
farmacocinética, precauciones, interacciones, eficacia comparativa,
indicaciones (incluye uso “off-label”) y aplicaciones clínicas. DrugReax es una
herramienta interactiva para monitoreo e identificación de interacciones
medicamento - medicamento, medicamento - alimento, medicamento -
enfermedad, medicamento - alcohol y medicamento - laboratorio, además de
reacciones alérgicas previas. Ahora incluye interacciones importantes con
fitofármacos, contraindicaciones y alertas en el uso durante el embarazo y
lactancia.
➔ Nature:
Esta es una colección de revistas de la Nature Publishing Group, una de las
instituciones más importantes en el mundo de las publicaciones científicas.
Entre sus revistas está ‘Nature’, revista bandera de NPG desde 1869 y una de
las más importantes en el área de ciencia, tecnología y medicina. La colección
de revistas incluye: Nature Biotechnology, Nature Genetics, Nature
Immunology, Nature Medicine, British Dental Journal y European Journal of
Clinical Nutrition.
➔ Normas Icontec:
Permite el acceso a más de 2000 normas del ICONTEC (Instituto Colombiano
de Normas Técnicas y Certificación). Las normas incluyen las siguientes áreas:
medio ambiente, protección y salud, ingeniería industrial, ingeniería eléctrica,
electrónica, telecomunicaciones, tecnología de la Información y equipos de
oficina, tecnología de alimentos, tecnología química, materiales de la
construcción y edificios, ingeniería civil, generalidades, terminología,
normalización y documentación, ensayos, equipo para el manejo de
materiales, fluidos y componentes para uso general, industrias del caucho y
del plástico, industrias del vidrio y de la cerámica, ingeniería de la energía y
transferencia de calor, metrología y mediciones, sistemas y componentes
mecánicos de uso general, tecnología del cuidado de la salud.
➔ OECD:
Permite el acceso a los textos completos de más de 2.000 estudios mundiales,
publicados por la Organización para la Cooperación y el Desarrollo
Económicos desde 1998 a la fecha. Contiene revistas, estadísticas, libros,
boletines de noticias, obras de referencia y ponencias de congresos y
conferencias de las publicaciones producidas por la OCDE desde 1998.
Comprende las siguientes áreas: administración pública, agricultura, alimentos
y pesca, asistencia al desarrollo, asuntos financieros y fiscales, biotecnología,
ciencia y tecnología, comercio, comercio electrónico, combate a la corrupción,
crecimiento, desarrollo, desarrollo territorial (regional, urbano y rural),
economía, economía territorial, economías emergentes y en transición,
34
educación, empleo y fuerza de trabajo, empresa, industria y servicios, energía,
energía nuclear, estudios de futuros, finanzas e inversión, gobierno
corporativo, impuestos, medio ambiente, migración internacional, políticas de
competencia y consumo, reforma regulatoria, salud, seguros y pensiones,
tecnologías de información y comunicaciones y finalmente transporte.
➔ Ommbid:
Ommbid es uno de los recursos más importantes sobre las bases metabólicas
y moleculares de las enfermedades hereditarias, cuenta con los aportes de
Jean-Marie Saudubray, uno de los genetistas más reconocidos del mundo,
ofrece miles de imágenes de alta resolución en temas como el diagnóstico
visual, la investigación y los procedimientos. También ofrece algoritmos para
diagnósticos concisos y sobre síndromes y sistemas específicos.
➔ OVID:
Base de Datos especializada en ciencias de la salud, con acceso al texto
completo de la colección Total Access Collection de Lippincott Williams &
Wilkins con 290 revistas, 85 libros de LWW, así como a la Base de Datos
EBMR (especializada en medicina basada en la evidencia) incluidas las
revisiones sistemáticas tanto de Cochrane como de ACP, pruebas controladas
y respuestas clínicas, Global Health en salud pública de la editorial CABI y
Ovid Medline(R).
➔ Oxford Journals:
Esta base de datos contiene más de 228 títulos de revistas digitales editadas
por la Universidad de Oxford en los siguientes temas: Ciencias Biológicas,
Medicina y Ciencias de la Salud, Epidemiología, Humanidades, Ciencias
Sociales, Derecho y Leyes, Economía, Negocios y Finanzas, Estadística,
Matemáticas, Física e Informática.
➔ Panamericana:
Esta Base de Datos Bibliográfica, de la editorial Médica Panamericana, cuenta
con una colección de 54 libros electrónicos en las áreas de Biología, Educación
física, Enfermería, Medicina, Microanálisis, Nutrición, Odontología, Psicología,
Química, Química farmacéutica y Salud pública.
➔ PASSPORT:
Es una fuente de información empresarial que provee estudios y estadísticas
sobre industrias, productos, servicios, países y consumidores. Es considerada
como la principal fuente de referencia para la toma de decisiones estratégicas
con relación a los mercados internacionales y locales. Passport apoya la
docencia y la investigación en disciplinas como administración, negocios
internacionales, mercadotecnia, turismo y hotelería, finanzas, economía,
ciencias de la salud, ciencias sociales y políticas e ingeniera industrial en todo
el mundo.
35
➔ PubMed:
PubMed es un servicio de la National Library of Medicine (Biblioteca Nacional
de Medicina de los Estados Unidos). Incluye más de 14 millones de referencias
a artículos biomédicos desde 1950. Estas referencias son obtenidas del
MEDLINE y otras revistas de ciencias de la vida.
➔ Reaxys:
Proporciona la más completa información acerca del recorrido de una reacción.
Con reacciones en pasos múltiples, usted tiene una mejor percepción de los
pasos intermedios en un proceso sintético; identificar las reacciones
precursoras específicas mejorará su flujo de trabajo. Esta Base de Datos tiene
un planificador de síntesis. Se pueden generar diferentes esquemas de
reacción mezclando reacciones de diferentes artículos y patentes. Se utiliza
"la química como principio organizador": claramente establecidos los perfiles
de sustancias o reducir el tiempo de reacción para llegar a los resultados
pertinentes. Puede vincular directamente a Scopus y documentos de texto
completo (revistas y patentes) para permitir una mayor exploración de toda la
literatura científica.
➔ Redalyc:
Redalyc es la Red de Revistas Científicas de América Latina, el Caribe,
España y Portugal; es una Base de Datos Bibliográfica líder en servicios de
información científica de acceso abierto a nivel internacional, está orientada a
cubrir las necesidades de información especializada de estudiantes,
investigadores y tomadores de decisiones en materia de desarrollo científico y
tecnológico; con contenidos especializados e indicadores que permiten
conocer cuantitativa y cualitativamente la forma en la que se está haciendo
ciencia en Iberoamérica.
➔ SAGE:
Base de datos multidisciplinaria con 650 títulos de revistas que brindan acceso
a texto completo desde 1999 a la fecha, en áreas como ciencias de la salud,
ciencias de la vida, ciencias sociales y humanas e ingenierías;
aproximadamente el 60% de las revistas poseen factor de impacto en el
Journal Citation Report.
➔ Scielo:
Base de datos de acceso libre a revistas con texto completo que cubren
disciplinas tales como: arquitectura, ciencias agrícolas, ciencias biológicas,
ciencias de la salud, ciencias de la tierra, ciencias jurídicas, ciencias Sociales,
humanidades, ingeniería, matemática, oceanógrafa y química.
➔ Science Direct:
Es una de las colecciones electrónicas más grandes del mundo en ciencia y
tecnología, física, ingeniería, ciencias de la vida, ciencias sociales, ciencias
humanas y medicina. Ofrece acceso al texto completo de 2323 títulos de
revistas e información bibliográfica referencial de cerca otros 1039 títulos; de
36
igual manera, ofrece el texto completo de 2001 libros en formato pdf y la
información referencial de 4912 libros más.
➔ Scifinder:
Colección electrónica especializada para los científicos y académicos de las
ciencias de la vida y de los materiales. Ofrece acceso a referencias y
resúmenes en 6 Bases de Datos Bibliográficas: CAPLUS (Artículos, Patentes,
Tesis, etc.), MEDLINE (Informaciones de Salud), REGISTRY (Substancias
Químicas), CASREACT (Reacciones Químicas), CHEMCATS (Proveedores
de Productos) y CHEMLIST (Listas Regulatorias). Además, permite recuperar
información en las áreas de: Agricultura, Biología, Farmacia, Física, Geología,
Ingeniería, Materiales, Medicina, Microbios, Química, Tecnología nuclear y
Textiles entre otros.
➔ Scopus:
Es una base de datos bibliográfica de resúmenes y citas de artículos de
revistas científicas más importante del mundo, editada por Elsevier, es la más
grande en su género, con cerca de 22.000 títulos de revistas indexadas en
áreas multidisciplinarias como ciencia, tecnología, medicina y ciencias
sociales. Scopus es fundamental para realizar estados del arte en procesos de
investigación y para determinar la producción científica de un investigador, un
grupo o una institución.
➔ Springer Link:
Es la mejor fuente de artículos arbitrados en texto completo de revistas y
fuentes de referencia. Con amplia cobertura en ciencias físicas, tecnología,
medicina, ciencias sociales, artes, teología, literatura y otros temas. Además,
podemos acceder de manera perpetua a 12.500 títulos de libros con
contenidos multidisciplinarios en formato pdf, que corresponden a los años
2005 a 2008.
➔ Ulrichsweb:
Es la principal base de datos con publicaciones periódicas que cubre todas las
disciplinas. Contiene información de unos 300.000 títulos de revistas de
aproximadamente 80.000 editores de 200 países.
➔ UpToDate:
Es una herramienta de apoyo para la toma de decisiones clínicas con profundo
impacto en el cuidado del paciente. Esta colección electrónica proporciona
acceso a más de 10.000 temas clínicos y 21 secciones para especialidades
claves; más de 8.500 recomendaciones de tamizaje y tratamiento calificadas
según los criterios de medicina basada en evidencias; información sobre 5.100
medicamentos de patente y remedios naturales, con información específica
para adultos y pediatría; 347.000 referencias con vínculos a la National Library
of Medicine (Medline) y 135 calculadoras clínicas.
37
➔ Web of Science:
Base de datos del ISI (Institute of Scientific Information) que contiene
información referencial sobre investigación multidisciplinaria de alta calidad,
publicada en revistas líderes mundiales. En áreas como: ciencias puras,
ciencias sociales, artes y humanidades.
➔ Wiley InterScience:
Base de datos multidisciplinaria que incluye acceso al texto completo de 424
títulos de revistas en las áreas de medicina, ciencia y tecnología.
➔ Wilson:
Es una base de datos multidisciplinaria que incluye resúmenes e información
en texto completo, desde 1982, en las áreas de ciencias sociales y
humanidades, ciencia y tecnología, arte, educación, ciencias agrarias,
biología, derecho, negocios, literatura y ciencias de la información.
➔ Zentralblatt Math:
ZBMATH provee una cobertura global de la investigación matemática
publicada desde el año 1826. Contiene más de 3 millones de referencias de
más de 3500 revistas y más de 1100 publicaciones seriadas, así como libros,
conferencias y otros trabajos de investigación.
Para determinar la metodología que permita definir un perfil de la investigación sobre gestión
del conocimiento se hace una revisión y un estado del arte de cómo trabajos anteriores han
empleado técnicas de minería de texto para lograr dar respuestas a preguntas como ¿Qué
se está haciendo? ¿Dónde lo están haciendo? ¿Quiénes se destacan?, lo cual marca un
camino hacia la metodología propuesta por Alan Porter a la cual se le hace una adaptación
según la necesidad del proyecto que permita el análisis retrospectivo de los resultados de
investigación en gestión del conocimiento, finalmente la adaptación de la metodología se
define por las fases descritas en la Tabla 5.
38
Tabla 5. Adaptación metodología propuesta por Alan Porter
FASES PASOS OBJETIVO
39
Para la construcción del perfil de la investigación, es importante recordar la definición de las
variables guías en el proceso, ya que el proyecto va a tener un enfoque específico según la
necesidad actual de los grupos de investigación. Las variables definidas son las siguientes:
40
6 RESULTADOS Y DISCUSIÓN
Una de las actividades importante del proyecto, resulta en elegir la herramienta de minería de
texto que se va a usar, para determinar la herramienta que permita construir el perfil de la
investigación sobre Gestión del Conocimiento en Latinoamérica dentro del periodo
comprendido entre los años 2012 a 2018, se realiza un estado del arte mediante la
investigación de cuáles son las herramientas con técnicas empleadas para la minería de texto
con fines científicos que ofrece el mercado en la actualidad, lo cual arroja un total de 54
herramientas de las disponibles en el mercado.
41
10 Clustify Licenciada 2000 Clasificación
11 Dataladder Licenciada 2006 Aprendizaje automático
productmatch
12 Discovertext Licenciada Análisis de texto basado en la nube,
motor de clasificación de máquinas
de Active Learning
13 Dtsearch Licenciada 1991 Clasificación de datos avanzada
14 Eaagle text mining Licenciada Algoritmos de descubrimiento de
software conocimiento
15 Expert System cogito Licenciada 1989 Inteligencia artificial de algoritmos,
tool análisis semántico, procesamiento
de lenguaje natural.
16 IBM SPSS Predictive Licenciada 1968 Analítica predictiva / modelación,
Analytics algoritmos de inteligencia artificial.
17 Intellexer Licenciada Procesamiento natural del lenguaje
18 Ureveal Licenciada 2000 Métodos de análisis de texto
patentados que incluyen aprendizaje
imparcial, OLAP
19 Kbsportal Licenciada 2016 Procesamiento de lenguaje natural
como un servicio web SAAS
20 KNIME Fuente 2006 Mezcla de datos y transformación
abierta Funciones matemáticas y
estadísticas Algoritmos predictivos
avanzados, incluido el soporte de
Weka
21 Langsoft Licenciada Inteligencia artificial y procesamiento
del lenguaje natural.
22 Lexalytics Licenciada 2003 Técnicas de aprendizaje automático
y reglas de la industria adaptadas
por expertos, procesamiento de
lenguaje natural, algoritmos
avanzados
23 Lextek Profiling Licenciada 1993 Recuperación de información y
Engine procesamiento del lenguaje natural.
24 Linguamatics I2E Licenciada 2001 Procesamiento natural del lenguaje
25 Loop AI Labs Licenciada 2012 Aprendizaje automático, inteligencia
artificial.
26 Meaningcloud Licenciada 2015 Análisis de sentimiento a nivel de
característica, procesamiento de
lenguaje en redes sociales.
27 Megaputer Text Licenciada 1997 Técnicas lingüísticas, semánticas,
Analyst estadísticas y de aprendizaje
automático.
28 Monkeylearn Licenciada 2013 Aprendizaje automático,
procesamiento del lenguaje natural,
clasificación, extracción,
agrupamiento y regresión.
42
29 Netowl Licenciada 1996 Lingüística computacional avanzada,
procesamiento de lenguaje natural,
aprendizaje automático.
30 Ontotext Licenciada 2000 Base de datos de grafos semánticos
31 Polyvista Licenciada 2001 Algoritmos de reconocimiento
preconstruidos.
32 Picturesafe Licenciada 1992 Métodos estadísticos, principios
lingüísticos básicos
33 Power Text Solutions Licenciada 1998 Tecnología de resumen de
documentos múltiples, resumen de
documentos sin consultas.
34 Rightfind(tm) XML for Licenciada Técnicas de descubrimiento del
Mining conocimiento.
35 SAS Text Miner Licenciada Modelos predictivos, aprendizaje
automático, procesamiento de
lenguaje natural, técnicas de minería
de datos.
36 SIFT Licenciada 2011 PNL, aprendizaje automático.
37 Skyttle API Licenciada Análisis de sentimiento y extracción
de palabras clave, PNL
38 Swapit, Fraunhofer- Licenciada 1989 Motor de minería de texto Docminer,
FIT text and data metodologías de vanguardia a partir
analysis tool de estadísticas, recuperación,
inteligencia artificial y visualización.
39 Textpipe Pro Licenciada Algoritmos de procesamiento de
texto
40 Textquest Licenciada Análisis de contenido, análisis de
legibilidad.
41 Treparel KMX Text Licenciada Aprendizaje automático, clasificación
Analytics potenciada por SVM,
emparejamiento difuso o
probabilístico
42 Visualtext Fuente 1998 Sistemas de procesamiento de
abierta lenguaje natural.
43 VP Student Edition Licenciada Red de conocimiento, análisis de
tendencias.
44 Aika Fuente Aprendizaje automático, redes
abierta neuronales artificiales, minería de
patrones frecuentes e inducción
gramatical.
45 Data Science Toolkit Fuente Algoritmos avanzados
abierta
46 Datumbox Fuente Aprendizaje automático, extracción
abierta de palabras clave.
47 GATE Fuente Procesamiento natural del lenguaje
abierta
43
48 Lingpipe Fuente 2003 Lingüística computacional
abierta
49 Open Calais Fuente Motor de etiquetado mejorado
abierta
50 Rapidminer Text Fuente 2007 Aprendizaje automático
Mining abierta
51 Reverb: Open Fuente PNL, algoritmos WEKA
Information Extraction abierta
Software
52 S-EM (SpyEM) Fuente Naive Bayes y algoritmo EM
abierta
53 TXM - Unicode, XML, Fuente Funciones estadísticas basadas en
TEI text/corpus abierta paquetes R
analysis platform
54 R Programming Fuente Técnicas estadísticas y gráficas.
abierta
Fuente: Elaboración propia con base en Arvinder Kaur, Deepti Chopra., “Comparison
of Text Mining Tools”, University School of Information and Communication Technology,
Guru Gobind Singh Indraprastha University, New Delhi, Delhi, India.
En la actualidad el mercado ofrece una gran variedad de herramientas para minería de texto,
cada una con características técnicas y funcionales diferentes, teniendo en cuenta que a
diferencia de las herramientas de análisis de datos convencionales, la tarea que se realiza en
la minería de texto es mucho más complejo puesto que extrae información de datos no
estructurados, por tal razón se emplean técnicas de minería de texto tales como
procesamiento natural del lenguaje, aprendizaje automático, inteligencia artificial, métodos
estadísticos, aprendizaje lingüístico, análisis semántico, modelado predictivo, técnicas de
clasificación, entre otras. Según los resultados descritos en la Tabla 6, se puede observar
que tan solo el 5% son herramientas online, para el 71% hay que pagar licencia y el 24% son
gratuitas, este es un criterio importante para tener en cuenta en la selección de la herramienta
a usar en este proyecto de investigación, puesto que es una actividad académica que no
dispone de presupuesto y en el caso de algunas herramientas, su costo de licenciamiento es
alto.
Al igual que las características técnicas son fundamentales al evaluar una herramienta de
software ya que esto define su capacidad de respuesta, las características funcionales es un
criterio importante a tener en cuenta ya que es finalmente lo que define la experiencia del
usuario en cuanto al uso de la herramienta, por ende su grado de dificultad en navegación y
entendimiento influye de gran manera a la hora de tomar la decisión puesto que el propósito
de las herramientas de software es mejorar la experiencia del usuario. Cada una de las
herramientas de minería de texto descritas en la Tabla 7, responde a una o varias
necesidades específicas y por ende se especializa en usos como el análisis, procesamiento
y clasificación de texto, principalmente, pero además tiene usos como el análisis de
sentimiento, análisis semántico y para el caso que ocupa en este proyecto, el descubrimiento
de conocimiento.
44
Tabla 7. Aspectos funcionales herramientas de minería de texto
Núm. HERRAMIENTA CARACTERISTICAS ANTECEDENTE SITIO WEB
/ USOS
1 Ranks.nl Análisis de páginas, www.ranks.nl/
análisis de artículos,
análisis de páginas
múltiples
2 Text Sentiment Análisis de los
Visualizer sentimientos
3 Textalyser Análisis de texto Discuss, reflect, textalyser.net/
and collaborate:
A qualitative
analysis of forum,
blog, and wiki use
in an EFL
blended learning
course
4 Alceste Análisis de datos Modelling Climate www.image-
textuales, análisis Change Effects zafar.com/Logi
multilingüe, análisis on Wine Quality cieluk.html
Based on Expert
temporal.
Opinions
Expressed in
Free-Text
Format: The
WEBSOM
Approach
5 Anderson Analytics Analítica de texto Prediction of odintext.com/#
odintext Online Lectures
Popularity: A Text
Mining Approach
6 Ascribe Analítica de texto goascribe.com
/
7 Basis Technology Análisis de texto, Web services and www.rosette.c
Rosette análisis de texto data mining: om/
multilingüe combining
linguistic tools for
Polish
with an analytical
platform
8 Buzzlogix text Análisis de textos, buzzlogix.com/
analysis api análisis de text-
sentimientos, analysis.html
clasificación, análisis
de palabras clave.
9 Clarabridge Analítica de texto www.clarabrid
ge.com/textan
alytics
10 Clustify Categorización de Cluster Based www.cluster-
documentos Text text.com/
45
Classification
Model
11 Dataladder product Limpieza de datos, dataladder.co
match clasificación. m/products/pro
ductmatch/
12 Discovertext Analítica de texto Can social media discovertext.co
reveal the m/
preferences of
voters? A
comparison
between
sentiment
analysis and
traditional opinion
polls
13 Dtsearch Búsqueda de texto Managing www.dtsearch.
Knowledge in com/
Neuroscience
14 Eaagle text mining Análisis de texto wp.eaagle.com
software /?Page_id=16
15 Expert System Gestión del Supporting www.expertsys
cogito tool conocimiento, sense-making tem.com/
comprensión and decision-
making through
semántica, toma de
time evolution
decisiones. analysis of open
sources
16 IBM SPSS Minería de datos y Social media www.ibm.com/
Predictive Analytics minería de textos, competitive analytics/us/en
análisis estadístico analysis and text /technology/sp
mining: A case
ss/
study in the pizza
industry
17 Intellexer Análisis de textos y Harvesting www.intellexer.
gestión de la knowledge from com/knowledg
información, computer e_managemen
mediated social
comparación y t.html
networks
categorización de
documentos.
18 Ureveal Análisis de datos, www.ureveal.c
análisis de textos. om/
19 Kbsportal Análisis de texto, kbsportal.com/
categorización de
documentos,
20 KNIME Análisis de texto, E / Big data and www.knime.or
S de datos, sentiment g/knime
preprocesamiento y analysis using
KNIME: Online
limpieza, modelado,
reviews vs. social
análisis y extracción media
de datos
46
21 Langsoft Respuesta a www.langsoft.c
preguntas, inferencia h/refer.htm
lógica, reconocimiento
de contenido y
atribución de texto.
22 Lexalytics Análisis de The Impact of www.lexalytics
Sentimiento, Sentiment .com/
Categorización y Analysis Output
on Decision
Extracción de
Outcomes: An
Entidades Nombradas Empirical
Evaluation
23 Lextek Profiling Gestión de Sector content www.lextek.co
Engine documentos y mining system m/
conocimientos. using a modular
knowledge base
24 Linguamatics I2E Extracción de textos Mining Protein– www.linguama
Protein tics.com/produ
Interactions from ctsservices/ab
Published
out-i2e
Literature Using
Linguamatics I2E
25 Loop AI Labs Procesamiento y www.loop.ai/
análisis de textos.
26 Meaningcloud Análisis de textos, Turning user www.meaning
análisis semántico, generated health- cloud.com/
análisis de redes related content
into actionable
sociales.
knowledge
through text
analytics services
27 Megaputer Text Analítica de texto Analysing www.megaput
Analyst competitors' er.com/site/tex
online persuasive tanalyst.php
themes with text
mining
28 Monkeylearn Analítica de texto Machine Learning monkeylearn.c
based Analysis of om/
Twitter Data to
Determine a
Person's Mental
Health Intuitive
Wellbeing
29 Netowl Texto multilingüe y Text-mining of www.netowl.co
análisis de entidades, PubMed m/text-
categorización de abstracts by analytics/
natural language
documentos, minería
processing to
de textos create a public
knowledge base
on molecular
mechanisms of
47
bacterial
enteropathogens
30 Ontotext Descubrimiento del PageRanking ontotext.com/
conocimiento, gestión WordNet
de contenidos, Synsets:
An Application to
búsqueda semántica.
Opinion Mining
31 Polyvista Análisis de texto Data Mining in www.polyvista.
Promoting com/
Aviation Safety
Management
32 Picturesafe Categorización, www.picturesa
agrupación, análisis fe.de/en/produ
de texto, análisis de cts/products-
contenido de audio y semanticanaly
video sis/
33 Power Text Análisis de texto www.powertex
Solutions tsolutions.com/
#/home
34 Rightfind(tm) XML Cree un corpus de www.copyright
for Mining artículos de texto .com/business/
completo en formato xmlformining-
XML útil para la 2/
minería de texto
35 SAS Text Miner Procesamiento y www.sas.com/
análisis de textos, en_us/softwar
descubrimiento de e/analytics/text
temas de -miner.html
documentos.
36 SIFT Análisis de texto para www.siftnlp.co
el proceso de análisis m/
de comentarios de los
clientes.
37 Skyttle API Analítica de texto Sentiment www.skyttle.co
Analysis Tool on m/
Cloud: Software
as a Service
Model
38 Swapit, Análisis de texto y Visual Exploration www.fit.fraunh
Fraunhofer-FIT text datos, of Text ofer.de/en/fb/ri
and data analysis Collections sk/projects/sw
tool apit.html
39 Textpipe Pro Banco de trabajo de Molecular www.datamysti
conversión, extracción profiling of thyroid c.com/textipe
y manipulación de cancer subtypes
using large-scale
textos, procesamiento
text mining
de textos.
40 Textquest Análisis de texto Unsuitable www.textquest
readability levels .de/pages/en/g
48
of patient eneralinformati
information on.php?Lan
pertaining to g=EN
dementia and
related diseases:
a comparative
analysis
41 Treparel KMX Text Análisis de texto White spot treparel.com/
Analytics analysis: The
potential of patent
information for
research and
development
42 Visualtext Sistemas de www.textanaly
extracción de sis.com/
información y
analizadores de texto.
43 VP Student Edition Minería y Applying text- vpinstitute.org/
visualización de mining to wordpress/vp
textos, análisis de personalization marketplace/
and
textos, procesamiento
customization
de textos. research
literature – Who,
what and where?
44 Aika Silabeo www.aikasoftw
are.org/
45 Data Science Análisis de www.datascien
Toolkit Sentimiento, cetoolkit.org/
Detección de
Lenguaje,
Clasificación de
Temas
46 Datumbox Análisis de texto, Lexicon www.datumbo
optimización de Expansion x.com/
motores de búsqueda, System for
Domain and Time
monitoreo de redes
Oriented
sociales, análisis de Sentiment
sentimientos Analysis
47 GATE Procesamiento de Identifying gate.ac.uk/
texto disgruntled
employee
systems fraud
risk through text
mining: A simple
solution for a
multi-billion dollar
problem
48 Lingpipe Procesamiento de aliasi.com/ling
textos, clasificación pipe/
de textos.
49
49 Open Calais Procesamiento de www.opencalai
texto s.com/
50 Rapidminer Text Minería de datos y Sustainability docs.rapidmin
Mining análisis de texto, trends in the er.com/
procesamiento de process
industries: A text
texto
mining-based
analysis
51 Reverb: Open Extracción de reverb.cs.wash
Information información ington.edu/
Extraction Software
52 S-EM (SpyEM) Sistema de www.cs.uic.ed
aprendizaje o u/~liub/S-
clasificación de EM/SEM-
textos. download.html
53 TXM - Unicode, Análisis de texto sourceforge.ne
XML, TEI t/projects/txm/
text/corpus
analysis platform
54 R Programming Transformación de www.rproject.o
datos y análisis de rg/
textos.
Fuente: Elaboración propia con base en Arvinder Kaur, Deepti Chopra., “Comparison of Text
Mining Tools”, University School of Information and Communication Technology, Guru
Gobind Singh Indraprastha University, New Delhi, Delhi, India.
Sin duda una referencia casi que obligatoria a la hora de analizar o comparar herramientas
de software en el mercado para conocer cómo están valoradas es el famoso cuadrante
mágico de Gartner, esta es una empresa dedicada a la investigación y análisis de las
tendencias del mercado que publica un ranking de fabricantes con las mejores soluciones o
productos mediante un gráfico en forma de plano cartesiano fácil de entender que permite
conocer la situación del mercado de un software en un momento dado.
El cuadrante mágico de Gartner está segmentado por cuatro cuadros, sobre los cuales se
ubican en forma de puntos las compañías o productos a comparar, la posición que ocupan
depende de dos ejes a evaluar que son en el eje “x” que se mide por la integridad de visión,
es decir, el conocimiento de los proveedores para generar valor en el mercado y en el eje “y”
la capacidad de ejecución de las compañías, es decir, las capacidades funcionales y técnicas
del producto.
SIAG Consulting (2016) concluyó que las divisiones del cuadrante mágico de Gartner se
interpretan de la siguiente manera:
1. Líderes: aquí se encuentran los proveedores que mayor puntuación han obtenido
como resultado de combinar su gran capacidad de visión del mercado y la habilidad
para ejecutar. Estas empresas ofertan una solución de productos amplia y completa,
que además es capaz de evolucionar según la demanda en el mercado.
50
2. Retadores o aspirantes: estos proveedores ofrecen buenas funcionalidades, pero
tienen menor variedad de productos al estar centrados en un único aspecto de la
demanda del mercado.
Figura 10. Cuadrante mágico de Gartner 2018 para ciencia de datos y plataformas de
aprendizaje automático
Fuente: Magic Quadrant for Data Science and Machine-Learning Platforms. (2018). Gartner.
Recuperado de: www.gartner.com/doc/3860063?ref=mrktg-srch.
51
Aunque el criterio de evaluación del cuadrante mágico de Gartner es importante para tener
en cuenta en la selección de la herramienta de minería de texto a usar para este trabajo de
investigación, es importante tener un contraste u otra opinión para unificar ambas y tener un
soporte sólido en el criterio de selección, para esto se tiene en cuenta el informe Forrester
Wave ya que es fundamental para cualquier actividad relacionada con las soluciones y
proveedores de software más importantes en plataformas de análisis.
The Forrester Wave es una metodología objetiva de software, hardware o servicios que
compara proveedores de cada industria y luego mostrarlos según la solidez de las ofertas de
productos actuales, la estrategia y presencia en el mercado frente a criterios de evaluación
predefinidos. Una de sus características es que expone informes y hojas de cálculo donde
aparecen los criterios utilizados para calificar las ofertas de los proveedores recogidos en el
mercado.
Sherman (2018) concluyó que las divisiones del diagrama de Forrester Wave se interpretan
basados en su estrategia y puntajes de productos, de la siguiente manera:
1. Líderes: son compañías que tienen una oferta y una estrategia de productos
generalmente sólida y diferenciada.
2. Intérpretes Fuertes: son opciones de mercado importantes con una sólida posición
competitiva.
5. Cada eje representa un aspecto diferente del análisis de Forrester. Las empresas
posicionadas más arriba en el gráfico tienen puntuaciones más altas para sus ofertas
de productos actuales que las que se ubican a continuación. Los puntos que están
más a la derecha representan a las empresas con puntajes más altos en visión
estratégica y de producto para la dirección del mercado y su producto.
52
6. El tamaño de los puntos en el gráfico refleja la presencia en el mercado, a menudo los
ingresos y el número de clientes del producto.
Figura 11. The Forrester Wave Q3 2018 para plataformas de análisis de texto basadas en
AI
Fuente: The Forrester Wave™: AI-Based Text Analytics Platforms. (Q2 2018).
FORRESTER.
Recuperado de: www.epam.com/insights/analyst-reports/the-forrester-wave-ai-based-text-
analytics-platforms-q2-2018.
Luego de cruzar los resultados obtenidos en The Forrester Wave y el cuadrante mágico de
Gartner, se puede determinar que tan solo el 11% de las 54 herramientas de minería de texto
que se encontraron en la investigación inicial fueron tenidos en cuenta en los rankings citados
anteriormente, lo cual deja un margen de 6 herramientas que destacan en el mercado, cuyos
resultados de evaluación según Gartner y Forrester se exponen en la Tabla 8:
53
IBM SPSS Predictive Analytics Visionario Líder
KNIME Líder No evaluada
SAS Text Miner Líder Líder
Rapidminer Text Mining Líder No evaluada
Fuente: Elaboración propia.
Uno de los criterios importantes a evaluar para la selección de la herramienta son los
antecedentes, ya que esto permite medir la viabilidad del uso de la herramienta a seleccionar
para la implementación del proyecto, esto mediante cuantificar los casos de éxito que se
hayan presentado en otros proyectos, por lo tanto, se procede a realizar una búsqueda de
artículos en los que se haya implementado técnicas de minería de texto para un fin
determinado, lo cual arroja los siguientes resultados:
Como se puede observar en la Figura 12, las herramientas Expert System cogito tool y
Clarabridge, a pesar de que se encuentran bien posicionadas como interprete fuerte y líder
respectivamente en The Forrester Wave, no cuentan con suficientes antecedentes como para
ser tenidos en cuenta en la selección de la herramienta a implementar en este proyecto, lo
cual deja un margen de 4 herramientas las cuales evidentemente tienen buenos antecedentes
que permite un nivel de confianza hacia el éxito esperado en los resultados de este proyecto.
54
RAPIDMINER TEXT MINING:
✓ Sinopsis:
Rapidminer es una extensión de código abierto que agrega todos los operadores
necesarios que pueden integrarse en un proceso para el análisis estadístico de texto.
Se pueden cargar textos de diferentes fuentes de datos y, para transformarlos
mediante diferentes técnicas de filtrado.
✓ Características:
55
IBM SPSS PREDICTIVE ANALYTICS:
✓ Sinopsis:
✓ Características:
56
KNIME:
Fuente: KNIME.
Recuperado de: www.predictiveanalyticstoday.com/knime/
✓ Sinopsis:
✓ Características:
57
• Fusión de herramientas para Python, R, SQL, Java, Weka y muchos más.
• Vistas de datos interactivos e informes.
✓ Sinopsis:
SAS Text Miner ofrece una amplia gama de herramientas de modelado lingüístico y
analítico específicamente desarrolladas para descubrir y extraer conocimiento de
colecciones de contenido de texto.
✓ Características:
58
• Importación de texto fácil.
• Soporte nativo para múltiples idiomas.
Como se puede observar en la Tabla 9, IBM SPSS Predictive Anayltics y KNIME son los
softwares mejor puntuados, pero teniendo en cuenta que este proyecto es una actividad
académica, se decide finalmente que la herramienta a usar es KNIME puesto que es gratuita,
está reconocida como Líder según el cuadrante mágico de Gartner, tiene buenos
antecedentes en otros proyectos académicos y sus características se ajustan al propósito a
desarrollar en este proyecto.
Después de tener claro la identificación del problema, ahora se hace necesario definir la
fuente de información la cual será la base de datos bibliográfica de resúmenes y citas de
artículos de revistas científicas llamada SCOPUS que es una de las más reconocidas en el
mundo y en la cual se realizará una búsqueda de la literatura científica.
59
Figura 17. Ecuación de búsqueda.
Para desarrollar el análisis y la depuración de los datos que permita delimitar la información
acerca de los resultados investigativos publicados sobre gestión del conocimiento en américa
Latina en los años 2012 a 2018, se procede a ejecutar la ecuación de búsqueda citada en la
Figura 17 en la base de datos SCOPUS la cual arroja un total de 604 documentos, de los
cuales se pueden recuperar 458. Posteriormente se ejecuta el software de minería de texto
KNIME para procesar los documentos obtenidos, cuyo proceso se realiza en 6 pasos
diferentes: IO, Enriquecimiento, Preprocesamiento, Frecuencias, Transformación y
Visualización, los cuales se describen a continuación:
• IO
60
Se agrega un primer nodo “PDF Parser” que se encarga de leer todos los documentos en
formato PDF obtenidos de la ecuación de búsqueda de los cuales extrae el texto completo y
los representa en una estructura de datos que los nodos de procesamiento de texto puedan
manejar, la salida consta de una columna “Document” en la que para cada fila almacena un
documento como se puede observar en la Figura 19:
• Enriquecimiento
61
Se agrega un segundo nodo “POS Tagger” que se encarga de asignar a cada término de los
documentos una parte de la etiqueta de voz POS, es decir, para cada término etiqueta si es
un conector, verbo, etc. La salida consta de una columna adicional “DocumentoEtiquetado”
que visualmente no parece haber realizado ningún cambio, pero internamente si queda
etiquetado cada término que compone los documentos, la tabla resultante del nodo se puede
observar en la Figura 21:
62
Se agrega un tercer nodo “Document Data Extractor” que se encarga de extraer información
de los documentos como el título, resumen, autor, categoría, fecha de publicación, entre otras.
La tabla resultante del nodo arroja en una columna diferente la información solicitada tal como
se puede observar en la Figura 23:
Figura 23. Visualización tabla resultante del Nodo “Document Data Extractor”
63
Se agregan 4 nodos adicionales de tipo “OpenNLP NE Tagger” que se encarga de reconocer
las entidades nombradas y les asigna las etiquetas correspondientes, según la distribución
expuesta en la Figura 24, el Nodo 4 etiqueta las Localizaciones (Países), el Nodo 5 las
Organizaciones (Universidades), el Nodo 6 las Fechas (Año de la publicación) y el Nodo 7 las
Personas (Investigadores). La tabla resultante de los nodos arroja en una columna llamada
“Documento Etiquetado” que visualmente parece no haber tenido cambios, pero realmente
las etiquetas a los términos de los documentos quedaron almacenadas de forma interna tal
como se puede observar en la Figura 25:
Figura 27. Visualización tabla resultante del Nodo “Bag Of Words Creator”
65
Se agrega un nodo adicional de tipo “Column Rename” que se encarga de modificar el nombre
de la columna “Términos” a “TermValue”, puesto que el nodo siguiente requiere que la
columna a usar tenga ese nombre como etiqueta. La tabla resultante del nodo arroja todas
las columnas anteriores como venían originalmente y adicional la columna “Términos” con su
nombre cambiado a “TermValue”, tal como se puede observar en la Figura 29:
66
Se agrega dos nodos adicionales de tipo “Tag To String” que se encargan de convertir los
valores de etiqueta del término de los tipos de etiqueta especificados en cadena, en este caso
para un nodo se selecciona el tipo de etiqueta POS que es el tipo resultante del nodo “POS
Tagger” y para el otro nodo se selecciona el tipo de etiqueta NE que es el tipo resultante de
los nodos “OpenNLP NE Tagger”. La tabla resultante del nodo arroja una columna adicional
llamada “POS” que contiene las etiquetas de cada uno de los términos y otra columna
adicional llamada “NE” que contiene las etiquetas de fechas, localizaciones, personas y
organizaciones, tal como se puede observar en la Figura 31:
• Preprocesamiento
En esta fase, los términos se filtran y manipulan para excluir términos que no aportan a la
investigación, tales como palabras vacías, números, signos de puntuación, conectores, etc.
Después de la limpieza sólo quedan los términos que se usan para crear las estadísticas o
visualizaciones.
67
Después de ejecutar los procesos de todos los nodos correspondientes a las fases anteriores
de IO y Enriquecimiento, se obtiene como resultado una tabla que contiene 850.206 registros
en total de todos los términos extraídos de los 458 documentos analizados, pero muchos de
esos términos son basura puesto que no aporta en nada a esta investigación, por tal razón
se procede a agregar un nodo de tipo “Row Filter” el cual permite el filtrado de filas según
ciertos criterios, para este caso, se logró identificar las etiquetas que contienen términos que
se excluyen en el Nodo “Row Filter” los cuales se presentan en la Tabla 10:
Finalmente se añadieron 10 nodos de tipo “Row Filter” que en total lograron eliminar el 9,8 %
equivalentes a 83.366 términos basura que se extrajeron de los documentos, como se puede
observar en la Figura 33:
68
• Frecuencias
En esta fase, se calculan las frecuencias de los términos en los documentos, además se
puede aplicar filtros para mantener los términos de alta frecuencia mediante la especificación
de un rango de valores de frecuencia o una cantidad específica de términos a conservar que
son relevantes para la investigación.
69
Figura 36. Ejecución Nodo “Column Filter”
Se agrega un nodo adicional de tipo “Column Filter” que se encarga de filtrar las columnas
para una tabla resultante, para este caso, debido a los procesos en los nodos anteriores, la
tabla resultante contiene un total de 8 columnas de las cuales para la fase de visualización
sólo necesitamos la columna que contiene los términos y sus valores de frecuencia
correspondientes, tal como se puede observar en la Figura 37:
70
• Transformación
En esta fase, los datos textuales deben transformarse en datos numéricos mediante nodos
que crean una representación vectorial binaria o numérica para cada término o documento,
en función de la bolsa de palabras filtrada. Este es el paso final que ejecutan los nodos que
ejecutan funciones de procesamiento de texto cuya finalidad es dejar los datos preparados
para la visualización.
Aunque en la fase de Preprocesamiento, mediante los nodos de tipo “Row Filter” se lograron
eliminar 83.366 términos basura, aún hay términos que aunque no son basura, tampoco es
el foco de atención de esta investigación, por lo tanto se procede a incluir un nodo de tipo
“Excel Writer (XLS)” que permite tomar la tabla que contiene los términos con sus respectivas
frecuencias y se exporta a un archivo de Excel externo para poder de forma manual realizar
una limpieza y unificación de los datos que permita dejar los datos preparados para su
visualización.
71
Se agrega un nodo adicional de tipo “Row Filter” que se encarga de filtrar las filas ya sea
incluir o excluir según ciertos criterios, para este caso, se toma la columna que contiene las
etiquetas de tipo “NE” y se filtran las filas cuya etiqueta es “LOCATION”, esto para poder filtrar
sólo los países contenidos en la bolsa de términos, la tabla resultante arroja un total de 6.919
registros los cuales se exportan a un archivo de Excel externo mediante otro nodo de tipo
“Excel Writer (XLS)” para poder de forma manual realizar una limpieza y unificación de los
datos que permita dejar los datos preparados para su visualización, la tabla resultante
después de filtrar los términos cuya etiqueta está asociada a “LOCATION” se puede observar
en la Figura 40:
72
Se agrega un nodo adicional de tipo “Row Filter” que se encarga de tomar la columna que
contiene las etiquetas de tipo “NE” y se filtran las filas cuya etiqueta es “ORGANIZATION”,
esto para poder filtrar sólo las organizaciones contenidas en la bolsa de términos, la tabla
resultante arroja un total de 21.649 registros los cuales se exportan a un archivo de Excel
externo mediante otro nodo de tipo “Excel Writer (XLS)” para poder de forma manual realizar
una limpieza y unificación de los datos que permita dejar los datos preparados para su
visualización, la tabla resultante después de filtrar los términos cuya etiqueta está asociada a
“ORGANIZATION” se puede observar en la Figura 42:
73
Se agrega un nodo adicional de tipo “Row Filter” que se encarga de tomar la columna que
contiene las etiquetas de tipo “NE” y se filtran las filas cuya etiqueta es “PERSON”, esto para
poder filtrar sólo los autores contenidos en la bolsa de términos, la tabla resultante arroja un
total de 14.926 registros los cuales se exportan a un archivo de Excel externo mediante otro
nodo de tipo “Excel Writer (XLS)” para poder de forma manual realizar una limpieza y
unificación de los datos que permita dejar los datos preparados para su visualización, la tabla
resultante después de filtrar los términos cuya etiqueta está asociada a “PERSON” se puede
observar en la Figura 44:
74
Se agrega un nodo adicional de tipo “Row Filter” que se encarga de tomar la columna que
contiene las etiquetas de tipo “NE” y se filtran las filas cuya etiqueta es “DATE”, esto para
poder filtrar sólo los años de publicación contenidos en la bolsa de términos, la tabla resultante
arroja un total de 5.641 registros los cuales se exportan a un archivo de Excel externo
mediante otro nodo de tipo “Excel Writer (XLS)” para poder de forma manual realizar una
limpieza y unificación de los datos que permita dejar los datos preparados para su
visualización, la tabla resultante después de filtrar los términos cuya etiqueta está asociada a
“DATE” se puede observar en la Figura 46:
Cómo se puede observar en la Figura 47, desde el año 2012 a 2018 se ha dado un
crecimiento en cuanto al número de publicaciones sobre gestión del conocimiento, hasta el
año 2016 se venía presentando una tendencia de crecimiento estable, pero realmente en el
año 2017 se dio la mayor variación de crecimiento correspondiente a un 77 % con respecto
al año anterior. Desde el 2012 al año en curso, el crecimiento fue de 647%.
75
Figura 47. Comportamiento anual cantidad de publicaciones por año.
140 127
117
120
100
80
66
57
60
38
40
26
17
20
0
2012 2013 2014 2015 2016 2017 2018
76
Como se puede observar en la Figura 48 que contiene un mapa de calor para todos los países
de América Latina, en el cual los que tienen la tonalidad de color azul más oscura son los de
mayor producción de artículos sobre gestión del conocimiento, entre los que destacan se
encuentran Colombia, México, Ecuador, Argentina y Chile. Un hallazgo importante es que el
ranking lo lidera Colombia, cuya producción es mayor que la suma de la producción del 63%
de los países latinoamericanos, México y Ecuador realizan un aporte significativo de 14% y
12% respectivamente, Panamá, Guatemala, Nicaragua, Paraguay, Honduras, Puerto Rico y
República Dominicana son los de menor producción y sorprende que Uruguay no aparece en
la lista, tal como se puede observar en la Tabla 11.
77
Chile Venezuela 1 3%
Colombia Chile 1 3%
Colombia Uruguay 1 3%
Colombia Perú 1 3%
Cuba Chile 1 3%
Cuba México 1 3%
Cuba Brasil 1 3%
Ecuador Cuba 1 3%
Ecuador Brasil 1 3%
México Brasil 1 3%
Perú Ecuador 1 3%
Fuente: Elaboración propia.
En cuanto a las universidades con mayor producción de artículos sobre gestión del
conocimiento, se puede observar un gran aporte de instituciones de Colombia, Ecuador y
México, siento la Universidad Nacional de Colombia la de mayor número de publicaciones,
seguido de Universidad Distrital Francisco José de Caldas, Pontificia Universidad Católica del
Ecuador, Universidad de Antioquia, Universidad Nacional Autónoma de México, Universidad
Técnica Particular de Loja, Universidad Católica de Santiago de Guayaquil, Universidad
Autónoma de Nuevo León, Universidad Estatal Península de Santa Elena y Universidad
Pontificia Bolivariana.
78
Figura 50. Gráfico de barras de universidades con mayor producción
79
Universidad Sergio Arboleda 4 1,99%
Institución Universitaria Esumer 3 1,49%
Pontificia Universidad Javeriana 3 1,49%
Universidad Autónoma de Occidente 3 1,49%
Universidad de Caldas 3 1,49%
Universidad de la Costa 3 1,49%
Universidad de Manizales 3 1,49%
Universidad del Norte 3 1,49%
Universidad del Valle 3 1,49%
Universidad Externado de Colombia 3 1,49%
Universidad Industrial de Santander 3 1,49%
Universidad Jorge Tadeo Lozano 3 1,49%
Universidad Pedagógica y Tecnológica de Colombia 3 1,49%
Corporación Universitaria Adventista 2 1,00%
Corporación Universitaria Americana 2 1,00%
Corporación Universitaria Antonio José de Sucre 2 1,00%
Corporación Universitaria Minuto de Dios 2 1,00%
Fundación Universitaria Konrad Lorenz 2 1,00%
Fundación Universitaria Los Libertadores 2 1,00%
Institución Universitaria Salazar y Herrera 2 1,00%
Universidad Autónoma de Manizales 2 1,00%
Universidad de La Sabana 2 1,00%
Universidad de La Salle 2 1,00%
Universidad del Rosario 2 1,00%
Universidad EAN 2 1,00%
Universidad Iberoamericana 2 1,00%
Universidad Popular del Cesar 2 1,00%
Universidad Simón Bolívar 2 1,00%
Universidad Surcolombiana 2 1,00%
Fundación Universitaria Autónoma de las Américas 1 0,50%
Fundación Universitaria Católica Lumen Gentium 1 0,50%
Fundación Universitaria de Popayán 1 0,50%
Institución Universitaria Antonio José Camacho 1 0,50%
Universidad Autónoma de Bucaramanga 1 0,50%
Universidad Católica de Colombia 1 0,50%
Universidad Cooperativa de Colombia 1 0,50%
Universidad de Bogotá Jorge Tadeo Lozano 1 0,50%
Universidad del Cauca 1 0,50%
Universidad del Magdalena 1 0,50%
Universidad Libre 1 0,50%
Universidad Manuela Beltrán 1 0,50%
Universidad Metropolitana 1 0,50%
Universidad Santiago de Cali 1 0,50%
Fuente: Elaboración propia.
Una caracterización al interior de México, que según los resultados arrojados en la tabla 11,
contribuye en un 14,17% a la producción de artículos en los países de América Latina, donde
tomando como referencia las universidades ubicadas en dicho país, encontramos a la
80
Universidad Nacional Autónoma de México, Universidad Autónoma de Nuevo León y la
Universidad de Monterrey que aportan el 32,11% de participación a nivel nacional.
Una caracterización al interior de Ecuador, que según los resultados arrojados en la tabla 11,
contribuye en un 11,58% a la producción de artículos en los países de América Latina, donde
81
tomando como referencia las universidades ubicadas en dicho país, encontramos a la
Pontificia Universidad Católica del Ecuador, Universidad Técnica Particular de Loja y la
Universidad Católica de Santiago de Guayaquil que aportan el 47,97% de participación a nivel
nacional.
Una caracterización al interior de Argentina, que según los resultados arrojados en la tabla
11, contribuye en un 10,28% a la producción de artículos en los países de América Latina,
donde tomando como referencia las universidades ubicadas en dicho país, encontramos a la
Universidad de Buenos Aires, Pontificia Universidad Católica Argentina Santa María de los
Buenos Aires que aportan el 37,49% de participación a nivel nacional.
82
Universidad Nacional del Centro de la Provincia de 1 4,17%
Buenos Aires
Universidad Tecnológica Nacional 1 4,17%
Fuente: Elaboración propia.
Una caracterización al interior de Chile, que según los resultados arrojados en la tabla 11,
contribuye en un 9,72% a la producción de artículos en los países de América Latina, donde
tomando como referencia las universidades ubicadas en dicho país, encontramos a la
Pontificia Universidad Católica de Chile, Universidad de Tarapacá y la Universidad de Chile
que aportan el 41,5% de participación a nivel nacional.
Una caracterización al interior de Brasil, que según los resultados arrojados en la tabla 11,
contribuye en un 5,67% a la producción de artículos en los países de América Latina, donde
tomando como referencia las universidades ubicadas en dicho país, encontramos a la
Universidad Federal de Rio Grande, Universidad Federal de Goias y a la Universidad Federal
de Santa Catarina que aportan el 29,09% de participación a nivel nacional.
83
Universidad Federal Rural de Río de Janeiro 3 5,45%
University Adventist 3 5,45%
Centro Universitario Eurípedes de Marília 2 3,64%
Universidad de Brasilia 2 3,64%
Universidad Federal de Alagoas 2 3,64%
Universidad Federal de Río Grande del Norte 2 3,64%
Universidad Federal de São Carlos 2 3,64%
Universidad de São Paulo 1 1,82%
Universidad Estatal del Norte Fluminense 1 1,82%
Universidad Federal de Bahía 1 1,82%
Universidad Federal de Pernambuco 1 1,82%
Universidade Estadual de Santa Cruz 1 1,82%
Universidade Paulista 1 1,82%
University of Pernambuco 1 1,82%
Fuente: Elaboración propia.
Una caracterización al interior de Perú, que según los resultados arrojados en la tabla 11,
contribuye en un 2,75% a la producción de artículos en los países de América Latina, donde
tomando como referencia las universidades ubicadas en dicho país, encontramos a la
Pontificia Universidad Católica del Perú, la Universidad Nacional Mayor de San Marcos y la
Universidad Católica de Santa María que aportan el 45,83% de participación a nivel nacional.
Una caracterización al interior de los otros países como Cuba, Venezuela, Puerto Rico, que
representan un porcentaje menor de participación en la producción de artículos en los países
de América Latina, se presentan a continuación:
84
Universidad Central "Marta Abreu" Cuba 5 9,80%
de Las Villas
Pontificia Universidad Católica de Puerto Rico 3 5,88%
Puerto Rico
Universidad de Holguín Cuba 3 5,88%
Universidad Nacional de Asunción Paraguay 3 5,88%
Recinto Universitario de Mayagüez Puerto Rico 2 3,92%
Universidad Autónoma de Santo República 1 1,96%
Domingo Dominicana
Universidad Católica del Uruguay Uruguay 1 1,96%
Universidad Centroccidental Venezuela 1 1,96%
Lisandro Alvarado
Universidad de Cienfuegos Cuba 1 1,96%
Universidad de Costa Rica Costa Rica 1 1,96%
Universidad de la República Uruguay 1 1,96%
Universidad de las Ciencias y el Arte Costa Rica 1 1,96%
Universidad de Montevideo Uruguay 1 1,96%
Universidad del Istmo Panamá 1 1,96%
Universidad Galileo Guatemala 1 1,96%
Universidad Metropolitana Venezuela 1 1,96%
Universidad Nacional de Costa Rica Costa Rica 1 1,96%
Universidad Nacional Experimental Venezuela 1 1,96%
del Táchira
Universidad Rafael Landívar Guatemala 1 1,96%
Universidad Santander Panamá Panamá 1 1,96%
Universidad Simón Bolívar Venezuela 1 1,96%
Universidad Tecnológica Honduras 1 1,96%
Centroamericana
Fuente: Elaboración propia.
En cuanto a los autores, como se puede observar en la Figura 51, el investigador con mayor
producción de publicaciones es José Arias Perez que es administrador de empresas, magister
en Gestión de Tecnología e Innovación, y candidato a doctor en Dirección de empresas,
además es profesor del Departamento de Ciencias Administrativas de la Universidad de
Antioquia, Colombia. Entre otros autores destacados se encuentran:
85
Figura 51. Investigadores con mayor producción de publicaciones.
Una caracterización a los investigadores con mayor producción con sus respectivas
publicaciones se presenta a continuación:
Tabla 21. Investigadores con sus respectivas publicaciones sobre Gestión del Conocimiento
Investigador Publicaciones
Arias Pérez, J. Construcción de un modelo de madurez de gestión del
conocimiento para una multinacional de alimentos de una
economía emergente
Orientación estratégica, estrategias de gestión del
conocimiento y creatividad organizacional
Vínculo entre innovación y conocimiento tácito: Integración
de resultados de investigación
Approach to differences in product and process innovation
capabilities and financial performance in manufacturing
companies
Medina García, V.H. Una aproximación al análisis de los sistemas de transporte en
Colombia: Factor de competitividad
El docente como gestor del capital relacional: Una revisión
Medina González, V. Microcrédito, microempresa y educación en Ecuador, Caso de
estudio: Cantón Zamora
Pérez Orozco, A.B. Microcrédito, microempresa y educación en Ecuador, Caso de
estudio: Cantón Zamora
Pertuz Peralta, V.P. Gestión del conocimiento ambiental en proyectos
agropecuarios mediante un sistema de información basado
en ontología
Becerra, M.A. A fuzzy approach to a municipality grouping model towards
creation of synergies
Applied Mathematics and Computational Intelligence
Decision Making and Knowledge Decision Support Systems
86
Bustamante, K.P. Gestión del conocimiento ambiental en proyectos
agropecuarios mediante un sistema de información basado
en ontología
Cabrera, K.S. Gestión del conocimiento ambiental en proyectos
agropecuarios mediante un sistema de información basado
en ontología
Castellanos, M. I. Propuesta de modificación del índice global de
competitividad
Gil Lafuente, A.M. Orientación al mercado e innovación: ¿La estructura y el
entorno moderan esta relación?
Grangel, I. Dimensiones del liderazgo transformacional y capacidad de
aprendizaje organizacional en Pymes
Capacidad de aprendizaje organizativo como fuente de
ventaja competitiva sostenible
Hernández, L. Modelo de medición de la gestión del conocimiento en
cadenas productivas
Modelo de Gestión de Lecciones Aprendidas para la solución
de incidencias
Modelo de Gestión del Conocimiento y Medición del capital
intelectual en el sector financiero
Transferencia de conocimiento en clusters de las Pymes del
sector autopartista
Jaimes Carrillo, L. Gestión del conocimiento y capital social: Su relación en
contextos universitarios
La identificación del capital social en organizaciones de
información y su relación con la gestión del conocimiento
Jiménez Jiménez, D. Evolucionando la mejora de procesos basada en el de
procesos basada en el uso de entornos multimodelo y la
gestión del conocimiento
Extracción del Conocimiento tácito como base para el
establecimiento de mejora de procesos de software en las
Organizaciones de desarrollo de Software
Trends and Applications in Software Engineering
López Zapata, E. Gestión del conocimiento ambiental en proyectos
agropecuarios mediante un sistema de información basado
en ontología
Mejia, J. Orientación al mercado e innovación: ¿La estructura y el
entorno moderan esta relación?
Moreno, R. Orientación al mercado e innovación: ¿La estructura y el
entorno moderan esta relación?
Naranjo Valencia, J.C. La relevancia del proyecto estratégico como determinante de
la calidad en las universidades
Desafíos para la gestión pública en la sociedad del
conocimiento
La Gestión del conocimiento en instituciones de educación
superior del Norte De Chile
Ocampo Wilches, A.C. Gestión del conocimiento en un grupo de investigación en
ingeniería
A process innovation based on activities, types and
characteristics
87
Pedraja Rejas, L. Gestión del conocimiento en un grupo de investigación en
ingeniería
A process innovation based on activities, types and
characteristics
Rodríguez Ponce, E. Los desafíos estratégicos para la gestión de la investigación
universitaria en la sociedad del conocimiento
La relevancia del proyecto estratégico como determinante de
la calidad en las universidades
La Gestión del conocimiento en instituciones de educación
superior del Norte De Chile
Sánchez Juárez, I. Gasto público, índice de competitividad y política social en
México
Torres Ponjuán, D. La identificación del capital social en organizaciones de
información y su relación con la gestión del conocimiento
Relación conceptual entre la gestión de la comunicación
institucional y la gestión del conocimiento
Fuente: Elaboración propia.
88
7 CONCLUSIONES
✓ Los países de América Latina con mayor producción de artículos sobre gestión del
conocimiento son Colombia, México, Ecuador, Argentina y Chile. Un hallazgo importante
es que el ranking lo lidera Colombia, cuya producción es mayor que la suma de la
producción del 63% de los países latinoamericanos, México y Ecuador realizan un aporte
significativo de 14% y 12% respectivamente, Panamá, Guatemala, Nicaragua, Paraguay,
Honduras, Puerto Rico y República Dominicana son los de menor producción.
✓ Las universidades con mayor producción de artículos sobre gestión del conocimiento, se
puede observar un gran aporte de instituciones de Colombia, Ecuador y México, siento la
Universidad Nacional de Colombia la de mayor número de publicaciones, seguido de
Universidad Distrital Francisco José de Caldas, Pontificia Universidad Católica del
Ecuador, Universidad de Antioquia, Universidad Nacional Autónoma de México,
Universidad Técnica Particular de Loja, Universidad Católica de Santiago de Guayaquil,
Universidad Autónoma de Nuevo León, Universidad Estatal Península de Santa Elena y
Universidad Pontificia Bolivariana.
89
8 RECOMENDACIONES
✓ Para esta práctica académica se limitó la elección del software a uno gratuito que, aunque
tiene muy buenas funcionalidades y trabaja muy bien, visualmente ofrece pocas opciones
para presentar las estadísticas de la información en forma gráfica.
90
BIBLIOGRAFÍA
AL. Porter, SW. Cunningham, Tech Mining: Exploiting New Technologies for Competitive
Advantage. 1a ed. NJ, USA: Wiley-Interscience, John Wiley & Sons, Inc., 2005. ISBN-13:
047147567X.
Berry, M.M. and Taggart, J.H.,(1994), Managing Technology and Innovation: a review, R & D
Management, Vol. 24, No4, pp. 341-353
Botta Ferret, E., Cabrera Gato, J.E. (2007). Minería de textos: una herramienta útil para
mejorar la gestión del bibliotecario en el entorno digital.
Campaña Naranjo, F.X. (2017). Aplicación de técnicas de Data Mining a bases de datos de
contenido musical para identificar rasgos de personalidad de los usuarios en el Distrito
Metropolitano de Quito.
Hoyos Angel, S.T. (2011). Perfil académico de investigación de los trabajos de grado de la
licenciatura en lenguas modernas de la pontificia Universidad Javeriana: 2001-2009.
91
Justicia de la Torre, M.C. (2017). Nuevas Técnicas de Minería de Textos: Aplicaciones.
Miller, William L., Morris Langdom.(1999), 4th Generation R&D. Managing Knowledge,
Technology, and Innovation, John Wiley & Sons, Inc. USA
Ortiz Cantú, S., Pedroza Zapata, A.R. (2006). ¿Qué es la Gestión de la Innovación y la
Tecnología (GInnT)?.
Pérez Abelleira, M. A., Cardoso, C.A. (2010). Minería de texto para la categorización
automática de Documentos.
92
Takano Abratani, C., Chavez Espinoza, J., Grandez Márquez, M.A. (2017). Aplicación de
minería de datos para determinar patrones de consumo futuro en clientes de una distribuidora
de suplementos nutricionales.
93