3 Analisis de Textos y Contenidos Semanticos
3 Analisis de Textos y Contenidos Semanticos
3 Analisis de Textos y Contenidos Semanticos
net/publication/338390494
CITATIONS READS
0 586
2 authors, including:
Jose Machicao
Universidad Continental de Ciencias e Ingeniería, Huancayo
27 PUBLICATIONS 8 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Jose Machicao on 04 January 2020.
1
Las siglas NLP se usan para Natural Language Processing o para Neuro Linguistic Programming. En este texto
será siempre el primer significado
En el desarrollo de la experimentación de aplicación de instrumentos, no debe descartarse el
encontrar otro tipo de unidades de análisis. El concepto, por ejemplo, o la idea compleja, podría
servir para poder concluir algo respecto a un documento o a un corpus. En general los conceptos
iniciales son solo una forma inicial de ordenar cómo entender los sistemas de comunicación, y la
inteligencia artificial aplicada a ellos debería abrir puertas a ensayos de nuevas unidades,
teniendo como norte la mayor comprensión y transmisión de las ideas.
6 Transcripción de audios
Un contenido de voz es una sucesión consistente de fonemas. Durante muchos años la inteligencia
artificial tenía muchos problemas interpretando sonidos hasta que finalmente logró vincularlos
al contexto. Hoy en día los algoritmos de transcripción alcanzan precisiones superiores al 70% en
casi cualquier acento en cualquier idioma.
El algoritmo con el que vamos a experimentar se llama Google Speech-to-Text y se puede
descargar de la plataforma de Google Cloud. Lo más importante es saber en qué formato de
archivo de audio se necesita preparar y acceder a una cuenta de GCP2. Además, es posible hacerlo
desde muchas otras plataformas como AWS, IBM o Azure.
2
Google Cloud Platform
ir agregando componentes a un vector hasta caracterizar una frase de manera única. Pero qué
ocurre cuando hay un número muy grande de frases que pueden parecerse mucho. Entonces es
necesario recurrir a modelos más sofisticados de vectorización masiva y que al mismo tiempo
permita denotar la similaridad o diferencia entre dos frases o más. A estas técnicas se les llama
vectorización de textos. La técnica más popular el Word2Vec que hoy es aplicable en cualquier
contexto y tiene alta capacidad de explicabilidad, a diferencia de otras más modernas como BERT
que requieren mayor capacidad computacional y no tienen tanta explicabilidad.
Estructura Semántica y Gramática: Uno de los aspectos que se puede analizar en textos
de investigación o textos universitarios o escolares es la idoneidad de redacción. El
análisis hoy en día está bastante disponible con herramientas completas y encuentra sus
aplicaciones prácticas en análisis masivo de documentos.
Sumarización: A menudo se requiere tener idea de los temas principales de un
documento. Existen muchos instrumentos libres para resumir textos, sin embargo, se
puede diversificar los enfoques a través de los cuales se quiere resumir. Su aplicación
práctica alcanza los puestos de trabajo con alta diversidad de documentos.
Comparación de textos: La clasificación de frases o textos brinda la oportunidad de
sofisticar la aplicación y ser capaz de comparar las distancias semánticas entre dos
documentos o cualquiera de los elementos semánticos, en especial a través de la
vectorización.
10 Cierre
Dados los temas anteriores explicados es casi ineludible deducir que lo que se puede hacer con
textos hoy aprovechando la capacidad computacional y más aún la inteligencia artificial y las
diferentes arquitecturas de redes neuronales es prácticamente infinito. Una de las restricciones
de una introducción a un conjunto basto de herramientas es que durante el aprendizaje sólo se
podrá cubrir determinados espacios de un problema, sin embargo, será posible discutir y poner
en práctica al menos ciertos tramos de metodologías más integrales. El objetivo de un curso como
este estaría cumplido si se logra abrir las posibilidades de aplicación y poner en manos de más
gente la aplicación de técnicas que ayuden a elevar la calidad de los productos con ayuda de la
inteligencia artificial y de la capacidad computacional en general.