Procesamiento de Lenguaje Natural: Logros Desafíos Impacto
Procesamiento de Lenguaje Natural: Logros Desafíos Impacto
Procesamiento de Lenguaje Natural: Logros Desafíos Impacto
Natural
Logros
Desafíos
Impacto
1
Temario
• ¿Qué es el PLN?
• 6 niveles de procesamiento.
• Un poco de historia, éxitos y desafíos.
• Proyectos del grupo PLN del InCo.
2
Temario
• ¿Qué es el PLN?
– Conjunto de métodos y técnicas eficientes desde un punto de
vista computacional para la comprensión y generación de
lenguaje natural.
– Subdisciplina de la IA.
comprensión
generación
3
HAL - 2001, Odisea del Espacio
1967
4
HAL - 2001, Odisea del Espacio
Habilidades de HAL (1967)
• comprensión de humanos vía:
– reconocimiento del habla
– comprensión de lenguaje natural
• comunicación con humanos vía:
– generación de lenguaje natural
– síntesis del habla
• pero también:
– capacidades gráficas
– juega al ajedrez
– percepción visual
5
Habilidades de HAL
Reconocer/Generar
• Conocimientos de:
– Fonética: naturaleza física de los sonidos.
– Fonología: cómo los sonidos funcionan en
una lengua.
6
Habilidades de HAL
• Debe saber, por ejemplo:
– que los sustantivos tienen género y número:
• perr-o, perr-o-s, perr-a, perr-a-s.
• Pero:
– cas-a no es el femenino de cas-o.
– Ni luz-s ni luz-es son plurales de luz.
– Que se pueden formar palabras agregando prefijos y sufijos a
palabras existentes:
• in-creíble (in- denota negación)
• calmada-mente (-mente transforma adjetivo en adverbio)
• Conocimientos de Morfología: estudio de la estructura
interna de las palabras.
7
Habilidades de HAL
• Debe conocer el orden correcto en el que
las palabras deben decirse para que la
respuesta tenga sentido.
9
Habilidades de HAL
• Adicionalmente, HAL presenta una utilización educada del
lenguaje: Lo siento, Dave. Me temo que no puedo hacerlo.
• Conocimientos de:
– Pragmática: estudio del modo en el que el contexto influye en la
interpretación del significado. Cómo el lenguaje se utiliza para ciertos fines.
– Discurso: estudio de las unidades mayores a la oración.
10
6 niveles de procesamiento
• Fonética y Fonología: estudio de los sonidos
lingüísticos (usados para la comunicación humana).
• Morfología: estudio de la estructura interna de las
palabras.
• Sintaxis: estudio de la estructuración (orden y
agrupamiento) de las palabras en unidades mayores.
• Semántica: estudio del significado.
• Pragmática: estudio de cómo el lenguaje se utiliza
para cumplir objetivos.
• Discurso: estudio de las unidades mayores a la
oración.
11
Ambigüedad: el mayor problema en
PLN
12
Fuentes de ambigüedad
• Ambiguo: que admite distintas interpretaciones.
Homofonía
– ola / hola
– as / has / haz
Segmentación
– Ató dos palos. / A todos, palos.
– Entre el clavel y la rosa, su majestad escoja.
(Quevedo)
14
Ambigüedad en los niveles de análisis
15
Ambigüedad en los niveles de análisis
Ambigüedad a nivel sintáctico
Pedro vio a Juan con el telescopio.
a) Pedro vio [a Juan] con el telescopio.
b) Pedro vio [a Juan con el telescopio].
17
Ambigüedad en los niveles de análisis
Ambigüedad a nivel pragmático
19
¿Se puede resolver la ambigüedad?
Juan mató al carpincho con la escopeta.
– No puede ser el carpincho quien lleve la escopeta.
20
El procesamiento de lenguaje es
difícil porque:
• Alta ambigüedad en todos los niveles.
• Complejo y sutil.
• Involucra razonar acerca del mundo.
• Se debe considerar la inserción en un
sistema social de gente que interactúa:
– exponiendo, convenciendo, ordenando,
insultando, …
– cambiando a lo largo del tiempo
21
Un poco de historia…
22
Breve historia : 50s, 60s
Primeras aplicaciones en computadoras menos
poderosas que una calculadora
23
Breve historia : 70s, 80s
• Primer sistema de comprensión completa en un
dominio limitado (Winograd, SHRDLU, 1971)
• ¿La pirámide verde está sobre el cubo rojo?
• Separación de procesamiento (parsers) y
descripción del conocimiento lingüístico
• Explicitación de nivel de representación
semántica
• Se percibe necesidad de utilizar conocimiento
sobre el mundo (proyecto CYC, Lenat)
• Traducción automática en dominios limitados
(meteorología)
24
Breve historia : 90s
• Métodos de estado finito: gran eficiencia
– Karttunen, Kaplan & Kay, FST
• La disponibilidad de grandes cantidades
de texto (Web) reorienta el área
• Primeros resultados robustos con
métodos probabilísticos
• Utilización de aprendizaje automático
25
Breve historia : 2000s
• Enfásis en semántica y representación del
conocimiento
• Enfásis en discurso y diálogo
• Integración de técnicas simbólicas y
probabilísticas
• Mayor integración de componentes LN en otros
sistemas
27
Traducción Automática
• Actualmente
• Motivaciones:
34
Grupo PLN – InCo - UDELAR
Algunos proyectos
– Análisis sintáctico
• Segmentación de oraciones en proposiciones
• Desambiguación de comas
– Reconocimiento de eventos
• ¿Cuáles son los eventos a los que se hace referencia en un texto?
• ¿Ocurrieron efectivamente?
– Análisis temporal de textos
Ubicación temporal y ordenamiento de los eventos mencionados.
– Opiniones
¿Quién opinó sobre el tema X? ¿Qué dijo? ¿Opinó a favor o en contra?
– BIO-NLP (Proyecto Microbio)
35
Algunas herramientas y recursos
• FreeLing (etiquetador morfo-sintáctico, distribución libre
Universitat Politècnica de Catalunya)
• Clatex (segmentador en proposiciones, PLN-InCo)
• Editor de reglas contextuales (PLN-InCo)
• Lavinia (ambiente web para procesamiento de textos, PLN-InCo)
• Anotadores de textos (Clark, Knowtator-Protégé, MMAX2)
• NLTK (kit de herramientas de PLN para Python)
• Spanish WordNet (Universitat Politècnica de Catalunya,
licencia gratuita para usos académicos)
• Corpus (Corin (Lingüística), CREA, “Corpus del Español”,
Temantex (PLN-InCo), Opiniones (PLN-InCo))
36