Procesamiento de Lenguaje Natural: Logros Desafíos Impacto

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 36

Procesamiento de Lenguaje

Natural
Logros
Desafíos
Impacto

1
Temario
• ¿Qué es el PLN?
• 6 niveles de procesamiento.
• Un poco de historia, éxitos y desafíos.
• Proyectos del grupo PLN del InCo.

2
Temario
• ¿Qué es el PLN?
– Conjunto de métodos y técnicas eficientes desde un punto de
vista computacional para la comprensión y generación de
lenguaje natural.
– Subdisciplina de la IA.

lenguaje Computadora lenguaje

comprensión

generación

3
HAL - 2001, Odisea del Espacio
1967

• Dave: Open the pod bay doors, HAL.


• HAL: I’m sorry Dave. I’m affraid I can’t do that.

• Dave: Abre las compuertas, HAL.


• HAL: Lo siento, Dave. Me temo que no puedo hacerlo.

4
HAL - 2001, Odisea del Espacio
Habilidades de HAL (1967)
• comprensión de humanos vía:
– reconocimiento del habla
– comprensión de lenguaje natural
• comunicación con humanos vía:
– generación de lenguaje natural
– síntesis del habla
• pero también:
– capacidades gráficas
– juega al ajedrez
– percepción visual

5
Habilidades de HAL

Señal sonora Secuencia de palabras

Reconocer/Generar

• Conocimientos de:
– Fonética: naturaleza física de los sonidos.
– Fonología: cómo los sonidos funcionan en
una lengua.
6
Habilidades de HAL
• Debe saber, por ejemplo:
– que los sustantivos tienen género y número:
• perr-o, perr-o-s, perr-a, perr-a-s.
• Pero:
– cas-a no es el femenino de cas-o.
– Ni luz-s ni luz-es son plurales de luz.
– Que se pueden formar palabras agregando prefijos y sufijos a
palabras existentes:
• in-creíble (in- denota negación)
• calmada-mente (-mente transforma adjetivo en adverbio)
• Conocimientos de Morfología: estudio de la estructura
interna de las palabras.

7
Habilidades de HAL
• Debe conocer el orden correcto en el que
las palabras deben decirse para que la
respuesta tenga sentido.

– Por ejemplo: (*) Lo puedo Dave siento que no temo me hacerlo.


– Sin embargo: Dave, lo siento. Que no puedo hacerlo, me temo.

• Conocimientos de Sintaxis: estudio de la


estructuración (orden y agrupamiento) de
las palabras en unidades mayores.
8
Habilidades de HAL
• La sintaxis no es suficiente:
– Abre las compuertas, HAL. (Estructura: VC + ART + SUST + SP + SUST)
– Baja las persianas, HAL.
– Saca los dados, HAL.
– Suelta los perros, HAL.

• Es necesario comprender el significado de lo que


Dave está diciendo:

– significado de cada palabra: Semántica Léxica


– significado de la combinación de palabras para obtener
significados mayores: Semántica Composicional.

9
Habilidades de HAL
• Adicionalmente, HAL presenta una utilización educada del
lenguaje: Lo siento, Dave. Me temo que no puedo hacerlo.

• Significa, en realidad: (1) no lo siente y (2) puede abrir las


compuertas

• HAL podría haber respondido:


• No.
• De ninguna manera.

• Conocimientos de:
– Pragmática: estudio del modo en el que el contexto influye en la
interpretación del significado. Cómo el lenguaje se utiliza para ciertos fines.
– Discurso: estudio de las unidades mayores a la oración.

10
6 niveles de procesamiento
• Fonética y Fonología: estudio de los sonidos
lingüísticos (usados para la comunicación humana).
• Morfología: estudio de la estructura interna de las
palabras.
• Sintaxis: estudio de la estructuración (orden y
agrupamiento) de las palabras en unidades mayores.
• Semántica: estudio del significado.
• Pragmática: estudio de cómo el lenguaje se utiliza
para cumplir objetivos.
• Discurso: estudio de las unidades mayores a la
oración.
11
Ambigüedad: el mayor problema en
PLN

12
Fuentes de ambigüedad
• Ambiguo: que admite distintas interpretaciones.

• Homonimia: dos palabras con misma forma que


tienen distintos significados
(distinta etimología, distintas entradas en el diccionario).
– Homografía: vino (bebida) / vino (llegó)
– Homofonía: ola / hola, as / has / haz, cocer / coser.

• Polisemia: una palabra con múltiples significados


(una entrada en el diccionario con distintos significados).
– El hombre desciende del mono y el mono desciende
del árbol.
– banco, capital 13
Ambigüedad en los niveles de análisis
Ambigüedad a nivel fonético

Homofonía
– ola / hola
– as / has / haz

Segmentación
– Ató dos palos. / A todos, palos.
– Entre el clavel y la rosa, su majestad escoja.
(Quevedo)

14
Ambigüedad en los niveles de análisis

Ambigüedad a nivel morfológico

Nosotros plantamos papas.

¿El verbo plantar está conjugado en


pasado o en presente?

15
Ambigüedad en los niveles de análisis
Ambigüedad a nivel sintáctico
Pedro vio a Juan con el telescopio.
a) Pedro vio [a Juan] con el telescopio.
b) Pedro vio [a Juan con el telescopio].

Los hombres y las mujeres que hayan cumplido 60 años


pueden solicitar una pensión.
a) [Los hombres y las mujeres que hayan cumplido 60
años] pueden solicitar una pensión.
b) [Los hombres] y [las mujeres que hayan cumplido 60
años] pueden solicitar una pensión. 16
Ambigüedad en los niveles de análisis
Ambigüedad a nivel semántico

Todos los hombres aman a una mujer.


Todos los estudiantes leyeron un libro.

a) Es la misma mujer/libro para todos


b) Para cada hombre/estudiante existe una
mujer/libro

17
Ambigüedad en los niveles de análisis
Ambigüedad a nivel pragmático

-Llego a las ocho. Esperame.

-¿A qué hora llegarás? Previsión


-Llego a las ocho. Esperame.

-Nunca llegás en hora. Promesa


-Llego a las ocho. Esperame.

-Eso me lo vas a tener que decir cara a


cara. Amenaza
-Llego a las ocho. Esperame. 18
Ambigüedad en los niveles de análisis

Ambigüedad a nivel de discurso

Tomé el alfajor del escritorio y lo comí.

a) Tomé el alfajor que estaba en el escritorio y


comí el alfajor.
b) Tomé el alfajor que estaba en el escritorio y
comí el escritorio.

19
¿Se puede resolver la ambigüedad?
Juan mató al carpincho con la escopeta.
– No puede ser el carpincho quien lleve la escopeta.

Puse la camisa en la lavadora y la lavé.

– Las lavadoras lavan. La ropa se lava.

Se requiere conocimiento del mundo.

20
El procesamiento de lenguaje es
difícil porque:
• Alta ambigüedad en todos los niveles.
• Complejo y sutil.
• Involucra razonar acerca del mundo.
• Se debe considerar la inserción en un
sistema social de gente que interactúa:
– exponiendo, convenciendo, ordenando,
insultando, …
– cambiando a lo largo del tiempo

21
Un poco de historia…

22
Breve historia : 50s, 60s
Primeras aplicaciones en computadoras menos
poderosas que una calculadora

• Traducción Automática del Ruso al Inglés (Guerra Fría).


– Famosa leyenda urbana:
• (Original) "The spirit is willing, but the flesh is weak." (El espíritu es
fuerte pero la carne es débil)
• (Doble traducción) "The vodka is strong, but the meat is rotten." (El
vodka está bueno pero la carne es muy mala)

• Trabajo fundacional en Autómatas, Lenguajes Formales,


Probabilidades y Teoría de la Información

23
Breve historia : 70s, 80s
• Primer sistema de comprensión completa en un
dominio limitado (Winograd, SHRDLU, 1971)
• ¿La pirámide verde está sobre el cubo rojo?
• Separación de procesamiento (parsers) y
descripción del conocimiento lingüístico
• Explicitación de nivel de representación
semántica
• Se percibe necesidad de utilizar conocimiento
sobre el mundo (proyecto CYC, Lenat)
• Traducción automática en dominios limitados
(meteorología)
24
Breve historia : 90s
• Métodos de estado finito: gran eficiencia
– Karttunen, Kaplan & Kay, FST
• La disponibilidad de grandes cantidades
de texto (Web) reorienta el área
• Primeros resultados robustos con
métodos probabilísticos
• Utilización de aprendizaje automático

25
Breve historia : 2000s
• Enfásis en semántica y representación del
conocimiento
• Enfásis en discurso y diálogo
• Integración de técnicas simbólicas y
probabilísticas
• Mayor integración de componentes LN en otros
sistemas

• Pero también : proliferación de aplicaciones


“guiadas por patrones”, sin análisis profundo
26
Algunas aplicaciones

27
Traducción Automática
• Actualmente

– Original: el día que las vacas vuelen

– Doble Traducción (español-> inglés -> español) con Google


• el día que las vacas lo vuelan (2008?)
• las vacas día volar (2009)
• el día que las vacas vuelen (2012)
(traducción intermedia: the day the cows come home -> frase hecha)

• Tasa de error entre 20% y 30% 28


Traducción Automática
• Cuestionamiento: con tasas de error tan elevadas,
¿es realmente útil la traducción automática?

• Ejercicio: interprete el siguiente texto en chino


mandarín simplificado:

(Traducción de Google) Ghana tragedy in the village, 48-hour suspension of air


strikes against Lina in the Israeli army resumed air strikes on August 1, the Israeli
cabinet passed a resolution to expand Israeli ground offensive in southern
Lebanon. At the same time, Israel began a large-scale recruitment of reservists. All
this shows that the fighting in southern Lebanon and smoke in the short term it is
difficult to quell.
29
Resumen Automático
• Idea central: "condensación del contenido de la
información de un documento para el beneficio de un
lector" (Mani 2001).

• Primeros trabajos de Luhn (1958) y Edmunson


(1960):
– Basados en métodos estadísticos.
– Extraen las oraciones más importantes.
– Frecuencia de términos. Peso de oraciones.

• Los trabajos en el área resurgen a fines de los años


90’
30
Extracción de Información
Texto Original
Restaurante Español cerca de Ficha
Manchester en Inglaterra, busca
camareros o camareras de salad con Industria: Restauración.
conocimiento de cocktelería y
barra, deben saber flambear y tener Puesto: Camarero/a.
un mínimo de tres años de Lugar: Manchester, Inglaterra.
experiencia con un manejo de
Inglés a nivel medio, conocimientos Compañía: Restaurante
de vinos Españoles y resto del Español Salario: 1500
mundo una ventaja. Salario
mínimo 1500 euros mes con euros/mes.
propinas. Cinco días por semanas Dedicación: 50/55 hs. Semanales.
de unas 50/55 horas.
31
Extracción de Información
• Objetivo: mapear una colección de documentos
a una base de datos estructurados.

• Motivaciones:

– Permitir búsquedas complejas: quiero trabajos en


restauración en Manchester que paguen por lo
menos 1200 euros al mes.
– Permitir consultas estadísticas: ¿el número de
trabajos en restauración creció en los últimos cinco
años?
32
Interfaces a BD
• Usuario: Necesito un tren nocturno de París a Viena
que llegue alrededor de las 10 de la mañana.
• Sistema: ¿Qué día desea viajar?
• Usuario: Mañana.
• Sistema: Los trenes disponibles son…

• Análisis de la entrada y “traducción” a una consulta.


– P.ej: x(tren(x)  nocturno(x)  recorrido(x, París, Viena) 
yz(horario(x, y, z)  alrededor(z, 10)))
• El enfoque funciona bien con léxico y sintaxis
restringidos.
33
Más aplicaciones
• Recuperación de información.
• Verificadores de gramática y estilo.
• Categorización de documentos.
• Respuesta a preguntas.
• ...

34
Grupo PLN – InCo - UDELAR
Algunos proyectos
– Análisis sintáctico
• Segmentación de oraciones en proposiciones
• Desambiguación de comas
– Reconocimiento de eventos
• ¿Cuáles son los eventos a los que se hace referencia en un texto?
• ¿Ocurrieron efectivamente?
– Análisis temporal de textos
Ubicación temporal y ordenamiento de los eventos mencionados.
– Opiniones
¿Quién opinó sobre el tema X? ¿Qué dijo? ¿Opinó a favor o en contra?
– BIO-NLP (Proyecto Microbio)

35
Algunas herramientas y recursos
• FreeLing (etiquetador morfo-sintáctico, distribución libre
Universitat Politècnica de Catalunya)
• Clatex (segmentador en proposiciones, PLN-InCo)
• Editor de reglas contextuales (PLN-InCo)
• Lavinia (ambiente web para procesamiento de textos, PLN-InCo)
• Anotadores de textos (Clark, Knowtator-Protégé, MMAX2)
• NLTK (kit de herramientas de PLN para Python)
• Spanish WordNet (Universitat Politècnica de Catalunya,
licencia gratuita para usos académicos)
• Corpus (Corin (Lingüística), CREA, “Corpus del Español”,
Temantex (PLN-InCo), Opiniones (PLN-InCo))
36

También podría gustarte