Algoritmo Porter BrillScribd
Algoritmo Porter BrillScribd
Algoritmo Porter BrillScribd
I. INFORMACIÓN GENERAL
Objetivos
Explicar el algoritmo de Porter para la lematización de palabras.
1
Con frecuencia, el rendimiento de un sistema de IR mejorará si los grupos de términos
como este se combinan en un solo término. Esto se puede hacer eliminando los distintos sufijos
–ED, -ING, -ION, IONS para salir de solo el término Work. Además, el proceso de eliminación de
sufijos reducirá la cantidad total de términos en el Sistema IR, y por lo tanto reducir el tamaño y
la complejidad de los datos en el sistema, que siempre es ventajoso.
Por lo general, se desea que solo se eliminen los morfemas flexivos, los
correspondientes a las declinaciones, conjugaciones, etc., no también morfemas derivativos (que
corresponden a diferentes partes del habla).
El algoritmo de Porter no cumple esto. Uno puede hacer su propio conjunto de reglas
(para cualquier idioma). Su ventaja es su simplicidad y velocidad.
Tal vez el mejor criterio para eliminar sufijos de dos palabras W1 y W2 para producir un
único tallo S, es decir que lo hacemos sí parece que no hay diferencia entre las dos
declaraciones.La tasa de éxito para la eliminación de sufijos será significativamente menor al
100%, independientemente de cómo el proceso es evaluado.
Paso 1b:
(m>0) EED -> EE feed -> feed
agreed -> agree
(*v*) ED -> plastered -> plaster
bled -> bled
(*v*) ING -> motoring -> motor
sing -> sing
Paso 2:
(m>0) ATIONAL -> ATE relational -> relate
(m>0) TIONAL -> TION conditional -> condition
rational -> rational
(m>0) ENCI -> ENCE valenci -> valence
(m>0) ANCI -> ANCE hesitanci -> hesitance
(m>0) IZER -> IZE digitizer -> digitize
(m>0) ABLI -> ABLE conformabli -> conformable
(m>0) ALLI -> AL radicalli -> radical
(m>0) ENTLI -> ENT differentli -> different
2
(m>0) ELI -> E vileli - > vile
(m>0) OUSLI -> OUS analogousli -> analogous
(m>0) IZATION -> IZE vietnamization -> vietnamize
(m>0) ATION -> ATE predication -> predicate
(m>0) ATOR -> ATE operator -> operate
(m>0) ALISM -> AL feudalism -> feudal
(m>0) IVENESS -> IVE decisiveness -> decisive
(m>0) FULNESS -> FUL hopefulness -> hopeful
(m>0) OUSNESS -> OUS callousness -> callous
(m>0) ALITI -> AL formaliti -> formal
(m>0) IVITI -> IVE sensitiviti -> sensitive
(m>0) BILITI -> BLE sensibiliti -> sensible
Paso 3:
(m>0) ICATE -> IC triplicate -> triplic
(m>0) ATIVE -> formative -> form
(m>0) ALIZE -> AL formalize -> formal
(m>0) ICITI -> IC electriciti -> electric
(m>0) ICAL -> IC electrical -> electric
(m>0) FUL -> hopeful -> hope
(m>0) NESS -> goodness -> good
Paso 4:
(m>1) AL -> revival -> reviv
(m>1) ANCE -> allowance -> allow
(m>1) ENCE -> inference -> infer
(m>1) ER -> airliner -> airlin
(m>1) IC -> gyroscopic -> gyroscop
(m>1) ABLE -> adjustable -> adjust
(m>1) IBLE -> defensible -> defens
(m>1) ANT -> irritant -> irrit
(m>1) EMENT -> replacement -> replac
(m>1) MENT -> adjustment -> adjust
(m>1) ENT -> dependent -> depend
(m>1 and (*S or *T)) ION -> adoption -> adopt
(m>1) OU -> homologou -> homolog
(m>1) ISM -> communism -> commun
(m>1) ATE -> activate -> activ
(m>1) ITI -> angulariti -> angular
(m>1) OUS -> homologous -> homolog
(m>1) IVE -> effective -> effect
(m>1) IZE -> bowdlerize -> bowdler
3
B. Algoritmo de Brill
4
El etiquetador Brill es portátil. Es transferible a otros conjuntos de etiquetas o géneros
y a otros idiomas. Si el etiquetador se utilizara en un corpus diferente se encontraría un conjunto
distinto de parches adecuado. En este etiquetador basado en reglas, la información se captura
con menos de ocho reglas, facilitado el desarrollo posterior del etiquetador. La información
contextual se expresa de manera compacta (Brill, 1992).
Etiquetador léxico.
Cada palabra se etiqueta inicialmente con su etiqueta más probable No se tiene en
cuenta el contexto en el que aparece .
Palabras desconocidas:
- Sustantivo propio si la primera letra es mayúscula
- Sustantivo común en otro caso
Etiquetador de palabras desconocidas
Intenta adivinar una etiqueta para una palabra desconocida en función de su sufijo, de
su prefijo, y de otras propiedades relevantes similares.
Cada transformación consta de dos partes una descripción del contexto de aplicación
una regla de reescritura que reemplaza una etiqueta por otra.
Etiquetador contextual
El etiquetador contextual actúa justo después del etiquetador de palabras
desconocidas.
Aplica en orden una secuencia de reglas contextuales que han sido aprendidas de
manera automática a partir del corpus de entrenamiento.
CONCLUSIONES
El algoritmo de Porter consta 4 reglas básicas las cuales nos ayuda en la normalización
o generación de lexemas al momento de preprocesamiento de los datos de un corpus lingüístico.
5
RECOMENDACIONES
Podemos usar ambos algoritmos en conjunto como parte del preprocesamiento cuando
trabajamos en un proyecto de procesamiento de lenguaje natural.
BIBLIOGRAFIA
- Newell, A., Langer, S., and Hickey, M. (1998). The role of natural language
processing in alternative and augmentative communication. Natural Language Engineering.
- Bellegarda, J. R. (2004). Statistical language model adaptation: Review and
perspectives. Speech Communication.
WEBGRAFIA
Sparck Jones, Karen, and Peter Willet, 1997, Readings in Information Retrieval, San
Francisco: Morgan Kaufmann: https://tartarus.org/martin/PorterStemmer/index-old.html