Los sistemas automáticos
de extracción de entidades de nombre utilizan una
serie de características que combinadas entre sí les
permiten identificar y clasificar las entidades. Algunas de las
características utilizadas para identificar y clasificar
las entidades de nombre son:
Características morfológicas, por ejemplo si la palabra
comienza por mayúscula Características léxicas:
si pertenecen a determinadas familias relacionadas con las diferentes
categorías, por ejemplo asociación, fundación,
organización para las entidades de nombre de organización.
Características de contexto: comprobar la palabras que están
colocadas un número determinado de posiciones delante o
detrás de términos como los meses del año,
los nombres de monedas, divisiones geográficas o administrativas
o de preposiciones o conjunciones que indican procedencia, origen
o destino. Para esto se emplean diccionarios escogidos y listas
de palabras significativas. |