Los sistemas
automáticos de extracción de entidades de nombre (NER)
son capaces de descubrir y clasificar las entidades que
contiene un texto.
Estos sistemas son métodos de aprendizaje que partiendo de un conjunto
de términos de referencia de un idioma concreto (corpus), establecen unas
etiquetas para dichos términos que sirven como entrenamiento del sistema.
Puesto que es imposible recoger en él todas las posibles entidades de
un idioma, de lo que se trata es de entrenar al sistema para reconocer situaciones
en las que pueden aparecer las diferentes entidades de nombre. El conocimiento
adquirido en ese aprendizaje se aplica a textos desconocidos.
Los sistemas de extracción de entidades de nombre se basan en modelos
de aprendizaje. Entre ellos los más conocidos son los Modelos de Markov,
los Árboles de decisión, el Memory based learner y el principio
de Máxima Entropía.
La combinación de estos modelos permite resolver las dificultades en la
identificación y la clasificación de entidades. Para ello
los diferentes sistemas de extracción de entidades de nombre establecen
un conjunto de rasgos o características que ayudan al sistema a aprender
a reconocer las entidades. |
|
|