Fundamentos de Latent Semantic Indexing (LSI) y su aplicación a la categorización de textos periodísticos en euskara
ISSN: 1135-5948
Año de publicación: 2004
Número: 32
Páginas: 67-74
Tipo: Artículo
Otras publicaciones en: Procesamiento del lenguaje natural
Resumen
Muchos métodos de búsqueda de textos en Internet dependen de un emparejamiento exacto entre palabras que busca el usuario y las que existen en el documento. La descomposición en valores singulares utilizada por LSI permite recuperar información basada en conceptos o significados que están latentes en el documento. En este artículo se analizan los fundamentos matemáticos de dicha técnica, y se muestran unos resultados obtenidos para un experimento de categorización de textos. Además, se citan algunas aplicaciónes de LSI para el procesamiento del lenguaje natural.