Open Source Information Retrieval systems Bearbeiten


Stemming Bearbeiten

Quellen:

(z.Z: 2321 Dokumente zu "Stemming", 64 zu "Stemming AND spanish")

Un stemmer es un programma... de reduccion morfologica.

=> Sciencie experimental: invent an algorithmo and test it.

Búsqueda en Google Bearbeiten

http://ir.iit.edu/~abdur/research/conflation/AIRE-Stemming-System.html: "Pickens [9] later expanded that research by examining the effects of using a combination of kstem and porter with co-occurrence information on precision/recall metrics and found a statistical improvement." (also more background)

Software Bearbeiten

Only freely availabe software, prefered GPL:

http://snowball.tartarus.org/ : Snowball es una pequeña lenguaje de programación para el manejo de strings que permite más facil implementar algoritmos de stemming. Puede genear codigo en ANSI C y Java.

  • SWISH-E contains stemmer(s?) too.

Artículos Bearbeiten

Conferences: Bearbeiten

¿Qué es stemming? Bearbeiten

lgoritmo de stemming de Porter Bearbeiten

(facil de traducir para diferentes idiomas)

[C](VC)m[V]

n-gram Bearbeiten

n=2: digram Indice de similaridad: ISa,b=2(nº de digramas comunes)/[(nº de digramas en palabra a)+(nº de digramas en palabra a)],  .

Si el indice de dos palabras superior un valor => son las mismas

- cojer una palabra => forma canonica

word bigrams ("home run"), character bigrams

  • Phrase recognition:
    • Statistical
    • Part of speech tagging
    • Syntactic parsing (parse tree)