martes, 6 de enero de 2009

Snowball Stemmer en Español para Weka

Nota: Esta entrada fue migrada a mi nuevo sitio de Programación Java. Para utilizar Snowball Stemmer en Español con Weka deben:

a) Bajar el Jar de Snowball (http://www.cs.waikato.ac.nz/~ml/weka/stemmers/snowball.jar).
b) Guardarlo en el directorio raíz del Weka.
c) Agregar el texto en negrita a la siguiente entrada en el archivo RunWeka.ini:
cp=%CLASSPATH%;snowball.jar

Al seleccionar el filtro "StringToWordVector" aparece "Stemmer Chose". Al hacer click sobre el botón "Choose" se despliegan distintas posibilidades entre la que está "Snowball". Editamos la única propiedad que tiene: en el "text box" colocamos "spanish" (sin las comillas).

Cuando uno utiliza Stemmer + Blacklist, el filtro "StringToWordVector" aplica primero el stemming y luego filtra con la lista de palabras prohibidas.
Deben tener en cuenta, entonces, escribir las raíces de las palabras en la blacklist, si se va a utilizar esta modalidad.
Teniendo en cuenta esta restricción, lo que pueden hacer es primero filtrar las palabras de la list negra (por fuera del Weka) y luego aplicar stemmer sin setearle la opción antes mencionada.

Link en inglés: http://weka.sourceforge.net/wekadoc/index.php/en:Stemmers_(3.5.2)

1 comentario:

  1. Muchas Gracias Bicho, estaba buscando como hacer que el stemmer funcionara en español, me gustaria obtener el codigo fuente y hacerlo andar dentro de eclipse, para asi poder modificar las partes del codigo que me parezcan. Si es que sabes como hacerlo, te agradeceria que me digas como.
    Saludos
    Manuel

    ResponderBorrar