martes, 1 de marzo de 2011

Cálculo rápido de la distancia de Levenshtein (CBenito INGENIO)


Estamos empleando el algoritmo de Levenshtein<http://en.wikipedia.org/wiki/Levenshtein_distance> como paso previo a la desambiguación de los nombres de investigadores españoles en biomedicina.
En la prueba piloto inicial, que toma los originales ISI publicados desde 1990 a 1994 el número de firmas es de 44363.
Como nos han denegado financiación para servidores u ordenadores medianamente decentes, el cálculo correspondiente a cada año emplea dos días enteros, teniendo en cuenta que nos movemos con umbrales variables.
¿Alguien conoce la forma de acelerar el algoritmo? O, dicho de otro modo: ¿Alguien conoce una variante del algoritmo más eficiente?

No hay comentarios: