domingo, 22 de noviembre de 2009

El repositorio arXiv sera mas interactivo

El repositorio arXiv será más interactivo
17 nov 2009

ArXiv, el repositorio de física, electrónica, informática,
matemáticas, estadística y finanzas, iniciado por Los Alamos National
Laboratory y actualmente gestionado por la Cornell University,
convertirá su base de datos en un sistema más interactivo. Será un
lugar donde autores, artículos, bases de datos y lectores se
comuniquen entre sí para ayudar a los usuarios a identificar los
principales conceptos de las obras, ver los informes de investigación
en su contexto y encontrar fácilmente trabajos relacionados. Se
desarrollará durante 3 años gracias a una subvención de la National
Science Foundation de 883.000 dólares, estimulada por la American
Recovery and Reinvestment Act (ARRA) (Ley Americana de Recuperación y
Reinversión).

ArXiv contiene actualmente 600.000 artículos, con un aumento de 5.000
mensuales. En general, los investigadores depositan en él sus trabajos
como "borradores" antes de su publicación oficial en revistas o congresos .

Las nuevas herramientas que se implementarán unirán los documentos
mediante conceptos, y no sólo por las citas que contienen. Con ello se
espera ayudar a los usuarios sin conocimientos técnicos avanzados, y
personas de fuera de la comunidad científica a comprender la
importancia y el interés de las nuevas investigaciones. El sistema
también señalará las bases de datos relacionadas y comentarios.

Con la informática podemos buscar documentos mediante palabras o
frases específicas, pero los conceptos no siempre se describen con las
mismas palabras exactas, y algunas palabras significan cosas distintas
en lugares diferentes. Se diseñarán nuevos algoritmos que utilizarán
un enfoque "más difuso" (fuzzier), infiriendo los conceptos a partir
de cómo se usan los términos, y harán un seguimiento de otros
documentos relacionados a lo largo de cinco o diez años. Por
consiguiente los usuarios podrán ver la "genealogía" de las ideas. Los
nuevos documentos estarán vinculados a definiciones y reglas que
permitirán a las máquinas "razonar" sobre ellos, e inferir relaciones.

Entre otras mejoras también se ofrecerá interoperabilidad con otros
sitios de investigación, tales como PubMedCentral, y disposiciones que
permitan a los científicos contribuir con nuevos formatos de texto más
flexibles.

Nota de prensa original:
http://www.news.cornell.edu/stories/Nov09/ARRAarXiv.html

Traducción: Tomàs Baiget

http://elprofesionaldelainformacion.com

----------------------------------------------------
Archivos de INCYT: http://listserv.rediris.es/archives/incyt.html
------------------------------------------------------

lunes, 16 de noviembre de 2009

Modelos de evaluacion de calidad y prediccion de impacto (TBaiget)

Me llega esta noticia, que me suena un poco a ciencia ficción, pero el
sitio web parece serio:
http://www.nyuinformatics.org/research/labs/eirsl

El New York University - Center for Health Informatics and
Bioinformatics (Chibi) tiene un laboratorio llamado Evidence based
medicine information retrieval and scientometrics lab (Eirsl) que dice
haber desarrollado un método de filtrado basado en el reconocimiento
de patrones que puede identificar automáticamente el contenido y la
calidad tanto de páginas web como de artículos científicos. Los
modelos aceleran la búsqueda y la síntesis de la literatura,
centrándose en el contenido de artículos específicos de más calidad
metodológica.

El trabajo del Eirsl ha demostrado que es posible aumentar las medidas
tradicionales de calidad bibliométricas, como el recuento de citas y
factor de impacto, utilizando enfoques de aprendizaje de máquina. En
particular, los métodos de aprendizaje de máquina predicen con
exactitud el número de citas en un horizonte de 10 años después de la
publicación, utilizando sólo los datos disponibles en el momento de la
publicación. La predicción de citas podría ser un potente filtro para
centrar la atención en las publicaciones recientes que tienen más
probabilidades de influir en los nuevos avances científicos y clínicos.

Los métodos de aprendizaje de máquina también puede caracterizar con
precisión la naturaleza de una cita como esencial o no. El númerode
citas se ajusta descartando las que no son importantes para los
documentos citados, ya que muchos de ellos reciben citas por otras
causas que no tienen nada que ver con su calidad (por ejemplo, pueden
ser citados para su refutación, etc.) Eirsl hará avanzar el estado del
arte en estas áreas, ampliando el número y el alcance de estos modelos
y su entrega a los investigadores y los pacientes a través de
colaboraciones con la Ehrman Medical Library para evaluar la eficacia
de estos métodos y para orientar sus futuras mejoras.

Eirsl también desarrollará nuevas tecnologías basadas en el
reconocimiento de patrones para identificar con precisión el contenido
y la calidad de Medline, y documentos web. El objetivo es identificar
rápidamente los resultados de investigación de mayor impacto y de
mayor calidad, a fin de acelerar su uso tanto para la investigación
como para la atención clínica.

Resumen de diapositivas de los métodos Eirsl:
-Modelos de reconocimiento de patrones para predecir las citas. Ver
esquema del proceso:
http://www.nyuinformatics.org/files/chibi/attachments/Intro.pdf
-Modelos de reconocimiento de patrones para identificar artículos y
páginas web de alta y baja calidad. Ver esquema del proceso:
http://webdoc.nyumc.org/nyumc/files/chibi/attachments/Filters.pdf


Tomàs Baiget
http://elprofesionaldelainformacion.com