Comparación Visual de Información Voluminosa con Estructura Jerárquica

Imagen por omisión

Investigadores

NombreParticipación
Lilliana Sancho ChavarríaCoordinadora
Erick Mata MonteroInvestigador
Fabian BeckInvestigador
Daniel WeiskopfInvestigador

La clasificación de conceptos de forma jerárquica es común en muchos campos de conocimiento y de la vida cotidiana. Algunos ejemplos son: la organización de los archivos en carpetas, la estructura organizativa de las empresas, la organización del código Fuente de programas computacionales y la taxonomía de especies biológicas. Debido a la enorme cantidad de información que se produce y que se almacena actualmente, el análisis comparativo de información con estructura jerárquica ha venido tomando relevancia. Desde el punto de vista ingenieril, la representación de información jerárquica y la comparación de jerarquías en un espacio pequeño, como es la pantalla de computadora, es un reto monumental.

Para efectos de la investigación escogimos como un dominio de aplicación las taxonomías biológicas, dado su volumen, complejidad y potencial impacto en las actividades de eScience. Iniciativas internacionales, como Catalogue of Life (CoL) trabajan en estandarizar e integrar bases de datos taxonómicas de todo el mundo. Actualmente CoL mantiene una taxonomía con 1.6 millones de especies provenientes de múltiples fuentes (158 bases de datos). Esta taxonomía está sujeta a cambios frecuentes, por lo que su mantenimiento es especialmente complejo. Los cambios ocurren debido a nuevos descubrimientos o a correcciones producto de la investigación en el campo; por ejemplo, en un proceso de revisión se puede determinar que lo que se consideraba desde hace muchos años una sola especie, corresponde en realidad a dos o más especies o, el caso contrario, que se determine que dos especies distintas son en realidad una misma. Todas estas situaciones generan cambios tanto a nivel topológico de la jerarquía como a nivel de la nomenclatura.

En la investigación realizada conjuntamente por personal de la Escuela de Computación del TEC y del Centro de Investigaciones en Visualización de información de la Universidad de Stuttgart (VISUS) en Alemania durante el primer semestre 2016, se contactó a taxónomos expertos de Costa Rica, España y Estados Unidos, así como al director ejecutivo de CoL, quienes confirmaron que la comparación automática y el análisis de dos versiones diferentes de una taxonomía sería un mecanismo sumamente útil para el laborioso proceso de la limpieza de las bases de datos (“data cleaning”), para el análisis de la evolución de la taxonomía y como contribución a los esfuerzos de integración y estandarización de la voluminosa información taxonómica a nivel mundial.

Proponemos por lo tanto desarrollar una solución computacional para la comparación visual de información voluminosa con estructura jerárquica y aplicarla particularmente al dominio de taxonomías biológicas. Tomaremos como base el estado del arte en las técnicas de visualización y comparación de información con estructura jerárquica así como las investigaciones recientes respecto a las tareas que conllevan el trabajo taxonómico, identificaremos alternativas para la comparación visual de las taxonomías, desarrollaremos los algoritmos para la identificación automática de diferencias y similitudes entre diferentes versiones de una taxonomía y desarrollaremos un protocolo de comunicación para importar datos provenientes de bases de datos taxonómicas a nivel mundial. El proyecto contará con la colaboración del Centro de Investigaciones VISUS.

Contacto