Descubriendo los rasgos usados por algoritmos de Deep Learning en la identificación de taxones de plantasDr.

Imagen con fines ilustrativos
Dec 2020
Unidad participante

Personas investigadoras

Nombre completoRol
Dr. Erick Mata MonteroCoordinador

Se plantea descubrir los rasgos más determinantes usados por algoritmos de deep learning con redes neuronales convolucionales (CNN) en la identificación de taxones (especies, géneros y familias) usando como referencia algunas especies de plantas de Costa Rica.

La investigación se apoyará en los resultados de trabajo previo que hemos desarrollado investigadores del grupo PARMA, particularmente en el proyecto “Identificación de Especies de Plantas de Costa Rica Utilizando Visión por Computadora” en el cual se realizó la construcción de dos bases de datos: una con imágenes de hojas de 255 especies de plantas de Costa Rica (HOJASCR) y otra de pliegos de herbario de esas 255 especies de plantas de Costa Rica (PLIEGOSCR). Además, se cuenta con una CNN que exitosamente identifica especies, géneros y familias a partir de las dos bases de datos construidas. Con este proyecto, es la primera vez que se hace un estudio que considere tanto hojas como pliegos de herbario. Hasta ahora, no se ha estudiado el tema con respecto a grupos taxonómicos superiores, como los géneros y las familias, pero esto es muy importante desde un punto de vista práctico: las bases de datos de imágenes disponibles en el mundo son muy dispares con respecto a número de imágenes a nivel de especie pero un poco más uniformemente distribuidas a nivel de taxones superiores.

Los beneficiarios directos serán los taxónomos botánicos, es decir, los científicos que constantemente hacen identificaciones mediante claves de identificación y que podrán contar con una CNN que no solamente sea efectiva sino que tienen un componente explicativo. En segunda instancia, se benefician los procesos de curación de datos en herbarios y, por lo tanto, el flujo de trabajo científico que lleva a la identificación eficiente de especies.

Esto es fundamental para realizar inventarios rápidos y confiables de la biodiversidad, que actualmentne tienen propensión a errores, son lentos y carecen de suficientes taxónomos para hacerlo. También se cuenta con el libre uso de su equipo de alto rendimiento (múltiples GPU) que posee el Centro Nacional de Computación Avanzada del CENAT.