Descubriendo los rasgos usados por algoritmos de Deep Learning en la identificación de taxones de plantasDr.

Terminado

Jan 2019

Dec 2020

Unidad Coordinadora

Escuela de Ingeniería en Computación

Unidad participante

Escuela de Matemática

Tipo de proyecto

Investigación

Personas investigadoras

Nombre completo	Rol
Dr. Erick Mata Montero	Coordinador

Se plantea descubrir los rasgos más determinantes usados por algoritmos de deep learning con redes neuronales convolucionales (CNN) en la identificación de taxones (especies, géneros y familias) usando como referencia algunas especies de plantas de Costa Rica.

La investigación se apoyará en los resultados de trabajo previo que hemos desarrollado investigadores del grupo PARMA, particularmente en el proyecto “Identificación de Especies de Plantas de Costa Rica Utilizando Visión por Computadora” en el cual se realizó la construcción de dos bases de datos: una con imágenes de hojas de 255 especies de plantas de Costa Rica (HOJASCR) y otra de pliegos de herbario de esas 255 especies de plantas de Costa Rica (PLIEGOSCR). Además, se cuenta con una CNN que exitosamente identifica especies, géneros y familias a partir de las dos bases de datos construidas. Con este proyecto, es la primera vez que se hace un estudio que considere tanto hojas como pliegos de herbario. Hasta ahora, no se ha estudiado el tema con respecto a grupos taxonómicos superiores, como los géneros y las familias, pero esto es muy importante desde un punto de vista práctico: las bases de datos de imágenes disponibles en el mundo son muy dispares con respecto a número de imágenes a nivel de especie pero un poco más uniformemente distribuidas a nivel de taxones superiores.

Los beneficiarios directos serán los taxónomos botánicos, es decir, los científicos que constantemente hacen identificaciones mediante claves de identificación y que podrán contar con una CNN que no solamente sea efectiva sino que tienen un componente explicativo. En segunda instancia, se benefician los procesos de curación de datos en herbarios y, por lo tanto, el flujo de trabajo científico que lleva a la identificación eficiente de especies.

Esto es fundamental para realizar inventarios rápidos y confiables de la biodiversidad, que actualmentne tienen propensión a errores, son lentos y carecen de suficientes taxónomos para hacerlo. También se cuenta con el libre uso de su equipo de alto rendimiento (múltiples GPU) que posee el Centro Nacional de Computación Avanzada del CENAT.