Back to the Trees

Résumé. Entre flores centenaires et reconnaissance d’images par intelligence artificielle, nous proposons d’utiliser des techniques de programmation probabiliste et d’inférence bayésienne pour forger un outil d’identification de plantes fiable, pédagogique, et convivial, coconstruit avec des collectifs locaux et nationaux de botanistes.

Des micro-fermes agroécologiques aux forêts urbaines, la biodiversité retrouve petit-à-petit sa place dans nos quotidiens. Après des décennies d’exode urbain, ces nouveaux espaces peuvent cependant devenir des fresques indéchiffrables pour beaucoup d’habitants. Récemment, grâce à l’avènement de l’apprentissage profond, on peut identifier une plante simplement via une photo (Pl@ntNet, iNaturalist, ...). Le téléphone devient donc la clé qui permet aux habitants de connaître leur environnement végétal.

L’efficacité presque magique de ces outils en fait cependant pour leurs utilisateurs des oracles : le réseau a appris à identifier les plantes mais cette connaissance n’est pas facilement accessible et n’est pas forcément basée sur des critères facilement observables habituellement utilisés en botanique. Il est donc difficile de se fier aux résultats produits par l’application. De plus, il y a un risque de créer une dépendance des utilisateurs vis-à-vis de cet outil : ces outils ne sont pas auto-évanescents [6], leur disparition n’est pas anodine dans la vie de leurs usagers. Ils ne sauraient donc être les seuls outils d’identification à notre disposition.

A contrario, la technologie favorite du botaniste pour identifier précisément une plante inconnue est la clé de détermination, un arbre de décision qui permet au botaniste chevronné d’identifier une plante inconnue en observant des caractères morphologiques. Pour la flore française, ces clés sont apparues au XVIIIe siècle [4]. Ces ouvrages permettent une identification précise sous réserve de comprendre les questions et de pouvoir observer la partie de la plante concernée par la question, souvent la fleur.

Proposition

Notre projet se propose de mettre les deux mondes ensembles : de rassembler, d’un côté les botanistes et leurs arbres de décision difficiles à utiliser mais précis, et de l’autre les réseaux de neurones qui apprennent tout seuls sans botanistes. Notre but est de créer un outil pédagogique : dont l’utilisation permet d’apprendre des notions de botanique et d’identification des plantes ; fiable : dont les résultats sont compréhensibles et expliqués à l’utilisateur ; convivial : l’utilisateur comprend comment le résultat est produit et peut participer à la construction et à l’évolution de l’outil.

Plus concrètement, nous souhaitons construire une base de données de descriptions morphologiques précises de plantes, et l’utiliser pour générer des clés de détermination automatiquement, soit numériques hors-ligne, soit même sur papier. Nous proposons d’utiliser un raisonnement bayésien pour ainsi garantir une certaine robustesse aux erreurs de l’utilisateur, ou des données. Ces travaux de recherche en informatique s’organisent autour de trois axes.

Schéma des plantes

Les clés et les descriptions textuelles de plantes utilisent souvent des critères différents selon l’auteur et l’époque. Construire un schéma des plantes, c’est-à-dire un modèle mathématique de la morphologie des plantes pose deux problèmes:

Formaliser les flores

À partir du schéma, nous souhaitons décrire les espèces via une formule dans une logique de description précise, basée sur OWL [1] pour ses propriétés de décidabilité, mais enrichie pour permettre le raisonnement bayésien nécessaire à l’élaboration des arbres de décision. Utiliser une logique plutôt qu’une représentation moins structurée permet de rendre compte de phénomènes subtils (polymorphisme)3. De plus, cette logique peut être utilisée pour définir un glossaire : dériver certains critères en fonction d’autres pris comme primitifs, afin de faciliter la tâche de remplissage des données. 4

Ce remplissage se fera initialement par traduction des descriptions textuelles existantes, en lien avec des associations de botanistes. Pour cela il est important que la logique puisse permettre de relier l’aspect informel et l’aspect formel. Nous souhaitons aussi développer à partir de cette base initiale, des méthodes d’intelligence artificielle. Avec Diego Marcos Gonzalez (éq. Zenith), nous souhaitons collaborer à des fins d’entraîner des modèles de NLP sur la base initiale, et notamment de comprendre comment utiliser des modèles linguistiques dont la sortie sera fiable pour les biologistes. Nous sommes aussi en contact avec Alexis Joly (éq. Zenith), de Pl@ntNet qui cherche à extraire une information similaire à partir de photos.

Un algorithme pour générer des clés

Nous souhaitons concevoir un algorithme pour générer des arbres de décision à partir de la base de donnée. La littérature est riche à ce sujet (de l’approche gloutonne CART [3] aux approches récentes par programmation dynamique [5] ou résolution de contraintes [7], pour ne citer que quelques résultats). Cependant ces algorithmes sont faits pour travailler sur des observations brutes indépendantes, alors que nos descriptions sont plus structurées. Comment tirer parti de cette structure afin d’améliorer la précision des arbres ? De plus, la plupart de ces algorithmes pose des questions sur un unique critère, alors qu’au contraire les clés de botanistes ont tendance à exploiter des corrélations entre plusieurs traits.5 Comment inventer ce genre de questions ? Doit-on laisser la possibilité aux botanistes d’écrire les questions ?

La sortie de l’algorithme serait soit un arbre statique, à imprimer sur papier pour de petites flores (milieu limité) soit un arbre dynamique, pouvant être utilisé sur un téléphone modeste hors-ligne pour des flores plus larges et qui permettrait d’avoir certaines fonctions en plus (passer des questions, retour en arrière etc).

[1]
2012. OWL: Web ontology language.
[2]
Spencer C. H. Barrett and Josh Hough. 2012. Sexual dimorphism in flowering plants. Journal of Experimental Botany 64, 1 (November 2012), 67–82. https://doi.org/10.1093/jxb/ers308
[3]
Leo Breiman, Jerome Friedman, Charles J. Stone, and R. A. Olshen. 1984. Classification and regression trees. Chapman; Hall/CRC.
[4]
Jean-Baptiste de Lamarck. 1779. Flore française.
[5]
Jimmy Lin, Chudi Zhong, Diane Hu, Cynthia Rudin, and Margo Seltzer. 2020. Generalized and scalable optimal sparse decision trees. In International conference on machine learning, 2020. PMLR, 6150–6160.
[6]
Bill Tomlinson, Juliet Norton, Eric Ps Baumer, Marcel Pufal, and Barath Raghavan. 2015. Self-obviating systems and their application to sustainability. 2015.
[7]
Hélene Verhaeghe, Siegfried Nijssen, Gilles Pesant, Claude-Guy Quimper, and Pierre Schaus. 2020. Learning optimal decision trees using constraint programming. Constraints 25, 3 (2020), 226–250.

  1. Les graminées par exemple, ou les fleurs à capitules ont leurs propres critères d’identification liés à leur morphologie particulière↩︎

  2. Par exemple, la structure des feuilles (simples, divisées, composées) est une abstraction de la variété du vivant, et cette abstraction est mise en défaut par un bon nombre d’apiacées, dont la structure des feuilles est souvent difficile à décrire en utilisant ce trait.↩︎

  3. Certaines plantes peuvent avoir des formes très différentes selon leur sexe [2] ou leur milieu.↩︎

  4. Par exemple, le sexe de la fleur peut être dérivé en fonction de la présence ou absence d’étamines ou de pistils.↩︎

  5. Par exemple, au lieu de demander "est-ce que A est vrai?", les questions seront souvent "est-ce que A et B sont vrais", étant entendu qu’à ce point là de l’arbre A et B sont équivalents. Si l’utilisateur a des doutes sur A, il peut donc essayer d’observer B à la place.↩︎