Auteurs: C. Srinivasa , B. Kartal

Une séance d’affichage achalandée à l’AAAI 2019 à Honolulu (Hawaii).

Le mois dernier, nous avons eu la chance d’assister au congrès 2019 de l’Association for the Advancement of Artificial Intelligence (AAAI) à Honolulu. Ce congrès, l’un des plus anciens du domaine, se distingue de la plupart des événements d’apprentissage machine (AM) par le fait qu’il dépasse largement le cadre de l’apprentissage profond. L’étendue des sujets qu’il propose favorise des échanges dynamiques entre les tenants des méthodes classiques et ceux des méthodes modernes, et l’apport des principes classiques à la conception de meilleures approches d’AM. Nous avons regroupé ci-dessous quelques-uns de nos moments préférés et des présentations qui se sont signalées et qui illustrent particulièrement bien les interactions entre ces deux modes de pensée.

Automatisation de l’estimation de la densité 

L’AM a été l’un des sujets chauds de cette édition du congrès. L’une des présentations les plus intrigantes sur la question a été Automatic Bayesian Density Analysis, d’Antonio Vergari (Max Planck Institute for Intelligent Systems)*, Alejandro Molina (TU Darmstadt), Robert Peharz (Université de Cambridge), Zoubin Ghahramani (Université de Cambridge), Kristian Kersting (TU Darmstadt) et Isabel Valera (MPI-IS). S’inspirant des avancées de la sélection automatique des modèles en apprentissage supervisé, la présentation proposait un cadre automatisé pour le problème de l’estimation de la densité en apprentissage non supervisé. L’un des défis ici est que ce problème nécessite souvent une expertise du secteur d’où proviennent les données. Pour contourner cette voie limitative, les auteurs ont proposé d’entraîner un réseau somme-produit (une architecture introduite par Hoifung Poon et Pedro Domingos à l’UAI 2011) pour modéliser les données. 

Les nœuds somme et produit du réseau ont permis aux auteurs de saisir le comportement des caractéristiques des données sous forme de mélange de distributions hétérogènes. Autrement dit, au lieu de compter uniquement sur une combinaison de gaussiens pour une caractéristique particulière, les auteurs ont permis à la même combinaison de contenir des distributions discrètes et continues et différents types de paramétrisations à partir d’un dictionnaire prédéfini. Une fois entraîné, le réseau somme-produit a permis de procéder à une inférence par échantillonnage Gibbs et d’obtenir les valeurs des caractéristiques manquantes de certains des points de l’ensemble de données. Le modèle a aussi été en mesure de fournir des renseignements sur la qualité de la concordance des points de données avec les combinaisons, et de mettre en évidence les points constituant probablement des valeurs aberrantes. 

Le concept de sélection et d’analyse automatiques – une approche toute nouvelle dans les congrès sur l’AM et sur l’intelligence artificielle (IA) – et son application au vieux problème auquel l’AM statistique se heurte, soit d’estimer la densité, est un excellent exemple d’une nouvelle approche utilisée pour résoudre un problème ancien. 

Groupe de discussion sur le futur de l’IA

L’un des débats les plus stimulants du congrès a porté sur le futur de l’IA. Peter Stone et Jennifer Neville, d’un côté, défendaient l’idée que le milieu de l’IA devait continuer à concentrer ses efforts sur les méthodes d’AM, alors que, de l’autre, Michael Littman et Oren Etzioni prétendaient le contraire.

Les discussions ont été drôles, divertissantes et instructives. Cependant, l’auditoire a, avec justesse, fait remarquer que tous les panélistes étaient en fait des experts de l’AM, ce qui cantonnait le camp « anti-AM » dans un rôle d’avocat du diable et faisait qu’un biais favorable à l’AM était presque inévitable. Un bon argument apporté durant le débat a été qu’une trop grande focalisation sur l’AM (comme c’est le cas actuellement) crée un biais chez les étudiants d’aujourd’hui qui, à cause des demandes de l’industrie, n’ont pas étudié les questions classiques de l’IA non liées à l’AM aussi bien que leurs prédécesseurs. Les problèmes surviendront lorsque la mode passera de l’AM au prochain grand domaine en vogue : on risque alors de manquer d’experts sur les questions étrangères à l’AM.

Certains des principaux arguments avancés :

  • Pour Peter, nous devrions nous concentrer sur l’AM parce que nous sommes dans une bonne dynamique et que l’AM est le domaine dans lequel nous manquons le plus de connaissances. Peter a insisté sur le fait que la communauté de l’IA avait axé ses travaux sur l’IA symbolique pendant des décennies avant de reconnaître l’acuité du problème de la perception, un problème pour lequel l’AM se révèle très efficace. Nous finirons par avoir besoin d’approches plus larges, mais, selon lui, il faut pour le moment se concentrer sur l’AM et s’attaquer aux tâches manuelles de ce domaine (comme la conception d’architectures de réseaux neuronaux) afin que dans dix ans, nous soyons en mesure de les automatiser. Ensuite, nous pourrons reprendre les travaux sur l’IA symbolique. 
  • Michael a répliqué que la communauté de l’AM résout des problèmes qui lui sont bien adaptés, pas des problèmes que les communautés d’IA du passé ont essayé de résoudre (comme les mots croisés), et que la communauté de l’AM se concentre sur les problèmes cognitifs faciles. Il s’est notamment appuyé sur la distinction entre les modes de pensée « système 1 » (prise de décision rapide et inconsciente) et « système 2 » (prise de décision lente et contrôlée).
  • Oren a renchéri en déclarant que l’AM est une formidable machine à publier des articles, mais que la descente de gradient et la multiplication de matrices sont insuffisantes. Il a mentionné que nous sommes au cœur d’un changement de paradigme dans toutes les sciences et que nous devons dépasser la simple amélioration graduelle des architectures d’AM.
  • Selon Michael, plus grand sera l’engouement pour l’AM et plus grand sera l’effondrement. Pour cette raison, entre autres, nous devons entretenir les domaines non liés à l’AM.

Le débat a été suivi d’un vote au cours duquel l’auditoire a continué à argumenter contre l’idée selon laquelle nous devrions nous concentrer sur l’AM.

Graphes et réseaux neuronaux

Un autre des principaux sujets abordés au congrès a été la conception et l’utilisation de réseaux neuronaux pour résoudre les problèmes relatifs aux graphes. Le tutoriel de William Hamilton et Jian Tang sur l’apprentissage de la représentation des graphes s’est retrouvé au centre des débats. Les présentateurs ont décrit les derniers progrès dans les réseaux neuronaux à graphe (GNN) et présenté des modèles capables de générer des graphes. Parmi les domaines d’application de cette méthode, citons la recherche opérationnelle et la biologie, où les données ne se prêtent pas bien aux architectures traditionnelles. Un exemple de ce mariage plutôt imparfait serait les réseaux convolutifs, qui ont été conçus principalement pour les applications de vision, en ayant en tête la structure des images. 

Sur cette question, une présentation en particulier a retenu notre attention, donnée lors de la séance sur le respect des contraintes et l’optimisation : Learning to Solve NP-Complete problems – A Graph Neural Network for Decision TSP, par Marcelo Prates, Pedro H. C. Avelar, Henrique Lemos, Luís Lamb (tous les quatre de l’Université fédérale de Rio Grande do Sul) et Moshe Vardi (Université Rice). Les auteurs proposaient d’utiliser un GNN pour résoudre le problème du « voyageur de commerce ». Ils ont présenté cette approche comme un prolongement de l’article « Learning a SAT Solver from Single-Bit Supervision », dans lequel Selsam et ses collaborateurs ont exposé leur utilisation d’une approche de réseau neuronal de transmission de message pour résoudre les problèmes SAT. 

Contrairement aux problèmes SAT, le problème du voyageur de commerce constitue un problème NP-complet avec relations pondérées entre les sommets de son graphe. Pour traiter cela, les auteurs ont mis le graphe pondéré en correspondance avec un GNN, en permettant l’incorporation des poids des arêtes en plus de ceux des sommets. Ils ont ensuite entraîné le modèle comme pour un problème de classification, en lui attribuant un graphe construit et en lui posant la question : « Existe-t-il un chemin hamiltonien de longueur X ou moins dans ce graphe? » 

Pour chaque graphe construit, deux exemples d’entraînement étaient introduits dans le modèle : l’un avec le coût (1-dev)X* et l’autre avec le coût (1+dev)X*, où X* était la longueur minimale connue, et dev, l’écart souhaité par l’utilisateur par rapport à cette longueur optimale. À l’entraînement, les étiquettes correctes pour ces deux instances étaient « NON » et « OUI », respectivement. En plus de constituer une extension de l’utilisation des GNN au-delà des problèmes SAT binaires, cette approche pourrait être particulièrement utile, car de nombreux problèmes d’AM prennent la forme du problème du voyageur de commerce – ou de l’un des 20 autres problèmes NP-complets de Karp. Utiliser les GNN (une approche moderne) pour résoudre les problèmes NP-complet (issus de la littérature classique en informatique) est un autre exemple de la façon dont l’ancien a côtoyé le nouveau à l’AAAI.

Résumé

Globalement, l’AAAI 2019 a montré que si nous assistons actuellement à une explosion de la recherche en apprentissage profond et en apprentissage par renforcement, les questions classiques (comme les professeurs qui y ont travaillé pendant des décennies!) sont toujours bien vivantes et se réincarnent dans ces nouvelles avenues. C’est une bonne nouvelle, et un indice de ce qui nous attend.