Auteurs: N. Hegde , B. Wang

Au cours des derniers mois, une série d’applications d’apprentissage par renforcement ont été lancées. Comme toutes les innovations prometteuses, ces nouvelles applications ont capté l’attention de tous les acteurs de l’industrie. Leur accueil initial sera déterminant dans l’adoption précoce de ces technologies. 

Alors que les applications d’apprentissage profond ont déjà été intégrées avec succès dans diverses catégories de produits, la percée de l’apprentissage par renforcement a été plus lente. L’essor récent de la commercialisation d’applications axées sur l’apprentissage par renforcement a été stimulé par des avancées de recherche qui ont donné naissance à des idées de produits dans des secteurs spécifiques, notamment le marché financier, les soins de santé et le marketing. Une fois la concurrence lancée, ces premières étincelles donneront certainement lieu à une explosion d’innovations et de produits.

Les algorithmes d’apprentissage par renforcement ne constituent cependant pas des solutions comme les autres et il serait malavisé de les considérer comme telles. Ce sont d’abord et avant tout des algorithmes d’apprentissage continu, ce qui signifie que le type de données qu’ils requièrent et le potentiel perturbateur qu’ils représentent pour l’industrie posent des problèmes de confidentialité qui exigent de renforcer les techniques en jeu. L’une de ces techniques est la confidentialité différentielle.

En quoi consiste-t-elle?

La notion de confidentialité est difficile à définir d’un point de vue technique. L’une des définitions standards de la confidentialité autour desquelles la communauté universitaire s’est ralliée est celle de la confidentialité différentielle. Elle se fonde sur l’identifiabilité de la participation d’un individu à une base de données. Un algorithme de confidentialité différentielle fera en sorte que des informations individuelles pourront être ajoutées ou retirées d’un ensemble de données sans entraîner d’impact notable sur les résultats de l’algorithme. La confidentialité différentielle est le résultat d’une technique de perturbation ou d’ajout de « bruit » durant le processus d’entraînement de l’algorithme. Le niveau et la cible du bruit sont soigneusement calibrés en fonction du degré de confidentialité et d’exactitude désiré, ainsi que les propriétés de l’ensemble de données et de l’algorithme.

Les techniques standards de confidentialité différentielle fonctionnent sur des ensembles de données fixes avec lesquels les chercheurs sont familiers. Cette connaissance préalable des données leur permet de déterminer le niveau de bruit qu’ils souhaitent ajouter à un ensemble de données pour protéger la confidentialité des individus. L’un des exercices standards pour illustrer le fonctionnement de cette technique consiste à compiler des statistiques agrégées sur le nombre de personnes ayant pratiqué une activité donnée, puis à régler les paramètres de manière à obtenir des résultats statistiques constants même après avoir supprimé les informations d’un individu de l’ensemble de données. Mais comment assurer la confidentialité lorsque l’ensemble de données provient d’un espace d’état continu, dynamique et en évolution constante, imposant un mode d’apprentissage continu? Nous devons alors adopter une nouvelle approche.

La confidentialité différentielle dans l’apprentissage par renforcement profond

Dans notre article Private Q-Learning with Functional Noise in Continuous Spaces, nous examinons diverses solutions possibles à cet enjeu complexe. Pour ce faire, nous définissons d’abord les concepts généraux de la confidentialité différentielle, puis nous en extrapolons les composantes pour les appliquer à différents espaces. Plutôt que d’ajouter du bruit scalaire à un vecteur, nous misons sur la protection de la fonction de récompense, ajoutant des perturbations lorsqu’elle est mise à niveau par l’algorithme.

Cette étape est importante, parce que la fonction de récompense révèle la valeur des actions et, par conséquent, les préférences latentes des utilisateurs. Par exemple, lorsque vous cliquez sur le bouton « J’aime » d’une application de médias sociaux, cette action est codifiée comme étant une « récompense » qui guidera la « politique » (le comportement) de l’algorithme la prochaine fois qu’il repérera un utilisateur similaire dans un état similaire. Notre approche protège la motivation ou l’intention derrière la décision de l’individu. Elle empêche l’identification des préférences individuelles tout en permettant d’extrapoler la politique. La motivation pour la récompense, plutôt que le résultat, est ainsi protégée. Nous voulons protéger l’information que le système a acquise sur les fanatiques de musique indépendante, tout en permettant à l’algorithme de bâtir son intelligence afin de personnaliser les recommandations aux utilisateurs. 

Le calcul est bon

Nous avons appliqué un critère de confidentialité à un paramètre qui peut être décrit comme une variété de tâches d’apprentissage – le cadre « Q-learning » de l’apprentissage par renforcement – dont l’objectif est de maximiser la fonction action-valeur. Nous avons utilisé une fonction d’approximation (c.-à-.d. un réseau neuronal) paramétrée par θ pour découvrir la fonction optimale action-valeur. Nous nous sommes penchés plus spécifiquement sur l’espace d’état continu, où la valeur action-état Q(é, a) a été appliquée à un ensemble de fonctions m définies sur l’intervalle [0, 1]; de la même manière, la récompense a été appliquée à un ensemble de fonctions m, chacune définie sur l’intervalle [0, 1].

Les méthodes standards de perturbation pour les modèles d’apprentissage machine assurent la confidentialité différentielle en ajoutant du bruit aux vecteurs – aux données d’entrée de l’algorithme, aux résultats de l’algorithme, ou aux vecteurs gradients au sein du modèle d’apprentissage machine. Dans notre cas, notre objectif était de protéger la fonction de récompense, qui peut dépendre d’un contexte comptant un nombre élevé de dimensions. L’utilisation de méthodes standards d’ajout de perturbations ferait en sorte que le niveau de bruit à ajouter augmenterait rapidement à l’infini en cas de discrétisation de l’état espace continu. Étant donné que nous cherchions à perturber les fonctions action-valeur, nous avons ajouté du bruit fonctionnel plutôt que du bruit à valeurs vectorielles, comme le veulent les méthodes standards. Ce bruit fonctionnel – un échantillon d’un processus gaussien adéquatement paramétré – a été ajouté à la fonction créée par notre algorithme de Q-learning. Comme dans les méthodes standards, le bruit a été paramétré en fonction de la sensibilité de la requête, qui, en ce qui a trait au bruit à valeurs vectorielles, était la norme l‑2 de la différence des résultats de deux ensembles de données dont la valeur d’un individu diffère. Étant donné que nous nous penchions sur les fonctions de récompense dont la valeur change en fonction de l’état de l’environnement (aléatoire), nous avons utilisé la notion de distance de Mahalanobis pour établir le degré de sensibilité, qui rend compte de la distance entre un point et un ensemble de points échantillonnés.

Implications pour les applications 

Supposons que le patient zéro présente des symptômes et consulte un médecin. Le médecin lui prescrit le médicament A (premier état). Ce médicament n’atténuant pas les symptômes du patient, le médecin lui prescrit ensuite le médicament B (deuxième état). Le patient zéro passe alors à un troisième état, et ainsi de suite, jusqu’à ce que le problème (la maladie) soit résolu. Dans cet exemple, l’agent est programmé pour poser un nombre limité d’actions; ensuite, le système observe l’état de l’agent (les symptômes disparaissent-ils ou non?); et selon les résultats de l’observation de cet état, l’agent décide de la suite des choses. L’algorithme interprète le résultat et récompense ou punit l’agent. La qualité de la récompense dépendra des objectifs à long terme. Se rapproche-t-on de l’objectif (disparition des symptômes) ou s’en éloigne-t-on (le patient est encore plus malade qu’avant la prise de médicaments)?

Jusqu’à maintenant, les mesures de confidentialité appliquées à l’apprentissage par renforcement ont principalement porté sur la protection du mouvement d’un individu (son itinéraire) au sein d’un état particulier. La politique se définit alors par la raison qui a poussé l’utilisateur à accomplir une action spécifique dans cet état. Cette approche fonctionne bien dans le scénario présenté ci-dessus, où le mouvement de l’utilisateur d’un état à l’autre est protégé mais pas la politique, laquelle peut être extrapolée à plusieurs autres utilisateurs. Elle se révèle toutefois inadéquate lorsqu’on l’applique à des domaines comme le marketing, dont les ensembles de données sont considérablement plus dynamiques et fonctionnent en mode d’apprentissage continu.

Une technique plus globale et plus adaptable est nécessaire pour assurer la confidentialité différentielle dans l’apprentissage profond par renforcement, puisque l’objectif est de protéger un modèle de niveau supérieur qui analyse des comportements plutôt que se limiter à un point de données spécifique. Cette approche prendra de l’importance à mesure que s’imposeront les systèmes d’apprentissage continu en ligne. En empêchant l’identification des préférences individuelles tout en permettant à la politique d’être extrapolée, nous protégerons la motivation derrière le désir de récompense plutôt que le résultat. Ce type de garanties de sécurité est essentiel si nous voulons permettre le déploiement de l’apprentissage par renforcement. 

Auteurs