Améliorer la sécurité de l'apprentissage fédéré avec le chiffrement polymorphique et homomorphique

Moshawrab, Mohammad (2024). Améliorer la sécurité de l'apprentissage fédéré avec le chiffrement polymorphique et homomorphique. Thèse. Rimouski, Université du Québec à Rimouski, Département de mathématiques, informatique et génie, 406 p.

[thumbnail of Mohammad_Moshawrab_juillet2024.pdf] PDF
Télécharger (13MB) | Prévisualisation

Résumé

« Depuis sa création, l'Intelligence Artificielle (IA) a toujours été un point focal de la recherche, équipant les machines, y compris les ordinateurs et autres, de la capacité d'agir de manière autonome, en émulant ainsi l'intelligence humaine. Les sous-domaines de l'IA, plus particulièrement l'apprentissage machine (ML) et l'apprentissage profond (DL), ont fait preuve d'une efficacité remarquable dans la résolution des tâches d'analyse des données. L'apprentissage machine, caractérisé par un ensemble d'algorithmes permettant aux ordinateurs d'apprendre à partir de données d'entraînement sans programmation explicite, a été largement adopté dans l'industrie, les soins de santé, les transports, l'éducation, le commerce électronique et divers autres secteurs. Cette adoption a été catalysée par son aptitude à découvrir des motifs dans les données, à apprendre d'eux, et à faire des prédictions en conséquence. La croissance de l'apprentissage machine a été facilitée par les progrès des techniques informatiques. Ces progrès ont permis aux spécialistes de l'apprentissage automatique d'analyser des ensembles de données plus importants et de s'attaquer à des problèmes plus complexes, repoussant ainsi les limites de ce qui peut être réalisé. Néanmoins, le domaine reste confronté à une série de défis que l'on peut classer en quatre grandes catégories : les défis liés aux données, les défis liés aux modèles, les défis liés à la mise en œuvre et les défis généraux. Parmi ceux-ci, les questions primordiales de la vie privée et de la sécurité entrent dans la catégorie des défis généraux. D'une part, les modèles de ML restent vulnérables à un spectre d'attaques et de menaces, quels que soient les mécanismes de sécurité mis en œuvre. D'autre part, les préoccupations en matière de protection de la vie privée ont donné naissance à un cadre réglementaire qui restreint l'accès aux données, limitant ainsi les performances des modèles de ML. Il s'agit là d'un obstacle important, car l'efficacité des modèles intelligents est souvent proportionnelle à leur capacité à accéder à des ensembles de données diversifiés et complets. En réponse à ces défis de sécurité et de confidentialité, Google a introduit l'apprentissage machine fédéré, également connu sous le nom de Federated Learning (FL). Le FL a été initialement conçu comme une approche de ML préservant la vie privée, car il élimine le besoin de centraliser les données des utilisateurs pour l'apprentissage des modèles. À la place, les modèles sont distribués aux clients participants, formés localement, puis agrégés par le serveur pour générer un modèle global. Dans ce contexte, un algorithme d'agrégation d'apprentissage fédéré est défini comme le mécanisme utilisé par le serveur pour envoyer des modèles aux clients impliqués dans le cycle d'FL, recevoir les modèles entraînés de leur part et les combiner en un seul modèle global entraîné. Bien que le FL soit prometteur en matière de protection de la vie privée, il reste sensible aux menaces de sécurité. Les chercheurs étudient activement des méthodes pour sécuriser le FL contre diverses attaques, notamment les attaques byzantines, les attaques par inversion, les attaques par porte dérobée, etc., en mettant en œuvre des mécanismes tels que le chiffrement homomorphe, le calcul multipartite sécurisé, la méthode des multiplicateurs à sens alternatif et bien d'autres encore. Bien que des progrès considérables aient été réalisés dans le renforcement des algorithmes FL contre certaines attaques, des vulnérabilités telles que l'attaque par inversion persistent, permettant à des entités malveillantes de discerner les données des utilisateurs contenues dans les modèles entraînés. Cela souligne le besoin pressant de faire progresser les mesures de sécurité dans le domaine du FL. Motivée par l'impératif de renforcer l'apprentissage fédéré contre une multitude d'attaques et reconnaissant le potentiel du chiffrement polymorphe et homomorphe dans l'amélioration de la sécurité, cette recherche présente quatre nouveaux frameworks d'agrégation de l'appre tissage fédéré : PolyFLAG_SVM, PolyFLAM, PolyFLAP et HP_FLAP. Les modèles proposés intègrent le chiffrement polymorphe et homomorphe dans leur architecture, ce qui garantit que les messages échangés entre le serveur et les clients restent protégés contre les entités malveillantes. Les frameworks prennent en charge la formation de plusieurs modèles d'apprentissage machine, permettant aux utilisateurs de sélectionner le modèle le mieux adapté à leur problème spécifique. Ce qui distingue ces frameworks, c'est l'intégration du chiffrement homomorphe et polymorphe, qui renforce leur résilience face aux menaces. Le chiffrement homomorphe permet au serveur d'agréger les paramètres échangés sans déchiffrement, tandis que le chiffrement polymorphe garantit que chaque message échangé entre le serveur et les clients FL est chiffré avec une clé de chiffrement distincte, réduisant ainsi le risque de compromis des clés à pratiquement zéro, puisque ces clés ne sont jamais réutilisées dans le cycle du FL. Cette double couche de sécurité renforce la sécurité globale du FL, en contrant diverses menaces, y compris les attaques par inversion, faisant ainsi progresser le domaine en question. En outre, les frameworks proposés intègrent des techniques de réduction des coûts de communication pour améliorer leur efficacité. Pour valider l'efficacité de ces frameworks, une évaluation complète a été menée, englobant les garanties théoriques, l'analyse de la complexité temporelle et spatiale, les évaluations de l'utilisation des ressources et les évaluations de la qualité de l'apprentissage. Des tests approfondis ont été effectués sur trois ensembles de données distincts, dont un ensemble de données simulées et des données réelles liées à la santé provenant de SHAREEDB et des ensembles de données binaires de Surgical Deepnet. Les résultats empiriques soulignent l'amélioration substantielle de la sécurité, car même dans le cas rare d'une clé de chiffrement compromise ou ayant fait l'objet d'une fuite, le risque pour l'ensemble du système est minime, étant donné la non-réutilisation des clés entre les différentes sessions des clients. Bien que les frameworks proposés offrent effectivement des approches d'agrégation de FL sécurisées et efficaces en termes de communication, ils constituent une base sur laquelle d'autres avancées et intégrations avec les approches existantes peuvent être construites. Une telle intégration peut améliorer la fiabilité et la crédibilité des frameworks proposés et de l'environnement d'apprentissage fédéré dans son ensemble. -- Mot(s) clé(s) en français : Confidentialité, sécurité, attaques par inversion, apprentissage machine fédéré, apprentissage fédéré, chiffrement polymorphe, chiffrement homomorphe, PolyFLAG_SVM, PolyFLAM, PolyFLAP, HP_FLAP, communication efficace. »--
« Since its inception, Artificial Intelligence (AI) has remained a focal point of research, equipping machines, including computers and more with the capacity for acting autonomously, by emulating human intelligence. The subfields of AI, most notably Machine Learning (ML) and Deep Learning (DL), have demonstrated remarkable efficiency in solving data analysis tasks. Machine Learning, characterized by a set of algorithms enabling computers to learn from training data without explicit programming, has gained widespread adoption across industry, healthcare, transportation, education, e-commerce, and various other sectors. This adoption has been catalyzed by its aptitude for uncovering patterns in data, learning from them, and ability to making predictions accordingly. The growth of Machine Learning has been facilitated by advancements in computing techniques. These advancements have empowered ML practitioners to analyze larger datasets and tackle more intricate problems, thus extending the boundaries of what can be achieved. Nevertheless, the domain still grapples with a range of challenges that can be categorized into four broad areas: data-related, model-related, implementation-related, and general challenges. Among these, the overarching issues of privacy and security fall within the category of general challenges. On one front, ML models remain vulnerable to a spectrum of attacks and threats, regardless of the security mechanisms implemented. On the other front, privacy concerns have given rise to a regulatory landscape that restricts access to data, thereby constraining the performance of ML models. This has emerged as a significant hurdle, as the effectiveness of smart models is often commensurate with their ability to access diverse and comprehensive datasets. In response to these security and privacy challenges, Google introduced Federated Learning, also known as Federated Learning (FL). FL was initially conceived as a privacy-preserving ML approach, as it eliminates the need to centralize user data for model training. Instead, models are distributed to participating clients, trained locally, and later aggregated by the server to generate a global model. In this context, a Federated Learning aggregation algorithm is defined as the mechanism used by the server to send models to clients involved in FL cycle, receive trained models from them and merge the them into a single trained global model. While FL has shown promise in preserving privacy, it remains susceptible to security threats. Researchers are actively exploring methods to secure FL against various attacks, including Byzantine attacks, inversion attacks, backdoor attacks, and more, by implementing mechanisms like Homomorphic Encryption, Secure Multi-Party Computation, the Alternating Direction Method of Multipliers and much more. While substantial progress has been made in strengthening FL algorithms against certain attacks, vulnerabilities like the inversion attack persist, enabling malicious entities to discern users' data contained within the trained models. This underscores the pressing need to advance security measures within the FL domain. Motivated by the imperative to fortify Federated Learning against a multitude of attacks and recognizing the potential of Polymorphic and Homomorphic Encryption in enhancing security, this research introduces four novel Federated Learning aggregation frameworks: PolyFLAG_SVM, PolyFLAM, PolyFLAP, and HP_FLAP. These proposed models embed both Polymorphic and Homomorphic Encryption in their architecture, ensuring that messages exchanged between the server and clients remain safeguarded against malicious entities. The models support multiple smart models in training, providing flexibility for users to select the most suitable model for their specific problem. What sets these frameworks apart is the integration of both Homomorphic and Polymorphic encryption, bolstering their resilience against threats. Homomorphic Encryption allows the server to aggregate exchanged parameters without decryption, while Polymorphic Encryption guarantees that each message exchanged between the server and the FL clients is encrypted with a distinct encryption key, thus reducing the risk of key compromise to virtually zero, as these keys are never reused in the FL cycle. This dual-layered security enhances the overall security of FL, countering various threats, including inversion attacks, thereby advancing the FL domain. Moreover, the proposed frameworks incorporate communication cost reduction techniques to enhance their efficiency. To validate the efficacy of these proposed frameworks, a comprehensive evaluation was conducted, encompassing theoretical guarantees, analysis of time and space complexity, resource utilization assessments, and assessments of learning quality. Extensive testing was performed across three distinct datasets, including a simulated dataset and real-life health-related data from SHAREEDB and the Surgical Deepnet Binary datasets. The empirical results unequivocally underscore the substantial enhancement in security, as even in the rare event of a compromised or leaked encryption key, it poses minimal risk to the overall system, given the non-reuse of keys across different client sessions. While these proposed frameworks indeed offer secure, communication-efficient FL aggregation approaches, they present a foundation upon which further advancements and integrations with existing approaches can be built. Such integration can enhance the reliability and trustworthiness of the proposed frameworks and the Federated Learning environment as a whole. -- Mot(s) clé(s) en anglais : Privacy, Security, Inversion Attacks, Federated Machine Learning, Federated Learning, Polymorphic Encryption, Homomorphic Encryption, PolyFLAG_SVM, PolyFLAM, PolyFLAP, HP_FLAP, communication-efficient. »--

Type de document : Thèse ou mémoire de l'UQAR (Thèse)
Directeur(trice) de mémoire/thèse : Adda, Mehdi
Co-directeur(s) ou co-directrice(s) de mémoire/thèse : Bouzouane, Abdenour
Information complémentaire : Thèse présentée dans le cadre du programme de doctorat en ingénierie de l'UQAC offert par extension à l'UQAR en vue de l'obtention du grade de Philosophiae doctor (Ph. D.)
Mots-clés : Apprentissage automatique ; Chiffrement (Informatique) ; Confidentialité des données.
Départements et unités départementales : Département de mathématiques, informatique et génie > Génie
Date de dépôt : 06 févr. 2025 14:28
Dernière modification : 06 févr. 2025 14:28
URI : https://semaphore.uqar.ca/id/eprint/3156
Éditer la notice Éditer la notice (administrateurs seulement)

Téléchargements

Téléchargements par mois depuis la dernière année