Skip to content
Voir tous les articles

Qu'est-ce que la classification de l'IA dans l'apprentissage automatique ?

Nous vivons à l'heure du big data. Chaque jour, les entreprises et les particuliers génèrent de grandes quantités d'informations dont ils délèguent la gestion et l'analyse à des spécialistes. AI. Pour ce faire, les systèmes d'IA doivent être capables de classer les données.

Pour comprendre comment ils procèdent, examinons ce qu'est la classification de l'IA.

Guide de l'acheteur pour la classification de l'IA

Qu'est-ce que la classification des données par l'IA ?

Classification des données d'IA, ou Classification de l'IALa reconnaissance des caractéristiques et des modèles est le processus d'organisation des données en catégories prédéfinies. On apprend au modèle d'IA à reconnaître les caractéristiques et les modèles d'information, afin qu'il puisse les identifier dans tout nouvel ensemble de données.

La classification de l'IA est particulièrement utile pour comprendre données non structurées. C'est logique, car les données structurées n'ont pas vraiment besoin d'être classées ; comme leur nom l'indique, elles sont déjà structurées. Cependant, les informations cachées dans les données non structurées peuvent être utilisées pour l'analyse prédictive, le filtrage des spams, la génération de recommandations et la reconnaissance d'images.

6 types d'IA générative

Types de classification de l'intelligence artificielle

Les données non structurées n'étant pas d'un type unique, les modèles d'IA ont besoin d'algorithmes différents, en fonction des résultats souhaités. Chaque algorithme est conçu pour le type de problème que vous souhaitez résoudre et le type de données disponibles.

Voici quelques-uns des types les plus courants de classification de l'IA :

Classification binaire

Dans certains cas, l'algorithme de classification de l'IA ne doit classer les données que dans l'une des catégories suivantes deux catégories. C'est soit "on", soit "off", soit "oui", soit "non", soit "bien", soit "mal", etc. Ce type de classification est appelé binaire.

Où cette classification pourrait-elle être utilisée ? Elle est utile pour la détection des spams dans les courriels de votre boîte de réception. Il peut s'agir de spam ou non. Une transaction financière est-elle frauduleuse ou non ? Une demande de prêt doit-elle être approuvée ou non, sur la base des antécédents financiers et des données actuelles du demandeur ?

Ces types de décisions n'ont que deux issues, et c'est ce que l'IA vous aide à faire.

Classification multi-classe

Alors que la classification binaire ne prenait en compte que deux étiquettes de classe, la classification multiclasse en prend davantage en compte. Par exemple, outre la détection de "spam" ou de "non spam", un client de messagerie peut également classer vos courriels dans les catégories "promotionnel", "social", "important", etc.

Un autre exemple est celui où le modèle d'apprentissage automatique est utilisé pour "lire" les chiffres dans les images, comme les numéros de téléphone ou les codes postaux écrits à la main sur les enveloppes. Chaque symbole doit être classé dans l'une des dix classes correspondant aux chiffres de 0 à 9.

En bref, la classification multiclasse est très similaire à la classification binaire, sauf qu'elle traite plus de deux catégories possibles. Cependant, il est important de se rappeler que même s'il existe plusieurs classes, un objet de données ne peut être affecté qu'à l'une d'entre elles dans les tâches de classification et de régression. L'e-mail peut être soit une promotion, soit une notification de média social, mais pas les deux. Un chiffre ne peut être que 1 ou 7, pas les deux à la fois.

Classification multi-label

Les catégories précédentes concernaient des options qui ne pouvaient être classées que dans une seule classe, qu'il s'agisse d'une classe sur deux ou d'une classe sur plusieurs. La classification multi-étiquettes est plus complexe. Ici, un objet peut appartenir à plus d'une catégorie. Par exemple, un chien peut être à la fois "animal", "labrador", "noir", "chien de chasse", etc.

Cela ressemble beaucoup aux étiquettes que vous avez pu voir sur des articles d'actualité ou des billets de blog. Un article sur la sécurité des données peut être classé dans les catégories "sécurité", "données", "incidents de sécurité" et "automatisation de la sécurité des données".

Ou encore, lorsqu'une plateforme de streaming classe un film, qui peut être une "comédie" ou une "romance".

Classification déséquilibrée

Ce type de classification est plus complexe que les autres. La classification déséquilibrée, comme son nom l'indique, concerne les ensembles de données où une classe l'emporte largement sur l'autre.

Par exemple, des centaines de milliers de personnes peuvent subir un test de dépistage, mais seules quelques-unes d'entre elles se voient diagnostiquer un cancer. De même, sur des millions de transactions par carte de crédit, seules quelques-unes peuvent être frauduleuses. Les autres sont parfaitement légitimes. Ou encore, chaque année, un petit nombre d'étudiants peut abandonner l'école, mais la grande majorité reste inscrite.

Dans chacun de ces cas, vous souhaitez détecter ou prédire un événement rare. Cependant, les données sur lesquelles votre modèle est entraîné sont biaisées en faveur de la classe opposée.

Les modèles d'IA fondent souvent leurs résultats sur des probabilités. Si une chose a peu de chances de se produire, ils ignoreront les 0,001% de chances qu'elle se produise et se concentreront sur les 99,999% de chances qu'elle ne se produise pas.

Toutefois, dans les cas que nous avons mentionnés, il est préférable d'avoir une faux positif qu'un faux négatif. S'il y a une chance que le résultat soit un cancer, que la transaction soit frauduleuse, que l'étudiant soit susceptible d'abandonner ses études, vous voulez le savoir pour pouvoir intervenir. Vous préférez que l'information soit signalée pour qu'un expert humain puisse l'évaluer plutôt que de la voir passer à travers les mailles du filet sous la forme d'une improbabilité statistique.

Certes, les données d'apprentissage penchent vers le négatif, mais votre algorithme d'apprentissage automatique doit en tenir compte. Sinon, vous obtiendrez un modèle susceptible de considérer un incident important comme normal simplement parce qu'il est statistiquement improbable.

Comment les algorithmes de classification des données de l'IA sont-ils formés ?

Maintenant que nous connaissons les classifications courantes, voyons comment les modèles d'IA sont entraînés à les réaliser. Ce n'est pas très différent de la façon dont on enseigne à un enfant.

Par exemple, disons que vous enseignez à un jeune enfant les animaux, les oiseaux et les fruits, qui peuvent être considérés comme des données catégorisées dans un contexte d'apprentissage. Vous pouvez lui montrer des images et lui indiquer les caractéristiques spécifiques qui les identifient. Une pomme est rouge et ronde, tandis qu'une banane est jaune et longue. Si l'animal a des rayures noires et blanches, il s'agit d'un zèbre, tandis que des rayures jaunes et noires signifient qu'il s'agit d'un tigre.

Un modèle de classification d'IA utilise une approche similaire pour l'apprentissage supervisé, et le processus se déroule en deux étapes :

Apprentissage par le modèle

Au cours de cette étape, le modèle est doté des éléments suivants données de formation. Ces éléments ont été systématiquement étiquetés avec la bonne classe. En examinant ces informations organisées, le système d'intelligence artificielle peut commencer à comprendre les modèles.

Par exemple, un outil d'IA utilisé pour trier le courrier peut se voir présenter un grand nombre d'adresses manuscrites. Comme elles sont toutes correctement étiquetées, le système peut apprendre comment les gens écrivent les caractères, ce qui est essentiel pour une classification efficace par apprentissage automatique. Il peut ainsi parcourir les adresses figurant sur les enveloppes et les classer par code postal.

Évaluation du modèle

Une fois le modèle formé, l'étape suivante consiste à tester la qualité de son apprentissage. Pour ce faire, on lui fournit un autre ensemble de données, différent des informations d'apprentissage, mais tout aussi bien étiqueté. Cependant, cette fois-ci, il ne peut pas voir les étiquettes et doit donc faire ses propres suppositions sur la base de ce qu'il a appris. Ses résultats sont ensuite comparés aux étiquettes pour calculer sa précision.

Ainsi, si nous reprenons notre exemple de tri du courrier, le modèle pourrait recevoir un nouveau lot d'adresses manuscrites et être invité à lire et à classer les codes postaux par lui-même. Ses résultats sont ensuite comparés aux codes postaux réels et les performances sont mesurées en fonction de paramètres tels que :

  • Précision : Le pourcentage de réponses correctes.
  • Précision : Si le modèle dit qu'un symbole est le chiffre 7, combien de fois est-il correct ?
  • Rappel : Parmi toutes les fois où le chiffre 7 apparaît, combien de fois le modèle l'attrape-t-il ?
  • Score F1 : Une mesure équilibrée qui combine la précision et le rappel, utile pour les données inégales ou les catégories difficiles.

Si le modèle n'est pas assez performant, il peut être "renvoyé" pour être réentraîné. En fonction des résultats, il peut avoir besoin de plus de données de formation, de caractéristiques différentes ou d'ajustements de ses paramètres internes.

Automatiser la classification et l'étiquetage des données d'IA.

Types courants d'algorithmes de classification utilisés par les modèles d'IA

Nous avons parlé de l'apprentissage des modèles, mais comment un modèle utilise-t-il les données d'apprentissage pour apprendre ? C'est là que les algorithmes de formation entrent en jeu. Ces algorithmes peuvent être divisés en deux catégories : les apprenants enthousiastes et les apprenants paresseux.

Les premiers sont des modèles qui sont entraînés avant d'être déployés, tandis que les seconds ne sont pas entraînés. Ils reçoivent simplement les données de formation, qu'ils mémorisent. Ensuite, lorsqu'ils reçoivent une donnée, ils trouvent son équivalent le plus proche dans l'ensemble de données de formation pour prendre une décision.
Jetons un coup d'œil à certains d'entre eux, en commençant par les apprenants les plus enthousiastes :

Régression logistique

Il s'agit d'un algorithme qui aide un modèle à prendre une décision binaire, c'est-à-dire à choisir entre deux résultats. Il examine les données d'entrée et calcule la probabilité qu'elles entrent dans l'une ou l'autre catégorie. Par exemple, il peut examiner les antécédents de crédit d'une personne, le nombre de fois où elle n'a pas remboursé un prêt dans le passé et sa situation financière actuelle. Il peut ensuite utiliser ces informations pour calculer la probabilité que cette personne soit à nouveau en défaut de paiement, et utiliser cette probabilité pour décider de donner un "oui" ou un "non" à sa demande de prêt.

Arbres de décision

Un arbre de décision ressemble à un organigramme, où chaque branche représente une condition ou un choix. Vous avez peut-être utilisé ce type de logique pour décider du repas du soir. Il peut s'agir d'une décision de très haut niveau, où vous décidez si vous voulez cuisiner ou aller au restaurant.

Si vous décidez d'aller au restaurant, posez la question suivante : "Quel genre de nourriture vous semble bon ce soir ?".

Puis : "Voulez-vous sortir ou prendre un plat à emporter ?".

Les modèles d'IA utilisent les arbres de décision de manière très similaire.

Par exemple, dans notre exemple de demande de prêt, la solution d'IA pourrait examiner différents facteurs avant de décider du résultat. Elle pourrait commencer par les revenus, et si ceux-ci sont inférieurs à un certain montant, la demande est immédiatement rejetée. S'il est supérieur au seuil fixé, la solution pourrait demander : "A-t-il déjà manqué à ses obligations en matière de prêt ?".

Le processus se poursuit jusqu'à ce qu'il dispose de suffisamment d'informations pour prendre une décision : approuver la demande de prêt ou la rejeter.

Forêts aléatoires

La raison pour laquelle cet algorithme est appelé forêt est qu'il comporte de nombreux arbres. Au lieu d'un seul arbre de décision, une forêt aléatoire utilise plusieurs arbres, chacun donnant la priorité à un facteur différent.

Notre modèle de demande de prêt peut se concentrer sur le salaire du demandeur dans un arbre, sur son historique de paiement dans un autre, avec un nouvel arbre pour la stabilité de l'emploi, et ainsi de suite. Chaque arbre examine une partie différente des données ayant une incidence sur le résultat. Le modèle combine ensuite tous les résultats pour prendre une décision plus équilibrée et plus fiable.

Machines à vecteurs de support

Couramment abrégé en SVM, le support vecteur est un algorithme qui sépare les données en deux catégories ou plus en trouvant la meilleure frontière entre elles. Il utilise les caractéristiques d'entrée pour créer une carte des points de données, et utilise cette carte pour déterminer où les nouvelles données doivent être placées.

Pour revenir à notre exemple de demande de prêt, le modèle peut prendre en compte des caractéristiques telles que le salaire, le taux de défaillance et d'autres facteurs pertinents pour apprendre le modèle qui sépare les demandes approuvées des demandes rejetées. Cette ligne de démarcation virtuelle est appelée frontière de décision du SVM. Ensuite, lorsqu'il reçoit de nouvelles données, il évalue où elles se situent sur ce graphique, par rapport à la limite, pour prendre une décision.

Réseaux neuronaux

Les arbres de décision sont basés sur des règles, chaque décision étant prise en fonction d'étapes clairement définies. Les forêts aléatoires sont également fondées sur des règles, mais elles disposent également d'un système de "vote", dans lequel plusieurs arbres parviennent à un consensus. Les réseaux neuronaux sont ceux qui se rapprochent le plus de la manière dont les êtres humains apprennent et traitent l'information.

Un réseau neuronal est constitué de plusieurs couches d'unités décisionnelles, souvent appelées neurones. Chaque unité traite une partie de l'entrée et transmet ses résultats à la couche suivante.

À l'instar de notre cerveau, chaque décision est utilisée comme une opportunité d'apprentissage. Le modèle devient ainsi de plus en plus performant pour prédire les résultats, même lorsque les données qu'il reçoit sont floues, complexes ou désordonnées. C'est pourquoi il convient parfaitement aux modèles d'apprentissage profond.

Voisins les plus proches (K-Nearest Neighbors)

Premier des apprenants paresseux, le KNN est un algorithme qui classe les entrées de données en fonction de leur similarité avec ce qu'il a déjà vu. En tant qu'apprenant paresseux typique, il ne construit pas de modèle à l'avance. Au lieu de cela, il stocke toutes ses données d'apprentissage et attend de devoir prendre une décision.

Si notre modèle d'approbation des prêts était basé sur cet algorithme, il examinerait toutes les demandes antérieures similaires à la demande actuelle. Si la plupart d'entre elles ont été approuvées, il approuverait également celle-ci, ou vice versa.

Le KNN est idéal pour les cas d'utilisation où la relation entre les entrées et les sorties est complexe, mais où les modèles locaux sont importants. Il est extrêmement simple et intuitif, et ne nécessite pas une longue période d'apprentissage.

Naive Bayes

Un autre apprenant paresseux, Naive Bayes utilise les probabilités pour faire des prédictions. Il examine les données d'entrée et les classe dans la catégorie la plus probable en utilisant les méthodologies de la science des données. Il calcule la probabilité de chaque résultat possible et choisit le plus probable.

La raison pour laquelle on l'appelle naïf est qu'il traite chaque caractéristique d'entrée comme si elle était indépendante des autres. Malgré cela, il fonctionne très bien, en particulier pour les tâches de classification de texte, comme le filtrage des spams ou l'analyse des sentiments.

Cas d'utilisation de la classification des données par l'IA dans l'apprentissage automatique

Détection de la fraude

Les modèles d'IA peuvent surveiller l'activité en temps réel pour la classer dans les catégories "normale" ou "suspecte". S'il y a des signes de comportement irrégulier, le système peut les signaler pour qu'un humain puisse les évaluer.

Segmentation de la clientèle

L'IA peut classer les clients dans différentes catégories en fonction de leur historique de navigation, de leurs préférences, de leurs achats précédents, etc. Cela vous permet de planifier des campagnes de marketing et de vente incitative plus stratégiques et susceptibles de donner de meilleurs résultats.

Diagnostic médical

Vous pouvez faire passer les résultats des examens médicaux (radiographies, scanners, analyses de sang, etc.) ou les données du patient (profil génétique et antécédents médicaux familiaux) par votre modèle d'IA afin d'obtenir un diagnostic plus rapide et potentiellement plus précis.

Traitement du langage naturel (NLP)

Vous êtes-vous déjà demandé ce que les gens disent de votre entreprise et si c'est positif ou négatif ? Les modèles d'IA peuvent analyser les mots pour classer les avis ou les posts sur les médias sociaux dans des catégories "positives", "négatives" ou "neutres". Vous pouvez alors concentrer vos efforts sur l'amélioration de l'expérience client en examinant ce que les gens n'aiment pas dans votre façon de faire.

Classificateurs personnalisés alimentés par l'IA pour la DSPM

Gestion des données de classification de l'IA avec BigID

La qualité de la classification de l'IA dépend des données à partir desquelles elle apprend. Qu'il s'agisse de détecter des fraudes ou d'automatiser des décisions commerciales, le modèle dépend entièrement de la qualité, de la structure et de la sécurité des données sur lesquelles il est formé.

Des données mal étiquetées, non structurées ou non sécurisées peuvent entraîner des prédictions inexactes, des résultats biaisés et des risques de non-conformité. Tous ces éléments peuvent faire dérailler votre stratégie d'IA avant même qu'elle ne commence.

C'est pourquoi il est important non seulement de construire des modèles intelligents, mais aussi de gérer vos données de manière intelligente.

La classification des données est un élément essentiel de la Plate-forme BigID. Il est conçu pour aider votre entreprise à gérer, organiser et protéger les données à grande échelle. A partir de l'identification des informations sensibles à l'étiquetage automatique et en les sécurisant dans vos environnements, BigID rend vos données prêtes pour l'IA et les gère de manière responsable.

Vous voulez voir comment fonctionne la classification pilotée par l'IA dans la pratique ? Découvrez la solution de classification des données par l'IA de BigID.

Contenu

Classification avancée de sensibilité

Télécharger le résumé de la solution