Ir al contenido
Ver todas las entradas

¿Qué es la clasificación de IA en el aprendizaje automático?

Vivimos en la era del big data. Cada día, empresas e individuos generan ingentes cantidades de información y delegan su gestión y análisis a... AIPara hacerlo de manera eficaz, los sistemas de IA deben ser capaces de clasificar los datos.

Para entender cómo lo hacen, veamos qué es la clasificación de IA.

Guía del comprador de clasificación de IA

¿Qué es la clasificación de datos de IA?

Clasificación de datos de IA, o Clasificación de IAEs el proceso de organizar datos en categorías predefinidas. Se enseña al modelo de IA a reconocer características y patrones en la información, para que pueda identificarlos en cualquier conjunto de datos nuevo.

La clasificación de IA es especialmente útil para comprender datos no estructuradosEsto es lógico, ya que los datos estructurados no necesitan clasificarse; como su nombre indica, ya están estructurados. Sin embargo, la información oculta en los datos no estructurados puede utilizarse para análisis predictivo, filtrado de spam, generación de recomendaciones y reconocimiento de imágenes.

6 tipos de IA generativa

Clasificación de los tipos de inteligencia artificial

Los datos no estructurados no son de un solo tipo, por lo que los modelos de IA requieren diferentes algoritmos según los resultados deseados. Cada algoritmo está diseñado para el tipo de problema que se desea resolver y el tipo de datos disponibles.

A continuación se muestran algunos de los tipos más comunes de clasificación de IA:

Clasificación binaria

En ciertos casos, su algoritmo de clasificación de IA solo necesita clasificar los datos en uno de dos categoríasEstá "encendido" o "apagado", "sí" o "no", "correcto" o "incorrecto", etc. Este tipo de clasificación se denomina binaria.

¿Dónde se usaría esta clasificación? Es útil para detectar spam en tus correos electrónicos. Pueden ser spam o no. ¿Es una transacción financiera fraudulenta o no? ¿Debería aprobarse o no una solicitud de préstamo según el historial financiero y la información actual del solicitante?

Este tipo de decisiones solo tienen dos resultados, y es en esto que te ayuda la IA.

Clasificación multiclase

Mientras que la clasificación binaria solo se ocupaba de dos etiquetas de clase, la clasificación multiclase abarca más. Por ejemplo, además de detectar "spam" o "no spam", un cliente de correo electrónico también podría categorizar sus correos electrónicos como "promocionales", "sociales", "importantes", etc.

Otro ejemplo es si el modelo de aprendizaje automático Se utiliza para leer números en imágenes, como números de teléfono o códigos postales escritos a mano en sobres. Cada símbolo debe clasificarse en una de 10 clases, correspondientes a los dígitos del 0 al 9.

En resumen, la clasificación multiclase es muy similar a la binaria, salvo que se ocupa de más de dos categorías posibles. Sin embargo, es importante recordar que, aunque existen múltiples clases, un objeto de datos solo puede asignarse a una de ellas en las tareas de clasificación y regresión. El correo electrónico puede ser una promoción o una notificación en redes sociales, pero no ambas. Un dígito solo puede ser 1 o 7, no ambos a la vez.

Clasificación multietiqueta

Las categorías anteriores se centraban en opciones que solo podían asignarse a una clase, ya fuera de dos o de varias. La clasificación multietiqueta se vuelve más compleja. En este caso, un objeto puede pertenecer a más de una categoría. Por ejemplo, un perro puede ser «animal», «labrador retriever», «negro», «perro de caza», etc., todo a la vez.

Es muy similar a las etiquetas que quizás hayas visto en artículos de noticias o entradas de blog. Una noticia sobre seguridad de datos podría categorizarse como "seguridad", "datos", "incidentes de seguridad" o "automatización de la seguridad de datos".

O cuando una plataforma de streaming clasifica una película, que podría ser tanto una “comedia” como un “romance”.

Clasificación desequilibrada

Este tipo de clasificación es más complejo que las demás. La clasificación desequilibrada, como su nombre indica, se ocupa de conjuntos de datos donde una clase predomina significativamente sobre la otra.

Por ejemplo, cientos de miles de personas podrían hacerse la prueba, pero solo unas pocas serían diagnosticadas con cáncer. De igual manera, solo unas pocas transacciones con tarjeta de crédito entre millones podrían ser fraudulentas. El resto son perfectamente legítimas. O, cada año, un pequeño número de estudiantes podría abandonar la escuela, pero la gran mayoría permanecería matriculada.

En cada uno de estos casos, se busca detectar o predecir un evento inusual. Sin embargo, los datos con los que se entrena el modelo están sesgados hacia la clase opuesta.

Los modelos de IA suelen basar sus resultados en probabilidades. Si algo es improbable, ignoran la probabilidad de 0,001% de que ocurra y se centran en la probabilidad de 99,999% de que no ocurra.

Sin embargo, en los casos que hemos mencionado, es preferible tener un falso positivo que un falso negativo. Si existe la posibilidad de que el resultado sea cáncer, la transacción sea fraudulenta o el estudiante abandone la escuela, es importante saberlo para poder intervenir. Preferiría que se detectara para que un experto humano pueda evaluarlo, en lugar de que se escape bajo la apariencia de una improbabilidad estadística.

Sí, los datos de entrenamiento tienden a ser negativos, pero el algoritmo de aprendizaje automático debe tener esto en cuenta. De lo contrario, obtendrá un modelo que probablemente descarte un incidente significativo como normal solo porque es estadísticamente improbable.

¿Cómo se entrenan los algoritmos de clasificación de datos de IA?

Ahora que conocemos las clasificaciones comunes, veamos cómo se entrenan los modelos de IA para llevarlas a cabo. No es muy diferente de cómo se le enseñaría a un niño.

Por ejemplo, supongamos que le estás enseñando a un niño pequeño sobre animales, aves y frutas, que pueden categorizarse como datos en un contexto de aprendizaje. Podrías mostrarle imágenes y señalar las características específicas que los identifican. Una manzana es roja y redonda, mientras que un plátano es amarillo y largo. Si el animal tiene rayas blancas y negras, es una cebra, mientras que las rayas amarillas y negras significan que es un tigre.

Un modelo de clasificación de IA utiliza un enfoque similar para el aprendizaje supervisado, y el proceso tiene dos pasos:

Aprendizaje modelo

En este paso se proporciona al modelo datos de entrenamientoEsto se ha etiquetado sistemáticamente con la clase correcta. Al analizar esta información organizada, el sistema de IA puede empezar a comprender patrones.

Por ejemplo, a una herramienta de IA para clasificar el correo se le podría mostrar una gran cantidad de direcciones escritas a mano. Al estar todas correctamente etiquetadas, el sistema puede aprender cómo se escriben los caracteres, lo cual es esencial para una clasificación eficaz mediante aprendizaje automático. Esto le permite escanear las direcciones en los sobres y clasificarlas por código postal.

Evaluación del modelo

Una vez entrenado el modelo, el siguiente paso es comprobar su nivel de aprendizaje. Para ello, se le proporciona otro conjunto de datos, diferente de la información de entrenamiento, pero igualmente bien etiquetado. Sin embargo, esta vez no puede ver las etiquetas, por lo que debe realizar sus propias estimaciones basándose en lo aprendido. Sus resultados se comparan con las etiquetas para calcular su precisión.

Así, si volvemos a nuestro ejemplo de clasificación de correo, podríamos asignarle al modelo un nuevo lote de direcciones escritas a mano y pedirle que lea y clasifique los códigos postales por sí solo. Sus resultados se comparan con los códigos postales reales y el rendimiento se mide con métricas como:

  • Exactitud: El porcentaje de respuestas correctas.
  • Precisión: Si el modelo dice que un símbolo es el número 7, ¿con qué frecuencia es correcto?
  • Recordar: De todas las veces que aparece el número 7, ¿cuántas veces lo atrapa la modelo?
  • Puntuación F1: Una métrica equilibrada que combina precisión y recuperación, útil para datos desiguales o categorías desafiantes.

Si el modelo no funciona lo suficientemente bien, podría ser devuelto para un reentrenamiento. Según los resultados, podría requerir más datos de entrenamiento, características diferentes o ajustes en sus parámetros internos.

Automatice la clasificación y el etiquetado de datos de IA.

Tipos comunes de algoritmos de clasificación utilizados por los modelos de IA

Hablamos del aprendizaje de modelos, pero ¿cómo utiliza un modelo los datos de entrenamiento para aprender? Aquí es donde entran en juego los algoritmos de entrenamiento. Estos algoritmos se pueden dividir en dos categorías: aprendices entusiastas y aprendices perezosos.

Los primeros son modelos que se entrenan antes de su implementación, mientras que los segundos no. Simplemente reciben los datos de entrenamiento, que memorizan. Luego, al recibir una entrada, buscan su contraparte más cercana en el conjunto de entrenamiento para tomar una decisión.
Echemos un vistazo a algunos de ellos, empezando primero por los estudiantes entusiastas:

Regresión logística

Este algoritmo ayuda a un modelo a tomar una decisión binaria, es decir, a elegir entre dos resultados. Analiza los datos de entrada y calcula la probabilidad de que se incluyan en una u otra categoría. Por ejemplo, podría analizar el historial crediticio de una persona, el número de veces que ha incumplido un préstamo en el pasado y su situación financiera actual. Podría usar esta información para calcular la probabilidad de que esta persona incumpla nuevamente con un préstamo y, con esa probabilidad, decidir si aprueba o no su solicitud de préstamo.

Árboles de decisión

Un árbol de decisiones es como un diagrama de flujo, donde cada rama representa una condición o elección. Quizás hayas usado este tipo de lógica para decidir qué cenar. Podría comenzar con una decisión de alto nivel, donde decides si quieres cocinar o comer fuera.

Si decides comer fuera, "¿Qué tipo de comida te parece bien esta noche?"

Entonces, “¿Quieres salir o pedir comida para llevar?”

Los modelos de IA utilizan árboles de decisión de una manera muy similar.

Por ejemplo, en nuestra solicitud de préstamo, la solución de IA podría considerar varios factores antes de decidir el resultado. Podría empezar por sus ingresos; si son inferiores a cierta cantidad, la solicitud se rechaza inmediatamente. Si son superiores al límite, podría preguntar: "¿Han incumplido alguna vez un préstamo?".

El proceso continúa hasta tener suficiente información para tomar una decisión: aprobar la solicitud de préstamo o rechazarla.

Bosques aleatorios

Este algoritmo se denomina bosque porque cuenta con muchos árboles. En lugar de un único árbol de decisión, un bosque aleatorio utiliza varios árboles, cada uno priorizando un factor diferente.

Nuestro modelo de solicitud de préstamo podría centrarse en el salario del solicitante en un árbol, su historial de pagos en otro, y uno nuevo en la estabilidad laboral, y así sucesivamente. Cada árbol considera una parte diferente de los datos que influye en el resultado. El modelo combina entonces cada uno de sus resultados para tomar una decisión más equilibrada y fiable.

Máquinas de vectores de soporte

Comúnmente abreviado como SVM, el soporte vector El modelo de máquina es un algoritmo que separa los datos en dos o más categorías al encontrar el límite óptimo entre ellas. Utiliza las características de entrada para crear un mapa de puntos de datos y, a partir de este mapa, determina dónde deben ubicarse los nuevos datos.

Volviendo a nuestro ejemplo de solicitud de préstamo, el modelo podría considerar características como el salario, la tasa de impago y otros factores relevantes para aprender el patrón que separa las solicitudes aprobadas de las rechazadas. Esta línea divisoria virtual se denomina límite de decisión del SVM. Luego, al recibir nueva información, evalúa su posición en este gráfico, en relación con el límite, para tomar una decisión.

Redes neuronales

Los árboles de decisión se basan en reglas, donde cada decisión se toma según pasos claramente definidos. Los bosques aleatorios también se basan en reglas, pero también cuentan con un sistema de votación, donde varios árboles llegan a un consenso. Las redes neuronales son las más parecidas a la forma en que los seres humanos aprenden y procesan la información.

Una red neuronal se compone de varias capas de unidades de toma de decisiones, a menudo llamadas neuronas. Cada unidad procesa una parte de la entrada y transmite sus resultados a la siguiente capa.

Al igual que nuestro cerebro, cada decisión se utiliza como una oportunidad de aprendizaje. Esto ayuda al modelo a mejorar su capacidad para predecir resultados, incluso cuando los datos que recibe son confusos, complejos o desordenados. Esto lo hace extremadamente adecuado para los modelos de aprendizaje profundo.

K-Vecinos más cercanos

El primero de los algoritmos de aprendizaje perezoso, KNN, clasifica los datos de entrada según su similitud con lo que ya ha visto. Como un algoritmo de aprendizaje perezoso típico, no construye un modelo de antemano. En su lugar, almacena todos sus datos de entrenamiento y espera hasta que necesita tomar una decisión.

Si nuestro modelo de aprobación de préstamos se basara en este algoritmo, analizaría todas las solicitudes anteriores similares a la actual. Si la mayoría de ellas fueran aprobadas, también aprobaría esta, o viceversa.

KNN es ideal para casos de uso donde la relación entre entradas y salidas es compleja, pero los patrones locales son importantes. Es extremadamente simple e intuitivo, y no requiere un largo periodo de entrenamiento.

Bayes ingenuo

Otro estudiante perezoso, Bayes ingenuo Utiliza la probabilidad para hacer predicciones. Analiza los datos de entrada y los clasifica en la categoría más probable mediante metodologías de ciencia de datos. Calcula la probabilidad de cada resultado posible y selecciona el más probable.

Se le llama ingenuo porque trata cada característica de entrada como si fuera independiente de las demás. A pesar de ello, funciona muy bien, especialmente para tareas de clasificación de texto, como el filtrado de spam o el análisis de sentimientos.

Casos de uso de la clasificación de datos de IA en el aprendizaje automático

Detección de fraude

Los modelos de IA pueden monitorear la actividad en tiempo real para clasificarla como "regular" o "sospechosa". Si detecta algún indicio de comportamiento irregular, el sistema puede identificarlo para que un humano pueda evaluarlo.

Segmentación de clientes

La IA puede clasificar a los clientes en diferentes categorías según su historial de navegación, preferencias, compras previas y más. Esto permite planificar campañas de marketing y upselling más estratégicas y con mayor probabilidad de obtener mejores resultados.

Diagnóstico médico

Puede ejecutar los resultados de pruebas médicas (como radiografías, exploraciones, análisis de sangre, etc.) o datos del paciente (como su perfil genético e historial médico familiar) a través de su modelo de IA para obtener un diagnóstico más rápido y potencialmente más preciso.

Procesamiento del lenguaje natural (PLN)

¿Alguna vez te has preguntado qué opina la gente sobre tu negocio y si es positivo o negativo? Los modelos de IA pueden analizar palabras para clasificar reseñas o publicaciones en redes sociales en categorías "positivas", "negativas" o "neutrales". Así, puedes centrar tus esfuerzos en mejorar la experiencia de tus clientes analizando qué no les gusta a los clientes de tu forma de trabajar.

Clasificadores personalizados con tecnología de IA para DSPM

Gestión de sus datos de clasificación de IA con BigID

La clasificación de IA es tan buena como los datos que utiliza. Ya sea para detectar fraudes o automatizar decisiones empresariales, el modelo depende completamente de la calidad, la estructura y la seguridad de los datos con los que se entrena.

Los datos mal etiquetados, desestructurados o sin protección pueden generar predicciones inexactas, resultados sesgados y riesgos de cumplimiento normativo. Todo esto puede desbaratar su estrategia de IA incluso antes de comenzar.

Por eso es importante no sólo construir modelos inteligentes, sino también gestionar sus datos de forma inteligente.

La clasificación de datos es una parte fundamental del Plataforma BigIDEstá diseñado para ayudar a su empresa a gobernar, organizar y proteger datos a gran escala. Desde identificar información sensible a etiquetado automático y al protegerlos en todos sus entornos, BigID hace que sus datos estén preparados para la IA y se gestionen de forma responsable.

¿Quieres ver cómo funciona la clasificación basada en IA en la práctica? Explore la solución de clasificación de datos de IA de BigID.

Contenido

Clasificación de sensibilidad avanzada

Descargar resumen de la solución