Klassifizierung war noch nie einfach: Selbst Aristoteles tat sich damit schwer. Als er versuchte, Organismen in zwei Gruppen (Pflanzen und Tiere) und diese dann in jeweils drei Gruppen (zu den ersteren gehören Sträucher, Hecken und Bäume; zu den letzteren Land, Luft und Wasser) einzuteilen, reichte das nicht aus. Wenn ein Vogel als Lufttier eingestuft wurde – was ist dann mit unseren lieben Pinguinfreunden und anderen Vögeln, die nicht fliegen können?
In der Natur wurde es im 18. Jahrhundert etwas genauer, als Linnaeus revolutionierte die Klassifizierung mit Reich, Stamm, Klasse, Ordnung usw. – den Taxonomien, die wir alle im Biologieunterricht gelernt haben. Aber selbst diese Definitionen werden unklar, wenn Biologen beginnen, die Beziehungen zwischen Organismen zu berücksichtigen – Vögel, Krokodile und Dinosaurier sind schließlich alle verwandt –, aber in sehr unterschiedlichen Klassen.
In der Welt der Daten? Die Dinge werden noch komplexer.
Klassifizierung ist der Schlüssel zum Verständnis Ihrer Daten – und letztendlich dazu, dass Ihre Daten für Sie arbeiten: Es ist von entscheidender Bedeutung, um Risiken reduzieren, strategische Entscheidungen treffen, die Einhaltung von Vorschriften gewährleisten, die Governance beschleunigen, die richtigen Daten behalten (oder reduzieren), den Datenschutz verwalten und Ihre Daten von vornherein schützen zu können.
Die herkömmliche Datenklassifizierung ist unzureichend: Die Daten werden nicht einheitlich kategorisiert und gekennzeichnet, ihnen fehlt der Kontext, sie sind verrauscht und unzuverlässig.
Sie können Ihre Daten manuell taggen, beschriften und kategorisieren – das kostet jedoch Zeit, ist fehleranfällig und Sie können die Beziehungen zwischen den Datenpunkten nicht nachvollziehen. Sind die Daten Teil eines größeren Datensatzes? Teil einer Identität? Handelt es sich um regulierte Daten?
Du hast deine grundlegende Klassifizierung basierend auf regulären Ausdrücken – im Wesentlichen Daten, die einem bestimmten Muster folgen: Eine siebenstellige Nummer, die mit 312 beginnt, könnte eine Telefonnummer mit der Vorwahl von Chicago bedeuten. Aber was ist, wenn es eine Kontonummer statt?
Ohne Kontext ist es schwierig, Daten richtig zu klassifizieren. Wenn Sie beispielsweise versuchen, das Wort Brooklyn in einem Datensatz zu klassifizieren, woher wissen Sie, ob sich Brooklyn auf die Bezirk von New York City, der Vorort von Melbourne, Australien oder die Vorname einer bestimmten Person? Woher wissen Sie, ob es sich bei dieser bestimmten Instanz von Brooklyn um öffentliche, private oder eingeschränkte Daten handelt?
Was muss eine moderne Datenklassifizierung berücksichtigen?
Angesichts der heutigen Datenflut ist eine präzise und skalierbare Datenklassifizierung von größter Bedeutung. Unternehmen benötigen einen mehrschichtigen Ansatz, um die Grundlage für eine optimale Datennutzung zu schaffen – sei es für Analysen und strategische Geschäftszwecke oder zur Gewährleistung von Datensicherheit und Compliance.
Heutzutage muss die moderne Datenklassifizierung folgende Punkte berücksichtigen:
- Genauigkeit: Wenn die Daten verrauscht sind und zu viele Fehlalarme auftreten, kann man genauso gut von vorne beginnen. Moderne Datenklassifizierung muss genau so dass es für alles verwendet werden kann, von Datenvalidierung Zu Durchsetzung von Richtlinien.
- Muster und Beziehungen: Einen einzelnen Zeitpunkt zu verstehen ist eine Sache – das große Ganze zu erfassen eine ganz andere. Es ist jetzt entscheidend zu verstehen wie Daten zusammenhängen, wie sie verbunden sind: Gehört alles zum selben geistigen Eigentum? Bezieht sich alles auf dieselbe Person?
- Kontext: Kontext macht den Unterschied – so erkennen Sie, ob Brooklyn die Stadt oder Brooklyn der Vorname ist. Sie können regulierte Daten korrekt kennzeichnen, Richtlinien automatisch anwenden und Störungen und Reibungsverluste reduzieren.
- Anpassung: Die Daten jedes Unternehmens sind unterschiedlich: Sie haben einen anderen Aufbau, eine andere Bedeutung und andere Prioritäten. Die Datenklassifizierung muss an die Daten selbst anpassbar sein und aus benutzerdefinierten Datensätzen lernen können, um einen sinnvollen Mehrwert zu erzielen.
Und das kann man nicht mehr manuell machen – weder bei der Geschwindigkeit, mit der die Daten wachsen, noch bei der Geschwindigkeit, mit der Die Definition „sensibler Daten“ entwickelt sich weiter. Sie können nicht einfach dieselben alten Techniken nehmen und sie in eine neue Verpackung packen: Sie müssen die bewährte Datenklassifizierung mit modernstem ML und NLP kombinieren, um eine Datenklassifizierung zu erhalten, die mit den heutigen Daten funktioniert – eine Klassifizierung, die für die heutigen Herausforderungen hinsichtlich Verwendung, Speicherung, Typ und mehr entwickelt wurde.
Moderne Datenklassifizierung geht über die einfache Zuweisung einer Vertraulichkeitsstufe zu Daten oder die Kategorisierung nach Attributen, Typen und Inhalten hinaus. Sie kombiniert diese Techniken mit ML-erweitertem Kontext, wendet Vertrauensbewertungen an, integriert Richtlinienbibliotheken und erstreckt sich über alle Datensilos, sodass die Klassifizierung im großen Maßstab die Grundlage für jede erfolgreiche Dateninitiative bildet.
Daten ohne Bedeutung sind nur Lärm ohne Rhythmus. Moderne Klassifizierung kann das ändern – Hinzufügen verwertbarer Informationen, damit Sie Machen Sie mehr aus Ihren Daten.