Verzerrungen in den Ergebnissen von Algorithmen im KI-Umfeld haben Ihre Ursache meist in der Qualität der Trainings- bzw. Lerndaten. Ungleichheiten in den Sachverhalten, die den Daten zugrunde liegen oder mangelnde Übereinstimmung mit dem tatsächlichen Vorkommen in der realen Welt oder betrachteten Grundgesamtheit, werden von KI-Systemen repliziert oder gar noch verstärkt. Ein konkretes Beispiel ist, wenn in Trainingsdaten bestimmte Bevölkerungsgruppen unter- oder überrepräsentiert sind, wenn eine Gesichtserkennungssoftware ausschließlich mit Bildern von weißen Frauen trainiert werden würde. Dies kann später zu diskriminierenden Ergebnissen führen, da Männer und Personen mit anderer Hautfarbe durch das System nicht erkannt und somit auch nicht berücksichtigt werden würden. Die Daten sind „biased“ bzw. führen zu einem Bias. Jedoch können auch verzerrungsfreie Trainingsdaten zur Benachteiligung und Diskriminierung bestimmter Gruppen führen (Algorithmen, die über Jahre in den USA routinemäßig eingesetzt wurden, um das Rückfallrisiko von Straftätern zu berechnen, benachteiligten systematisch Afroamerikaner. Hier lag die Ursache für die Verzerrung im Algorithmus und dessen Schlussfolgerungslogik).