训练数据集本身存在缺陷或偏差,导致基于这些数据训练出来的模型(算法)在决策或预测时也产生了系统性偏见。这些问题主要体现在以下几个方面:
代表性不足(Under-representation):
标签偏见(Label Bias):
历史/系统性偏见嵌入(Embedded Historical/Systemic Bias):
数据来源偏差(Sampling Bias):
特征偏见/代理变量(Feature Bias/Proxy Variables):
总结来说,“训练数据”问题是算法偏见的核心源头之一。 如果训练数据在代表性、标签准确性、历史公正性、来源广泛性或特征中立性上存在缺陷,那么训练出来的模型就不可避免地会继承并可能放大这些缺陷,导致对某些群体不公平、不准确或有歧视性的结果。因此,在研究和实践中,识别、评估和缓解训练数据中的偏见是构建公平算法的重要环节。这包括采用更全面的数据收集策略、谨慎处理标签、审查数据中的历史偏见、识别代理变量以及使用各种数据预处理和模型训练技术来减轻偏见。