什么是召回率?

召回率(Recall)

召回率(Recall)是一个衡量机器学习模型性能的指标,它表示模型成功识别出所有正样本的比例。换句话说,召回率是指模型正确预测为正样本的样本数量占所有实际正样本数量的比例。

公式:

召回率 = 正确预测为正样本的数量 / 所有实际正样本的数量

file

例如:

假设你有一个模型用于识别垃圾邮件。在 100 封邮件中,有 20 封是垃圾邮件。你的模型正确识别了 15 封垃圾邮件。

那么,模型的召回率为:15 / 20 = 0.75

这意味着模型成功识别了 75% 的垃圾邮件。

召回率的意义:

  • 召回率越高,模型越能识别出所有正样本。
  • 召回率与精确率(Precision)是相互矛盾的指标,提高召回率可能会降低精确率,反之亦然。
  • 召回率在一些应用场景中非常重要,例如医疗诊断、安全监控等,因为漏掉正样本可能带来严重后果。

总结:

召回率是衡量机器学习模型识别正样本能力的指标,它表示模型成功识别出所有正样本的比例。在一些应用场景中,召回率是一个非常重要的指标。

为什么 召回率与精确率(Precision)是相互矛盾的指标 ?请举例说明

召回率和精确率是相互矛盾的指标,因为它们衡量的是模型性能的不同方面。

召回率关注的是模型识别出所有正样本的能力,而精确率关注的是模型预测为正样本的样本中,真正是正样本的比例。

举例说明:

假设你有一个模型用于识别猫的图片。

  • 场景一: 模型识别出了所有猫的图片,但同时也错误地将一些狗的图片识别为猫。
  • 场景二: 模型只识别出了部分猫的图片,但所有识别为猫的图片都是真正的猫。

分析:

  • 场景一: 召回率很高,因为模型识别出了所有猫的图片,但精确率很低,因为模型也错误地识别了一些狗的图片。
  • 场景二: 精确率很高,因为所有识别为猫的图片都是真正的猫,但召回率很低,因为模型没有识别出所有猫的图片。

结论:

提高召回率通常会导致精确率下降,反之亦然。这是因为为了提高召回率,模型需要更宽松地识别正样本,这会导致更多错误的正样本被识别出来,从而降低精确率。

应用场景:

  • 在一些需要尽可能识别出所有正样本的场景中,例如医疗诊断,召回率更重要。
  • 在一些需要尽可能避免错误识别的场景中,例如垃圾邮件过滤,精确率更重要。

总结:

召回率和精确率是相互矛盾的指标,在实际应用中,需要根据具体场景选择合适的指标来衡量模型的性能。

为者常成,行者常至