2.3.4 样本选择

样本选择对模型的结果影响非常大。为得到较好的模型表现,建模样本通常需要满足以下原则。

代表性(Representativeness):样本必须能充分代表总体。只有这样,从样本中提炼的数理关系才能有效预测未来真实场景的数理关系。例如,消费金融场景客群可能与小额现金贷场景下的客群有所差异,因此不能直接使用不同客群作为样本来建模。

充分性(Adequacy):样本集的数量必须满足一定数量要求。当样本量较小时,无法满足统计的显著性(Statistical Significance)要求,即置信度(Confidence Level)较低。评分卡建模通常要求正负样本的数量都不少于1500个。随着样本量增加,模型的效果也会有显著提升。而神经网络等多参数模型通常要求样本量在50万个以上,否则很难保证模型的稳定性。

时效性(Timeliness):在满足样本量充足的前提下,通常要求样本的观测期与实际应用时间节点越接近越好。银行等客群稳定的场景,观察期可长达一年半至两年,然而在许多平台,很难保证样本都处在稳定的较近期的时间点上。此时可以通过迁移学习(Transfer Learning)等方法对样本进行挑选或对变量进行映射,使得早期样本与近期样本有相似的数据分布。

排除性(Exclusions):虽然建模样本需要具有代表整体的能力,但某些法律规定不满足特定场景贷款需求的用户不应该作为样本。例如,针对行为评分卡用户,无还款表现用户或欺诈用户等都不应放入当前样本集。

样本的选择通常会严格遵循上述标准。业务开展早期,通常很难满足上述所有要求。当有少量样本积累时,时效性和排除性通常较容易满足。而充分性和代表性则需要大量的数据支持,并使用拒绝推断等方法,才可以近似地得到保障。