机器学习-变量筛选之IV值和WOE
IV值通过WOE(证据权重)计算得出,WOE是通过离散化变量,衡量各个分组中正负样本比例差异的重要工具。WOE的计算公式考虑了样本响应比例和未响应比例的对比,差异越大,表示该组的分类能力越强。IV值则是WOE的加权和,确保结果非负,以整体评估变量的预测能力。
通常情况下,IV值大于0.02的变量被认为对模型有贡献,大于0.5的变量可能过拟合,适合分群处理。IV值和WOE的区别在于,IV通过权重调整考虑了样本分布对预测能力的影响,避免了单一指标的局限性。
在实际应用中,IV值也可能受到变量饱和度、分组比例、极端值等因素影响。例如,饱和度低或分组小的变量IV值可能较小,这时需要重新分组。同时,处理极端值(如0正例或0负例)的方法包括调整分组或设置规则,确保IV值的合理性。
IV值的计算和评估是机器学习建模中的重要步骤,它帮助我们选择和优化模型输入,以提高预测效果和模型稳定性。
机器学习-变量筛选之IV值和WOE
IV值,即信息价值,用于衡量特征对预测任务的重要程度。在构建机器学习模型时,特别是在使用逻辑回归(LR)时,IV可以帮助我们筛选出贡献较大的变量。相较于LR使用所有变量,决策树通过限制树深度实现变量筛选。在特征工程中,我们需考虑变量的预测能力、鲁棒性、可解释性、可行性及相关性等因素。IV值通过...
WOE与IV值浅谈
WOE与IV值是评估模型预测能力的重要工具,它们在预测分析和建模过程中具有独特意义。IV值能够衡量变量对结果的预测能力,帮助我们筛选出对结果有显著影响的变量。具体来说,IV值可以分为以下几个方面: IV值的计算与变量预测能力密切相关。它可以用于变量筛选,通过评估IV值来确定哪些变量对预测结果的贡献...
玩转逻辑回归之金融评分卡模型
单变量筛选方法如IV值,stepwise,特征重要度,通过交叉熵和GBDT的特性衡量变量重要性。变量相关性分析确保模型的可解释性,避免多重共线性问题。评分卡模型的构建中,系数符号和p-value是重要筛选标准,保证模型的线性关系明确。模型评价则关注混淆矩阵、AUC和KS值,AUC和KS值越大,模型性能越好。最后,将...
Toad:基于 Python 的标准化评分卡模型
接下来,通过toad的EDA功能进行数据探索分析,包括统计性特征、缺失值、unique values等信息。在进行变量筛选时,可以使用toad的quality功能计算各种指标,如iv值、gini指数、熵等,结果按照iv值排序。对于数据量大或高维度数据,建议使用iv_only=True。同时,要删除主键、日期等高unique values且不用于建模的...
玩转逻辑回归之金融评分卡模型
逻辑回归模型中,WOE编码是关键,它将离散变量转化为线性表达,便于模型理解和应用。通过IV值和相关性分析,我们挑选预测能力强且线性独立的变量。模型构建时,关注正负系数和p-value,确保变量的解释性。评估模型使用混淆矩阵、AUC和KS值,以衡量预测性能。最后,将逻辑回归的预测概率转化为评分卡,每个分箱...
基于Toad的评分卡模型全流程详解(内含代码)
随后,利用toad.selection.select函数进行变量筛选,综合考虑缺失值占比、IV值和高相关性,从原始14个特征中筛选出10个关键变量。在筛选过程中,可根据实际需求调整参数,灵活剔除不符合条件的变量。同时,利用toad.transform.Combiner进行数据分箱,支持数值型和离散型变量,选择卡方分箱、决策树分箱等多种...
光与夜之恋有一句叫一曲催迫愁情发写尽人间悲与廖是那首诗
光与夜之恋有一句叫一曲催迫愁情发写尽人间悲与廖是那首诗1,有一句叫 一曲催迫愁情发 写尽人间悲与廖 是那首诗 白居易《琵琶行》白居易曾经是才高位显居京城,因正直敢言被贬江南偏僻地。琵琶女也曾“名属教坊第一