对金融机构来说,流量和风险控制决定利润,数据质量是风险控制的核心。为了提高风险控制水平,将引入第三方数据源。本文介绍了如何仔细评估离线数据测试和在线模拟测试的数据源。让我们看看。
一、概述:
对于金融机构来说,流量和风险控制决定利润,数据质量是风险控制的核心。为了提高风险控制水平,将引入三方数据源,一般考虑两个方面:数据是否可用,如何使用数据。本文将介绍如何仔细评估离线数据测试和在线模拟测试的数据源。
- 通常考虑接入变量类和原始数据类来优化现有模型;
- 用于设计策略,一般接入黑名单类、评分类数据或变量类;
- 丰富用户肖像的维度,可以反映用户的某些属性,反映用户的某些属性。
二、常用指标说明
1. 覆盖率
覆盖率是考虑数据覆盖率的指标,也称为检测率。根据业务情况和数据应用场景确定数据覆盖率的要求,覆盖率越高越好。
2. 有效性
分析单变量KS 、GINI、IV 值,趋势。同时,还要考虑数据的可解释性和趋势的稳定性。
1)KS
用于评估好坏客户的区分能力,计算累计坏客户与累计好客户百分比之间的最大差距。KS一般要求评分类的变量范围为0%-100%ks>变量类数据一般需要20%ks>10%。
2)GINI系数
也用于评估模型风险区分能力。GINI统计值衡量好账户数的累积分布与随机分布曲线之间的面积,好账户与坏账户分布之间的差异越大,GINI指标越高,区分风险的能力就越强。
3)IV 值
一般来说,信息价值用于表示特征对目标预测的贡献,即特征的预测能力,IV值越高,预测能力越强,信息贡献越高。
3. 稳定性
稳定性需要评估,无论是分类还是变量数据源。稳定性评估需要参考,一般使用psi比较预期分布与实际分布的差异。
当特征变化过大时,不一定要确定数据源/特征不使用,而是要先了解变化的原因。
4. 共线性
共线性又称多重共线性,是指自变量它们之间有很强的线性关系,甚至是完全的线性关系。当自变量之间存在共线性时,模型的参数定,模型的预测能力也会下降。
许多第三方数据衍生逻辑是笛卡尔在所有组合中积累的可能性。因此,在建模初期筛选变量时,需要采取有效措施避免共线性问题。(Tolerance)、方差膨胀因子(Variance inflation factor, VIF)、特征根(Eigenvalue)、条件指数(Condition Idex)等等,都是调查手段。
5. 相关性分析
可以进行相关性分析,分析数据的相关性。协方差一般用于数值特征和数值特征prarson系数和举例相关系数评价;通常用卡方检查类别特征,Fisher得分、F检验、斯皮尔曼的等级,Kendall评估相关系数。
6. 投入产出评估
在整个评估环节中,最重要的环节是将数据与当前策略联系起来,结合三方数据服务的收费模式(常用的计费方式是按调量和命中量计费,如果需求较大,也可以考虑谈判年/月包)来评估接口的投入出,最后评估接口上线后产生的收入是否能覆盖接口的支出。
三、离线测试
1. 提供离线测试样本
根据不同的访问目的,测试样本将略有不同。例如,为了优化现有模型,最好提供建模中使用的数据样本。但一般来说,测试样本应满足以下几点:
- 样本可以连续评估数据的稳定性;
- 最好是最近的样本,这样线下评估结果与线上实际效果的差距就不会太大;
- 覆盖不同产品和客户群体的其他特殊条件。
注:如果不满足连续性、稳定性和代表性三个条件,测试结果可能不准确。
2. 了解数据源
一般来说,第三方将提供产品描述,以了解数据的底层逻辑和组成,以及数据背后的业务意义。同时,还需要特别注意底层数据源(中间链接越少越好)、更新频率(越快越好)等信息。从战略角度或模型角度评估数据效果:
- 从战略的角度来看,主要是分析单变量的效果,看是否有强度区分度但规则或组合规则可用于单变量;
- 从模型的角度来看,这主要取决于数据的整体效果。如果数据没有较强的单变量,但整体效果好,价格低,也会考虑。
3. 通用分析评估
从战略的角度来看,主要是分析单变量的效果,检查是否有强分化的单变量,可用于规则或组合规则;从模型的角度来看,如果数据没有强分化的单变量,但整体效果好,价格低,也会考虑。
调查维度可分为以下7个:检查率、准确率(特别是黑名单)、稳定性(服务稳定性、特征稳定性psi)、模型效果(IV、KS)、性价比(根据查询次数、命中次数、月/年)、可解释性(特征变量类是否具有业务意义、评分范围可解释性)。
4. 特定数据源类别评估
四、在线模拟
虽然对历史样本进行了完整的效果评估,但已经证明,在线数据、模型和策略是有价值的。然而,市场环境和客户群体是一个动态变化的过程。此外,历史数据是线下可追溯性的。目前尚不清楚在线数据和离线可追溯性数据是否有差异,是否会有操作错误。模拟在线测试是评估数据在实际应用中的效果。
模拟在线测试是在实际业务环境中运行新策略,记录相关结果,但不做决定。
分析数据在线环境获取的成功率。比较线上线下数据分布、覆盖率、策略设计通过率是否一致。但是成本有限,一般测试都是小样本。从数据源评估的角度来看,新模型/策略上线后,需要有完善的监控系统来监控整个数据的变化,方便快速发现异常。
例如:接口调用、数据稳定性、数据缺失率、各环节策略转化率、贷后逾期等,在线观察实际在线效果,包括但不限于:
- 数据接口稳定性(接口调用是否正常可靠)
- 特征变量数据分布稳定、缺失率、准确性等
- 业务效果:如进货通过率(坏账率需要一段时间,表现期长)
五、小案例-黑名单评估
1. 评估指标
查得率(Search rate)=检查数量/样本量
(2)覆盖率(Cover rate)=找到命中黑名单的数量/样本中命中黑名单的数量
(3)误拒率(Error reject rate)=找到命中黑名单数/样本并通过Good量
(4)有效差异率(Effective difference rate)=找到命中黑名单数/样本Bad量
(5)无效差异率(Invalid difference rate)=找到黑名单/样本中的其他拒绝量
其中SR、CR、EDR指标越高越好,ERR越低越好,IDR与EDR如果结合观察IDR和EDR它们都很高,反映了数据源定义黑名单是广泛的网络类型,黑名单的质量相对不够准确。前三个指标是重点调查。如果您想更全面地测试第三方数据源,也可以添加后两个差异率指标。数据统计:
2. 样本测试命中情况
3. 统计评价指标
根据上述指标分析方法,对数据源和数据源2的测试结果可得出以下结论:
- 数据源均比数据源2具有明显的查得率和覆盖率优势;
- 在负向指标上,数据源低于数据源2;
- 无效差异率(IDR)与有效差异率(EDR)结合观察,数据源2两者都比较高,可能是广撒网,不够准确。
最终分析结论:数据源2更好。
作者:王小宾;微信微信官方账号:一起侃产品
本文由@不叉步不跳 每个人都是产品经理。未经许可,禁止转载。
题图来自 Unsplash,基于 CC0 协议
本文的观点仅代表作者本人,人人产品经理平台只提供信息存储空间服务。
好了,这篇文章的内容就和大家分享到这里,如果大家对网赚副业项目资源感兴趣,可以添加微信:beng6655 备注:项目 !
如若转载,请注明出处:https://www.hzy3.com/9028.html