wcI使用教程如何提高wci

对金融机构来说,流量和风险控制决定利润,数据质量是风险控制的核心。为了提高风险控制水平,将引入第三方数据源。本文介绍了如何仔细评估离线数据测试和在线模拟测试的数据源。让我们看看。

wcI使用教程如何提高wci

一、概述:

对于金融机构来说,流量和风险控制决定利润,数据质量是风险控制的核心。为了提高风险控制水平,将引入三方数据源,一般考虑两个方面:数据是否可用,如何使用数据。本文将介绍如何仔细评估离线数据测试和在线模拟测试的数据源。

  1. 通常考虑接入变量类和原始数据类来优化现有模型;
  2. 用于设计策略,一般接入黑名单类、评分类数据或变量类;
  3. 丰富用户肖像的维度,可以反映用户的某些属性,反映用户的某些属性。

二、常用指标说明

1. 覆盖率

覆盖率是考虑数据覆盖率的指标,也称为检测率。根据业务情况和数据应用场景确定数据覆盖率的要求,覆盖率越高越好。

2. 有效性

分析单变量KS 、GINI、IV 值,趋势。同时,还要考虑数据的可解释性和趋势的稳定性。

1)KS

用于评估好坏客户的区分能力,计算累计坏客户与累计好客户百分比之间的最大差距。KS一般要求评分类的变量范围为0%-100%ks>变量类数据一般需要20%ks>10%。

wcI使用教程如何提高wci

2)GINI系数

也用于评估模型风险区分能力。GINI统计值衡量好账户数的累积分布与随机分布曲线之间的面积,好账户与坏账户分布之间的差异越大,GINI指标越高,区分风险的能力就越强。

wcI使用教程如何提高wci

3)IV 值

一般来说,信息价值用于表示特征对目标预测的贡献,即特征的预测能力,IV值越高,预测能力越强,信息贡献越高。

wcI使用教程如何提高wci

3. 稳定性

稳定性需要评估,无论是分类还是变量数据源。稳定性评估需要参考,一般使用psi比较预期分布与实际分布的差异。

wcI使用教程如何提高wci

当特征变化过大时,不一定要确定数据源/特征不使用,而是要先了解变化的原因。

4. 共线性

共线性又称多重共线性,是指自变量它们之间有很强的线性关系,甚至是完全的线性关系。当自变量之间存在共线性时,模型的参数定,模型的预测能力也会下降。

许多第三方数据衍生逻辑是笛卡尔在所有组合中积累的可能性。因此,在建模初期筛选变量时,需要采取有效措施避免共线性问题。(Tolerance)、方差膨胀因子(Variance inflation factor, VIF)、特征根(Eigenvalue)、条件指数(Condition Idex)等等,都是调查手段。

5. 相关性分析

可以进行相关性分析,分析数据的相关性。协方差一般用于数值特征和数值特征prarson系数和举例相关系数评价;通常用卡方检查类别特征,Fisher得分、F检验、斯皮尔曼的等级,Kendall评估相关系数。

6. 投入产出评估

在整个评估环节中,最重要的环节是将数据与当前策略联系起来,结合三方数据服务的收费模式(常用的计费方式是按调量和命中量计费,如果需求较大,也可以考虑谈判年/月包)来评估接口的投入出,最后评估接口上线后产生的收入是否能覆盖接口的支出。

三、离线测试

1. 提供离线测试样本

根据不同的访问目的,测试样本将略有不同。例如,为了优化现有模型,最好提供建模中使用的数据样本。但一般来说,测试样本应满足以下几点:

  • 样本可以连续评估数据的稳定性;
  • 最好是最近的样本,这样线下评估结果与线上实际效果的差距就不会太大;
  • 覆盖不同产品和客户群体的其他特殊条件。

注:如果不满足连续性、稳定性和代表性三个条件,测试结果可能不准确。

2. 了解数据源

一般来说,第三方将提供产品描述,以了解数据的底层逻辑和组成,以及数据背后的业务意义。同时,还需要特别注意底层数据源(中间链接越少越好)、更新频率(越快越好)等信息。从战略角度或模型角度评估数据效果

  • 从战略的角度来看,主要是分析单变量的效果,看是否有强度区分度但规则或组合规则可用于单变量;
  • 从模型的角度来看,这主要取决于数据的整体效果。如果数据没有较强的单变量,但整体效果好,价格低,也会考虑。

3. 通用分析评估

从战略的角度来看,主要是分析单变量的效果,检查是否有强分化的单变量,可用于规则或组合规则;从模型的角度来看,如果数据没有强分化的单变量,但整体效果好,价格低,也会考虑。

调查维度可分为以下7个:检查率、准确率(特别是黑名单)、稳定性(服务稳定性、特征稳定性psi)、模型效果(IV、KS)、性价比(根据查询次数、命中次数、月/年)、可解释性(特征变量类是否具有业务意义、评分范围可解释性)。

4. 特定数据源类别评估

wcI使用教程如何提高wci

四、在线模拟

虽然对历史样本进行了完整的效果评估,但已经证明,在线数据、模型和策略是有价值的。然而,市场环境和客户群体是一个动态变化的过程。此外,历史数据是线下可追溯性的。目前尚不清楚在线数据和离线可追溯性数据是否有差异,是否会有操作错误。模拟在线测试是评估数据在实际应用中的效果。

模拟在线测试是在实际业务环境中运行新策略,记录相关结果,但不做决定。

分析数据在线环境获取的成功率。比较线上线下数据分布、覆盖率、策略设计通过率是否一致。但是成本有限,一般测试都是小样本。从数据源评估的角度来看,新模型/策略上线后,需要有完善的监控系统来监控整个数据的变化,方便快速发现异常。

例如:接口调用、数据稳定性、数据缺失率、各环节策略转化率、贷后逾期等,在线观察实际在线效果,包括但不限于:

  • 数据接口稳定性(接口调用是否正常可靠)
  • 特征变量数据分布稳定、缺失率、准确性等
  • 业务效果:如进货通过率(坏账率需要一段时间,表现期长)

五、小案例-黑名单评估

1. 评估指标

查得率(Search rate)=检查数量/样本量

(2)覆盖率(Cover rate)=找到命中黑名单的数量/样本中命中黑名单的数量

(3)误拒率(Error reject rate)=找到命中黑名单数/样本并通过Good量

(4)有效差异率(Effective difference rate)=找到命中黑名单数/样本Bad量

(5)无效差异率(Invalid difference rate)=找到黑名单/样本中的其他拒绝量

其中SR、CR、EDR指标越高越好,ERR越低越好,IDR与EDR如果结合观察IDR和EDR它们都很高,反映了数据源定义黑名单是广泛的网络类型,黑名单的质量相对不够准确。前三个指标是重点调查。如果您想更全面地测试第三方数据源,也可以添加后两个差异率指标。数据统计:

wcI使用教程如何提高wci

2. 样本测试命中情况

wcI使用教程如何提高wci

3. 统计评价指标

根据上述指标分析方法,对数据源和数据源2的测试结果可得出以下结论:

  • 数据源均比数据源2具有明显的查得率和覆盖率优势;
  • 在负向指标上,数据源低于数据源2;
  • 无效差异率(IDR)与有效差异率(EDR)结合观察,数据源2两者都比较高,可能是广撒网,不够准确。

最终分析结论:数据源2更好。

作者:王小宾;微信微信官方账号:一起侃产品

本文由@不叉步不跳 每个人都是产品经理。未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议

本文的观点仅代表作者本人,人人产品经理平台只提供信息存储空间服务。

好了,这篇文章的内容就和大家分享到这里,如果大家对网赚副业项目资源感兴趣,可以添加微信:beng6655  备注:项目

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 sumchina520@foxmail.com 举报,一经查实,本站将立刻删除。
如若转载,请注明出处:https://www.hzy3.com/9028.html