您好,欢迎进入重庆房屋抵押贷款公司官网!

重庆私人抵押|重庆私人贷款|重庆房屋抵押

重庆私人抵押借钱

房屋,汽车,黄金珠宝一站式抵押借款

19112830096
常见问题
您的位置: 主页 > 新闻中心 > 常见问题
重庆个人借款,如何建立相对稳定的金融信贷实体模型: 特点篇
发布时间:2024-04-01 13:21浏览次数:
如何建立相对稳定的金融信贷实体模型: 特征篇 在在在线渠道中,特征本身可能会随着时间的推移而变化,特征和label之间的关系也可能随着时间的推移而变化,这将使每个人的实体模型不稳定或长期的实际效果迅速损失。 由于金融业务的特点,实体模型升级通常需要很长时间(收集新的有效数据,进行实体模型的财务审计和评论),因此在金融场景中很难通过不断更新实体模型来降低实体模型的可靠性。 另一方面,由于实体模型的表达需求,金融信贷实体模型往往不会引入复杂的建模方法,因此实体模型的稳定性不能根据实体模型结构的复杂设计来提高。 在这种情况下,我们应该在数据处理过程中使用具有历史记录观察特征的稳定性,从中选择更稳定的特征,以避免物理模型的效果和起伏,并长期提高物理模型的实际效果。 [TOC] ## 实体模型稳定性的含义 第一,我们需要在这里确立实体模型的可靠性。就实际业务而言,实体模型的可靠性可分为两部分,一部分是实体模型输出平稳,另一部分是实体模型实际效果平稳。需要注意的是,这些可靠性并没有必然的联系重庆私人借钱。下面对两种情况进行分析。 ### 实体模型的导出是平稳的 实体模型的导出是平稳的并不一定是所需要的,主要在模型拟合导出在各个时间的一致性具有较强诉求的情景,比如金融业场景下的提额价格调整,一般都会有这样的需求。首先要注意同一客户群的实体模型导出的可靠性,保证在一定时间内不容易发生重大变化。 实体模型导出的稳定性在于其**合理化**,这与银行信贷模型强**实证性**规定有关。因为结合实际,有时候即使是同一个客户群,一段时间后,它的特点也可能会发生很大的变化。如果通过模型的实证性,我们可以判断导致实体模型导出转换的特性和合理性,并不一定强制确保实体模型导出转换的稳定性。 需要注意的是,这里的有效性实际上需要一些领域的知识来判断。例如,在实体模型运行半年后,不难发现,最新1月份银行信贷实体模型的高分总数显著增加,实体模型的出口发生了很大的变化。此时模型拟合进行实证分析,一旦发现主要是由于客户长期使用贷款业务,导致合同履行相关特点的变化,符合专业知识,那么我们就可以接受这样的变化。但是,如果我们发现根本原因是客户在某个页面上的点击率增加了(很可能商品页面的修改会导致点击率增加),这与专业知识不一致,估计这种变化是不可接受的。你会认为这个模型不够稳定。 在实践中,如果很难经常对全球变化进行实证分析,以确保实体模型**效果的稳定性**也可以在一定程度上缓解这种情况。随着实体模型实际效果的降低,不合理的全面转变也伴随着实体模型的降低。 在操作指标上,实体模型输出通过监控实体模型正式启动**PSI**,**随着电子密度**等指标值的转换,我们可以了解到模型导出的可靠性。 ### 实体模型实际效果稳定 绝大多数情况下都要保证实体模型实际效果的稳定性。实体模型的实际效果稳定是单向的,不同于实体模型的分布稳定。我们可以接受实体模型正式推出的实际效果增加(在特定场景中是可能的),但不能接受实体模型正式推出的实际效果显著降低。 在操作指标方面,我们可以通过监控物理模型发布后的准确性、均方误差、AUC等数据,了解模型实际效果的可靠性。 对于可靠性要求强、实体模型无法快速更换的情况,建议在线设置一套**平均时长实际效果**指标,如AUC平均时长、头顶平均时长等。例如,通过数学模型的正式启动,每日平均头部恢复实际效果,我们可以更好地评估提高实体模型实际效果可靠性带来的增益值。 ## 特征多变性的来源 特征不稳定也可以分为两类。一是特征本身随着时间的推移而发生了很大的变化,二是特征与预测目标统计的关系发生了变化。在银行信贷场景中,可以认为特征的优缺点意义发生了变化。下面我们将详细分析这两类问题。 ### 特征遍布变化 需要注意的是,特征本身的变化并不一定会导致实体模型的不稳定。 例如,在树模型中,模型对特征的全面变化具有一定的可扩展性。例如,有一个特征的划分点值a,它在划分点a的左右分布转换,不会导致模型导出的全面转换。另外,从实际效果来看,如果区划点a左右特征的整体含义没有改变,模型效果就不会受到影响。 这就是为什么PSI的特性及其一些类似的特性不能直接关联到变化检测指标和实体模型的可靠性。即使特征随处可见,我们也不确定实体模型会逐渐变得不稳定。 此外,虽然特征的全面变化并不一定意味着实体模型导出的全面变化,但实体模型导出的全面变化必须与特征分布的变化相对应。 ### 优劣特征意味着转变 在这里,我们提出了一个概念,即特征的好坏,可以理解为特征与预测总体目标之间的统计关系。 当特征的含义发生变化时,即使特征不会改变,模型的实际效果也会逐渐改变,导致实体模型的实际效果不稳定。 接下来,我们将进一步得出优劣含义概念的定义。 #### 特征的好坏含义是什么? 我们自己的深度学习模型是基于历史时间统计的。在历史统计中,特征在不同特征的基础上。与其他特征结合后,我们可以统计相应的label总数大于零和为负。 每个人设置样本为坏,负样本为宜。例如,在特定特征组合下,正样本的比例较高,因此当前特征组合中这些特征的含义不好;如果负样本的比例较高,则该特征在当前特征组合中的含义偏好。 具体特征会有一些选值,其他特征也会形成许多特征组合。在所有可能的选值和特征组合中,我们将特征的优劣样本量比称为特征的好坏含义。 这里的定义是为了解释二分类模型,也可以类似地扩展到多分类算法。 ## 实体模型的稳定性与相对稳定的特征相关 在此之前,我们提出了实体模型稳定性和特征稳定性的具体表现和类型。以下是对两者关系的分析。 ### 遍布平稳 实体模型本质上是一种固定的映射关系。因此,当目标消费群体的**特征分布长期保持时,相应的模型**导出分布**通常相对稳定(除非特征之间有特殊的协同作用,否则几个特征的弱不稳定变化最终导致实体模型的巨大变化,基本上不会出现在树模型中)。换句话说,如果业务需要规定实体模型的导出是稳定的,那么我们必须考虑在模型中选择更稳定的特征。结合实际情况,一般会因为这种可靠性规定而失去一定模型的实际效果,必须在建模过程中进行平衡。 ### 实际效果稳定 实际效果稳定并不要求特点分布平稳。**实际效果稳定**规定网上**的优缺点含义**和训练集中化学的优缺点含义没有显著变化。如果这个时候特征的好坏总是和测试集一致,即使网络特征完全不同于测试集,模型的实际效果也会相对稳定。 一个意想不到的情况是,在线特征根没有出现一定程度的集中练习,导致实体模型对网络特征根背后的优缺点预测不正确。这类问题类似于NLP中的OOV(Out-of-Vocabulary)但本质上,实体模型在训练中学到的特征是根本优缺点,在实际应用中发生变化,导致效果降低。 ## 探索不稳定特征的实用方法 通过前面的分析,我们掌握了模型拟合稳定性的含义及其不稳定性的特点。以下将提供一套实用的方法来探索不稳定的特点,提高实体模型的可靠性,以有针对性地处理上述问题。 ### 选择长期性特征的实际效果 选择长期性特征的实际效果是一个改进实体模型**实际效果可靠性**最直接的有效的办法。同时,它还可以在一定程度上改善实体模型导出的稳定性。事实上,这种方法是从结论出发的。它是一种综合性的方法,不考虑特征多变性的来源。 每个人对模型拟合的可靠性进行评估,实际上就像模型推理一样,也是从历史记录中得出的结论。当我们发现我们构建的实体模型在现有信息中长期保持时,我们可以推断,该方法也将在不久的将来长期保持。 基于这个想法,我们也可以根据时间来区分训练样本。例如,根据较早的时间(如3月至6月),我们可以很好地练习模型,然后在以后的时间(如7月至12月)中评估模型效果。这样,模拟模型将在未来正式启动,效果将发生变化。具体时间分割必须尽量保持分割运动的时间不能太短(过短通常会影响虚拟高度特征的变化),后续的跨时间验证时间周期应尽可能与实际实体模型方案应用的时间长度相匹配。 如果我们发现实体模型的实际效果从7月到12月逐月明显损失,说明实体模型的实际效果具有很强的多变性。 此时,我们可以尝试去除一些特征,保持其他要求一致,再次训练算法,观察7月至12月模型的实际效果。如果统计分析有显著的改进,我们可以认为这部分的特征严重影响了模型长期实际效果的可靠性。请注意,接下来,我们实际上有一个潜在的假设。物理模型已经根据现有特征进行了充分的学习和培训,并根据现有特征给出了最佳效果。以标值类特征为主导的银行信贷场景。根据标值特征,更常见的集成树模型可以很好地学习特征专业知识,很难超越建模方法(LR, NN),相关性分析可以参考 Grinsztajn Development Mode. 2022。因此,我们认为更常见的集成树模型可以类似于实现假设。 为了方便自动化,我们提出了一套步骤来发现这种不稳定的特征。可参考附则。 由于其目标是提高模型在长期内的实际效果,因此很容易接受这种优化算法可以提高实体模型的实际效果。那为什么它也能缓解实体模型的可靠性呢重庆私人贷款? 在对前实体模型导出可靠性的研究中,不难发现,实体模型导出稳定性的关键在于它是否可行,合理化往往与实体模型效果的稳定性有关。因此,实体模型实际效果可靠性算法的改进一般可以避免实体模型不科学变化的一些特征。 ### 特点遍布起伏选择 针对特征本身变化较大的情况,我们通过以下两种形式来寻找这一特征。 #### 探索练习集中化特征根未覆盖或覆盖较少的特征 这种方法似乎一直在寻找各种各样的特征,实际上是为了减少OOV问题。通过分析跨时间样本中是否有多种样本,以及测试集中未发生的特征根段,提前发现隐性特征意味着改变风险。 需要注意的是,即使测试集中没有出现跨时间样本中部分特征根的范围,也并不意味着这一特征必然会导致可靠性或实际效果可靠性的问题。如果这一特征的必要性相对较低,对整体分布的危害通常更有限。如果该特征根的优缺点与相邻特征一致,则不会影响设计效果的可靠性。 因此,与长期实际效果选择中的测试方法和思维相似,最终需要去除和检测潜在不稳定风险的特征,观察不同周期模型的平均实际效果变化,共同协助最终判断。如果你想更加关注实体模型的导出和分布转换,你可以通过去除前潜在风险特征的重要性来协助判断。 #### 寻找基于模型识别的转变特征 在模型识别的基础上,还有一种方法可以探索遍布转换特征。概念也很简单,我们建立一个辅助识别模型,如果识别模型可以很好地识别数据信息来自测试集,或我们的跨时间验证集,那么我们当前的特点分布在跨时间验证集和测试集中之间的差异或太大。 基于这一概念,我们可以建立一个自动化检测方案。 首先,根据现阶段的所有特征集,练习识别模型来识别来自测试集或跨时验证集的数据。若模型识别效果小于阀值,则完成实体模型。如果实际效果高于阀值,去除头顶特征的重要性,然后再练习识别模型。如果模型识别的实际效果小于阀值,或者实体模型比上次识别的实际效果更低,则趋于收敛,则循环结束。部分被消除的特征是隐性遍布变化的显著特征。 ### 特征意味着改变选择 在具体的观察和操作中,定义理想特征的含义有两个困难。 一是受样本数量的限制。如果我们将标值类的特征分开,观察其正负样本的比例,可能会过于罕见。解决方案是利用分箱观察,如通过等频率/定距分箱,观察各段特征的正负样本比例,可缓解实际值对应样品太少的问题。 二是特征组合的负面影响。由于特征之间可能存在相互作用,因此在不同的特征组合下,相同值的内涵可能完全相反。因此,理论上,我们需要考虑相同特征根在多个特征组合中的正样本和负样本比例。然而,这种观察量将过大,每个特征组合中的实际样本可能过于罕见。 在银行信贷场景中,考虑到各种特征之间的相互伤害会相对较弱(在实验中,拆分模型并将特征与实体模型结合起来,auc的减少一般不显眼),我们可以简单地应用单个特征的好坏来解决这些问题。根据头顶的重要特征,在适当的时候可以进行二级解释。 换句话说,如果每个特征根段的单一特征的优缺点随着时间的推移而显著变化,我们将确定其特征的好坏不稳定,并存在危害实体模型实际效果可靠性的风险。 在这里,lift值可以作为一个合理的优缺点,因为它可以考虑与特征根段相匹配的样品版本,比样品中随机选择的样品差几倍,与样品数量和特征根间隔的总数无关。仔细观察lift系数的变化,我们可以了解特征的变化。 基于此,我们还可以整合数据可视化检测和实际效果去除检测,通过自动化的形式找到危害实体模型实际效果可靠性的特点。 重庆私人房屋借钱 ## 试验表明 让我们给出一个具体的例子,以进一步观察不同类型的选择方法在实际应用中的效果。例如,我们更关注每个场景都需要长期效果的可靠性。 ### 数据信息设置 我们选择一个模拟的银行信贷场景作为例子进行测试。 现阶段基于客户的信用额度利用率(quota),历史时间天数(over_ds),账户余额余额(balance),年纪(age),点击重要页面的频率(click_cnt),每个人都增加了一棵多叉树来描述客户的实际贷款逾期。 $$ y = g(f(quota, over\_ds, balance, age, click\_cnt) \epsilon) $$ 这里$f$表明我们自己的多叉树,$\epsilon$显示不确定信息内容产生的误差。这里简单考虑设置$\epsilon\sim N(\mu,\sigma^2)$,而$quota, over\_ds, balance, click\_cnt$基于标准正态分布或对数正态分布形成后,模拟真实数据分类的所有要求。 $g$基于多叉树的过程和结果epsilon$最后的判别函数。 通过这些算法,我们可以生成我们的数据集。 ### 到处都不会改变,特征的优缺点意义也不会改变 首先,基于相同的遍布,不同类型的随机数字种子形成几个数据。每个数据都通过取样确保优缺点之比1:1.消除优劣比的影响。选择这些数据中的一个作为测试集,另一个作为多个验证集,其中一个作为普遍性和特征含义不会改变。 AUC为0.952,在测试集上训练算法,然后在同一遍布的验证集上检测。充分考虑$\epsilon$AUC已经非常接近基础理论的限制。 在各种数据中,采用长期效果识别算法,特征变化检测方法集(特征函数值域检测方法、实体模型识别检测方法、传统psi检测方法),特征优缺点意味着变化检测方法,未发现异常。 ### 到处都不会改变,特征的优缺点意味着改变 先根据基准遍布形成测试集,然后改变多叉树$f$的构造内与$click\_cnt$相关阀值,尝试改变相关特征的内涵。 保持每个自变量本身的分布函数不会改变,选择不同类型的随机数字种子,不断改变$f$里的$click\_cnt$关于阀值,形成几个新的验证集。与测试集相比,该验证集具有相同的特征,但部分特征意义发生了变化。每个数据都是相同的,以确保优缺点之比:1、消除优劣比的影响。 我们选择一个验证集作为最终测试集,并将剩余的验证集作为跨时验证集,分发给可靠的特征筛选和优化算法进行学习。测试结果如下, | 方式 | 检验结果 | 缘故 | | ------ | ------ | ------ | ------ | | 长期效果检验| $click\_cnt$出现异常 | - | | 函数值域检验 | 未见异常 |- | | 模型检测 | 无异常 | - | | 传统PSI | 未见异常 | - | | 优缺点意味着检验 | 无明显异常 | $click\_cnt$特征本身的特征权重值不大,lift转换不太明显 | 测试数据显示,长期效果识别算法感觉到$click\_cnt$特征不稳定,提出了以下可视化显示,其中纵坐标是去除效果和不去除效果的主要特征,其趋势和$click\_cnt$各验证集中特性阀值的偏差程度保持一致。 基于特征的检验算法没有发现任何异常。 基于特征的检验算法没有发现任何异常。 最后,我们可以将实际效果与下表进行比较,通过新的特征筛选管理体系,可以看到实际效果显著提高。 | |测试集实际效果(AUC) | 测试集效果(AUC) | | ------ | ------ | ------ | | 全特征 | 0.950 | 0.949 | |基于传统psi| 0.950|0.949| | 可靠性选择管理系统基于一个新的特点 | 0.950 | 0.951|| 不难发现,针对遍布不变、特征意义变化的情况,基于遍布相关的选择内容不能使用。在这种情况下,通过我们的长期效果选择方法,仍然可以保证物理模型的长期效果稳定。在这种情况下,通过我们的长期效果选择,实体模型的长期效果仍然可以保证稳定。 ### 全面变化,特征的优缺点意义不会改变 一是基于基准遍布形成测试集,然后不断更改$age$特征的平均分布,保持其他特征的分布不会改变,形成几个新的验证集。与测试集相比,这种验证集,$age$特征的传播是不同的,但因为它真的传播了$f$由于没有改变,其特征的含义也没有改变。每个数据都是一样的,根据取样保证优劣之比:1.消除优劣比的影响。 我们选择一个验证集作为最终测试集,将剩余的验证集作为跨时间验证集,分发给可靠性特征筛选优化算法学习。试验结果如下: | 方式 | 检验结果 | 缘故 | | ------ | ------ | ------ | ------ | | 长期效果检验| 未见异常 | - | | 函数值域检验 | 未见异常 | 未学习的函数值域没有集中练习,只发生了变化 | | 模型检测 | $age$出现异常 | | | 传统PSI | $age$出现异常 | | | 优缺点意味着检验 | 未见异常 | 优缺点意味着没有变化 | 根据实验结论进行评估,结果如下 | |测试集实际效果(AUC) | 测试集效果(AUC) | | ------ | ------ | ------ | | 全特征 | 0.950 | 0.952 | |基于传统PSI| 0.950|0.947| | 可靠性选择管理系统基于一个新的特点 | 0.950 | 0.952|| 能够看见,鉴于全面变化,特征意味着永恒,如果盲目使用传统的可靠性检测方法,也会显著降低实体模型的实际效果,不会提高实体模型的长期效果可靠性。 ### 全面变化,特征的优缺点意味着变化 先根据基准遍布形成测试集,然后改变多叉树$f$的构造内与$quota$相关阀值,尝试改变相关特征的内涵。 ### 全面变化,特征的优缺点意味着变化 先根据基准遍布形成测试集,然后改变多叉树$f$的构造内与$quota$相关阀值,尝试改变相关特征的内涵。并且不断变化$quota$特征的平均分布,保持其他特征的分布不会改变,形成几个新的验证集。与测试集相比,这种验证集,$quota$特征的传播是不同的,因为它真的传播了$f$因此,它的特征意义也发生了变化。每个数据都是一样的,根据取样保证优劣之比:1.消除优劣比的影响。 选择一个验证集作为最终测试集,将剩余的验证集作为跨时验证集,分发给可靠性特征筛选优化算法进行学习。试验结果如下: | 方式 | 检验结果 | 缘故 | | ------ | ------ | ------ | ------ | | 长期效果检验| $click\_cnt$, $age$, $over\_ds$出现异常 | $quota$过度关键的特点,只有后来才期待清除受$quota$特征危害的特征 | | 函数值域检验 | 未见异常 | 练习集中化没有学到的特征没有根 | | 模型检测 | $quota$出现异常 | | | 传统PSI | $quota$出现异常 | - | | 优缺点意味着检验 | $quota$出现异常 | quota特征的含义发生了变化| 这里比较有意思的是,由于长期效果检测是基于结论的综合判断,因此对长期效果进行检测$f$影响较大的$quota$特点,它没有选择去除,而是去除了其他影响较大的特征,以减少不稳定特征的影响。 虽然这里提出了psi检测和优缺点含义检测$quota$特征异常,但通过内置效果比较,将确保在详细的稳定特征筛选计划中不能具体去除$quota$特点。 根据实验结论进行评估,结果如下 | |测试集实际效果(AUC) | 测试集效果(AUC) | | ------ | ------ | ------ | | 全特征 | 0.948 | 0.925 | |基于传统PSI| 0.564|0.586| | 可靠性选择管理系统基于一个新的特点 | 0.944 | 0.947|| 能够看见,鉴于传统的可靠性检测方法可以直接提高一些实体模型的可靠性,但也可能导致实体模型的实际效果显著降低。 ### 独特的变化:未练习的特征根,但特征的优缺点是一致的 每个人都将在基准遍布中,$age$将起始值改为25,形成测试集,但将起始值改为15~23,形成几个新的验证集。与测试集相比,这种验证集从未发生在测试集的结果中$age$特征根,但它真的遍布多叉树$f$它没有改变,而且在多叉树上$f$中,$age$分裂点阀值为40,因此其特征根在40以内的全面变化不受影响。与测试集相比,这种验证集从未发生在测试集的结果中$age$特征根,但它真的遍布多叉树$f$没有改变,而且在多叉树上$f$中,$age$分裂点的阀值为40,因此其特征根在40以内的分布式变化不会影响其特征根的分布式变化。每个数据都是一样的。根据取样,确保优缺点比例为1:1.消除优劣比的影响。 我们选择一个验证集作为最终测试集,将剩余的验证集作为跨时间验证集,分发给可靠性特征筛选优化算法学习。试验结果如下: | 方式 | 检验结果 | 缘故 | | ------ | ------ | ------ | ------ | | 长期效果检验| 未见异常 | 特征意义没有改变| | 函数值域检验 | $age$出现异常 | 没有学到集中练习的特征根源 | | 模型检测 | $age$出现异常 | | | 传统PSI | $age$出现异常 | - | | 优缺点意味着检验 | 未见异常 | 特征意义没有改变| 在notebook中运行的函数值域检测结果如下: ``` {202203: ({}, {}, defaultdict(list, {})), 202204: ({}, {}, defaultdict(list, {'age': [('(21, 23]', ), 202205: ({}, {}, defaultdict(list, {'age': [('(19, 21]', 0), ('(21, 23]', ), 202206: ({}, {}, defaultdict(list, {'age': [('(17, 20]', 0), ('(20, 22]', 0), ('(22, 24]', )))()))))))))) ``` 可见其提出了根函数值域变化趋势的详细特征,有利于人工检查。 请注意,这里独立的函数值域检查无效,在具体的详细选择计划中,内置检查进行识别。 请注意,这里独立的函数值域检查无效,在具体的详细选择计划中,内置检查进行识别。 最后根据实验结论进行评估,结果如下 | |测试集实际效果(AUC) | 测试集效果(AUC) | | ------ | ------ | ------ | | 全特征 | 0.950 | 0.952 | |基于传统的PSI| 0.948|0.949| | 基于新特征的可靠性选择管理系统 | 0.950 | 0.952|| 可见,针对验证集中不明系数的情况,能够准确发现函数值域检验,并给出具体的函数值域检验变化趋势。PSI也有机会发现,但单个PSI的数据相对有限,需要进一步整合选择领域的内置检查进行识别。PSI也有机会发现,但单个PSI的数据相对有限,需要进一步整合选定领域的内置检查进行识别。如果仅仅依靠传统的PSI检查,实体模型的实际效果也会在短期和长期内下降。 ### 独特的变化:未练习的特征值,特征的优缺点意义不同 每个人都将在基准遍布中,$age$将特征分布的最高值改为39形成测试集,但在测试集中化时,将起始值改为41~50,形成几个新的验证集。与测试集相比,这种验证集从未发生在测试集的结果中$age$虽然特征值真的遍布多叉树$f$同样没有变化,但多叉树$f$中,$age$分裂点阀值为40,因此在实践集中化时,实体模型根本无法学习age>40的现象,其特征意义实际上发生了变化。每个数据都是一样的,根据取样保证优劣之比:1.消除优劣比的影响。 我们选择一个验证集作为最终测试集,将剩余的验证集作为跨时间验证集,分发给可靠性特征,选择优化算法学习。试验结果如下: | 方法 | 检测结果 | 原因 | | ------ | ------ | ------ | ------ | | 长期效果检验| $age$, $over\_ds$, $click_cnt$异常 |特征分布规则意味着意均变化| | 函数值域检测 | $age$异常 | 练习集中未学习的特征值 | | 实体模型检测 | $age$异常 | -| | 传统PSI | $age$异常 | - | | 检测好坏意义 | 一样常 | 特征意义没有改变| 在这里可以看到,虽然age不稳定,但长期效果测试可以去除age及其受age伤害的特征,以减少这种情况。
如何建立相对稳定的金融信贷实体模型: 特点篇
最后,根据实验结论进行评估,结果如下 | |测试集实际效果(AUC) | 验证集的实际效果(AUC) | | ------ | ------ | ------ | | 全特征 | 0.951 | 0.943 | |基于传统PSI| 0.951|0.942| | 基于新特征的可靠性选择管理系统 | 0.947 | 0.947|| 能够看见,最稳定的实际效果仍然是基于一个新的特征可靠性选择管理系统。 ## 未来的改进措施 #### 引入更端到端的方式 通过引进其他一些领域的技术性,比如之前尝试过引进因果推断,Hoeffding 一些基本不等式等相关方法取得了一定的实际效果。 ## 未来的改进措施 #### 引入更端到端的方式 通过引进其他一些领域的技术性,比如之前尝试过引进因果推断,Hoeffding 一些与基本不等式等相关的方法取得了一定的实际效果。但还没有系统地梳理出来,可以后续更新。 #### 开展各种试验 现阶段主要体现在信用数据集上,以后可以选择应用更多的数据集,观察方法的泛化性和局限性。 #### 自动化技术 现阶段的每一个计划都有一些阀值和超参必须设置。如今已经给出了一套工作经验超参,然后用户还可以根据数据可视化结论,内置校检来调整工作经验参数。对于一些步骤,计划在周期中添加超参与阀值修改,以进一步自动化过程。 ## 汇总 首先,我们从以下三个方面来看待特征的稳定性,进一步构建相对稳定的银行信贷实体模型。 1. 特征长期效果选择:不考虑特征可靠性的起源,考虑到实际效果,去除中长期实体模型效果显著降低的特征组 2. 特征遍布转变选择:从特征本身的转变来看,随着时间的推移,对特征遍布的特征进行更严格的去除 3. 从特征与预测目标的统计关系来看,特征意味着转变选择:更严格地消除特征与预测总体目标中间统计关系发生重大变化的特征 最后,通过各种数据可视化方法,我们可以引入专家经验,进一步了解模型数据的特点,防止一些不正确的去除,有效提高长期实体模型的实际效果。 在文章的写作中会有一个非常匆忙和遗漏的地区,欢迎批评和纠正! ## 附则 ### Reference Grinsztajn, Léo, Edouard Oyallon, and Gaël Varoquaux. "Why do tree-based models still outperform deep learning on tabular data?." arXiv preprint arXiv:2207.08815 (2022). Frias-Blanco, Isvani, et al. "Online and non-parametric drift detection methods based on Hoeffding’s bounds." *IEEE Transactions on Knowledge and Data Engineering* 27.3 (2014): 810-823. Yu, Shujian, Xiaoyang Wang, and José C. Príncipe. "Request-and-reverify: Hierarchical hypothesis testing for concept drift detection with expensive labels." *arXiv preprint arXiv:1806.10131* (2018). Domingos, Pedro, and Geoff Hulten. "Mining high-speed data streams." *Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining*. 2000. Brzeziński, Dariusz. "Mining data streams with concept drift." *Cs Put Pozna* 89 (2010). Dasu, Tamraparni, et al. "An information-theoretic approach to detecting changes in multi-dimensional data streams." *In Proc. Symp. on the Interface of Statistics, Computing Science, and Applications*. 2006. Bifet, Albert, and Ricard Gavalda. "Learning from time-changing data with adaptive windowing." *Proceedings of the 2007 SIAM international conference on data mining*. Society for Industrial and Applied Mathematics, 2007. Barddal, Jean Paul, et al. "A survey on feature drift adaptation: Definition, benchmark, challenges and future directions." *Journal of Systems and Software* 127 (2017): 278-294.
19112830096