训练的时候模型可以很好地匹配数据,德州仪器TI分类性质的解析工作

来源:时间: 2024-07-27

训练的时候模型可以很好地匹配数据,德州仪器TI分类性质的解析工作

德州仪器TI添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决。例如,“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段,无论在什么场景,都可以照葫芦画瓢,总会得到意想不到的效果。添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性型通过添加二次项或者三次项使模型泛化能力更强。例如上面的图片的例子。少正则化参数,正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,则需要减少正则化参数尝试非线性模型,比如核SVM 、决策树、DNN等模型模型把数据学习的太彻底,以至于把噪声数据的特征也学习到了,这样就会导致在后期测试的时候不能够很好地识别数据,即不能正确的分类,德州仪器TI模型泛化能力太差。例如下面的例子。我们学习到的模型曲线,虽然在训练的时候模型可以很好地匹配数据,但是很显然过度扭曲了曲线,不是真实的size与prize曲线。重新清洗数据,导致过拟合的一个原因也有可能是数据不纯导致的,噪音太多影响到模型效果,如果出现了过拟合就需要我们重新清洗数据。增大数据的训练量,还有一个原因就是我们用于训练的数据量太小导致的,训练数据占总数据的比例过小。一般情况下,只要数据标注的规范清晰,对规则的界定从一而终,标注工作的流程还是比较简单的。数据标注规范可能会在测试后根据结果情况进行调整,那么,规则修改前后“数据标注的一致性”就出现了问题,会导致多次返工,在时间和人工成本上颇有影响。如是分类性质的解析工作,建议标注规则先从非常肯定的非黑即白开始;规则设定由简到繁,带有疑虑数据再另外作记号。随着规则一步步深入,可能会出现交叉影响,此时就需要放弃一些低频问题的规则,余下的未标注的数据就根据新的规则标注。


电话

185 0303 2423

微信

咨询

置顶