内容简介:文章作者:Sudharsan Asaithambi近期原创文章:
标星★公众号 爱你们 ♥
文章作者:Sudharsan Asaithambi
近期原创文章:
♥ 基于无监督学习的期权定价异常检测(代码+数据)
♥ 5种机器学习算法在预测股价的应用(代码+数据)
♥ 深入研读:利用Twitter情绪去预测股市
♥ Two Sigma用新闻来预测股价走势,带你吊打Kaggle
♥ 利用深度学习最新前沿预测股价走势
♥ 一位数据科学PhD眼中的算法交易
♥ 基于RNN和LSTM的股市预测方法
♥ 人工智能『AI』应用算法交易,7个必踩的坑!
♥ 神经网络在算法交易上的应用系列(一)
♥ 预测股市 | 如何避免p-Hacking,为什么你要看涨?
♥ 如何鉴别那些用深度学习预测股价的花哨模型?
♥ 优化强化学习Q-learning算法进行股市
在使用某些算法时,特征缩放可能会使结果发生很大变化,而在其他算法中影响很小或没有影响。为了理解这一点,让我们看看为什么需要特征缩放、各种缩放方法以及什么时候应该缩放。
大多数情况下,你的数据集将包含大小、单位和范围变化很大的特征。但是,由于大多数机器学习算法在计算中使用两个数据点之间的欧氏距离,这是一个问题。
如果不加考虑这些,这些算法只考虑特征的大小而忽略了单位。 5kg和5000gms,结果会有很大差异。 具有高幅度的特征在距离计算中将比具有低幅度的特征更重要!
有四种常用的方法来执行 特性缩放。
Standardisation
重新分配的特征意味着μ=0和标准差σ=1。 sklearn.preprocessing.scale 帮助我们在 python 中实现标。
Mean Normalisation
归一化后,值在1和1之间,μ=0。
Min-Max
归一化后,值在0和1之间。
Unit Vector
考虑到整个特征结构的单位长度,进行缩放。
Min-Max 和Unit Vector的值范围均为[0,1]。当处理带有规定边界的特征时,这非常有用。例如,在处理图像数据时,颜色的范围只能从0到255。
我们遵循的经验法则是计算距离或假设正态性的任何算法。
一些算法的例子:
1、使用欧氏距离度量的KNN对大小很敏感,因此应该对所有特征进行缩放,使其权重相等。
2、在执行主成分分析(PCA)时,缩放是至关重要的。主成分分析试图得到方差最大的特征,对于高幅值特征,方差较大。这使得PCA倾向于高幅值特征。
3、我们可以通过缩放来加速梯度下降。这是因为θ将在小范围内快速下降并且在大范围内缓慢下降, 因此当变量非常不均匀时,将无效地振荡到最佳值。
4、基于树模型不是基于距离的模型,可以处理不同范围的特征。因此,建立树模型时不需要缩放。
5、像线性判别分析(LDA)、朴素贝叶斯(Naive Bayes)这样的算法可以通过设计来处理这一问题并相应地赋予这些特征权重。在这些算法中执行特征缩放可能没有太大影响。
—End—
量化投资与机器学习微信公众号,是业内垂直于 Quant 、 MFE 、 CST 等专业的主流自媒体。公众号拥有来自 公募、私募、券商、银行、海外 等众多圈内 10W+ 关注者。每日发布行业前沿研究成果和最新资讯。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 特征工程:特征获取、特征规范和特征存储
- 特征工程之特征缩放 & 特征编码
- 特征工程:特征设计、特征可用性评估
- [译] 为什么要做特征缩放,怎么做特征缩放,什么时候做特征缩放?特征缩放三连了解一下
- 特征金字塔特征用于目标检测
- 数据挖掘篇——特征工程之特征降维
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。