特征归一化:Why?How?When?

栏目: 数据库 · 发布时间: 5年前

内容简介:文章作者:Sudharsan Asaithambi近期原创文章:

特征归一化:Why?How?When? 标星★公众号      爱你们

文章作者:Sudharsan Asaithambi

近期原创文章:

♥  基于无监督学习的期权定价异常检测(代码+数据)

♥  5种机器学习算法在预测股价的应用(代码+数据)

♥  深入研读:利用Twitter情绪去预测股市

♥  Two Sigma用新闻来预测股价走势,带你吊打Kaggle

  利用深度学习最新前沿预测股价走势

♥  一位数据科学PhD眼中的算法交易

♥  基于RNN和LSTM的股市预测方法

♥  人工智能『AI』应用算法交易,7个必踩的坑!

♥  神经网络在算法交易上的应用系列(一)

♥  预测股市 | 如何避免p-Hacking,为什么你要看涨?

♥  如何鉴别那些用深度学习预测股价的花哨模型?

♥  优化强化学习Q-learning算法进行股市

在使用某些算法时,特征缩放可能会使结果发生很大变化,而在其他算法中影响很小或没有影响。为了理解这一点,让我们看看为什么需要特征缩放、各种缩放方法以及什么时候应该缩放。

大多数情况下,你的数据集将包含大小、单位和范围变化很大的特征。但是,由于大多数机器学习算法在计算中使用两个数据点之间的欧氏距离,这是一个问题。

特征归一化:Why?How?When?

如果不加考虑这些,这些算法只考虑特征的大小而忽略了单位。 5kg和5000gms,结果会有很大差异。 具有高幅度的特征在距离计算中将比具有低幅度的特征更重要!

有四种常用的方法来执行 特性缩放。

Standardisation

特征归一化:Why?How?When?

重新分配的特征意味着μ=0和标准差σ=1。 sklearn.preprocessing.scale 帮助我们在 python 中实现标。

Mean Normalisation

特征归一化:Why?How?When?

归一化后,值在1和1之间,μ=0。

Min-Max 

特征归一化:Why?How?When?

归一化后,值在0和1之间。

Unit Vector

特征归一化:Why?How?When?

考虑到整个特征结构的单位长度,进行缩放。

Min-Max 和Unit Vector的值范围均为[0,1]。当处理带有规定边界的特征时,这非常有用。例如,在处理图像数据时,颜色的范围只能从0到255。

我们遵循的经验法则是计算距离或假设正态性的任何算法。

一些算法的例子:

1、使用欧氏距离度量的KNN对大小很敏感,因此应该对所有特征进行缩放,使其权重相等。

2、在执行主成分分析(PCA)时,缩放是至关重要的。主成分分析试图得到方差最大的特征,对于高幅值特征,方差较大。这使得PCA倾向于高幅值特征。

3、我们可以通过缩放来加速梯度下降。这是因为θ将在小范围内快速下降并且在大范围内缓慢下降, 因此当变量非常不均匀时,将无效地振荡到最佳值。

4、基于树模型不是基于距离的模型,可以处理不同范围的特征。因此,建立树模型时不需要缩放。

5、像线性判别分析(LDA)、朴素贝叶斯(Naive Bayes)这样的算法可以通过设计来处理这一问题并相应地赋予这些特征权重。在这些算法中执行特征缩放可能没有太大影响。

—End—

量化投资与机器学习微信公众号,是业内垂直于 Quant MFE CST 等专业的主流自媒体。公众号拥有来自 公募、私募、券商、银行、海外 等众多圈内 10W+ 关注者。每日发布行业前沿研究成果和最新资讯。

特征归一化:Why?How?When?


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

大演算

大演算

佩德羅.多明戈斯 / 張正苓,胡玉城 / 三采 / 2016-8-1 / 620

揭開大數據、人工智慧、機器學習的祕密, 打造人類文明史上最強大的科技——終極演算法! 有一個終極演算法,可以解開宇宙所有的祕密, 現在大家都在競爭,誰能最先解開它! .機器學習是什麼?大演算又是什麼? .大演算如何運作與發展,機器可以預測什麼? .我們可以信任機器學過的東西嗎? .商業、政治為什麼要擁抱機器學習? .不只商業與政治,醫學與科學界也亟需......一起来看看 《大演算》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

随机密码生成器
随机密码生成器

多种字符组合密码

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具