特征归一化:Why?How?When?

栏目: 数据库 · 发布时间: 5年前

内容简介:文章作者:Sudharsan Asaithambi近期原创文章:

特征归一化:Why?How?When? 标星★公众号      爱你们

文章作者:Sudharsan Asaithambi

近期原创文章:

♥  基于无监督学习的期权定价异常检测(代码+数据)

♥  5种机器学习算法在预测股价的应用(代码+数据)

♥  深入研读:利用Twitter情绪去预测股市

♥  Two Sigma用新闻来预测股价走势,带你吊打Kaggle

  利用深度学习最新前沿预测股价走势

♥  一位数据科学PhD眼中的算法交易

♥  基于RNN和LSTM的股市预测方法

♥  人工智能『AI』应用算法交易,7个必踩的坑!

♥  神经网络在算法交易上的应用系列(一)

♥  预测股市 | 如何避免p-Hacking,为什么你要看涨?

♥  如何鉴别那些用深度学习预测股价的花哨模型?

♥  优化强化学习Q-learning算法进行股市

在使用某些算法时,特征缩放可能会使结果发生很大变化,而在其他算法中影响很小或没有影响。为了理解这一点,让我们看看为什么需要特征缩放、各种缩放方法以及什么时候应该缩放。

大多数情况下,你的数据集将包含大小、单位和范围变化很大的特征。但是,由于大多数机器学习算法在计算中使用两个数据点之间的欧氏距离,这是一个问题。

特征归一化:Why?How?When?

如果不加考虑这些,这些算法只考虑特征的大小而忽略了单位。 5kg和5000gms,结果会有很大差异。 具有高幅度的特征在距离计算中将比具有低幅度的特征更重要!

有四种常用的方法来执行 特性缩放。

Standardisation

特征归一化:Why?How?When?

重新分配的特征意味着μ=0和标准差σ=1。 sklearn.preprocessing.scale 帮助我们在 python 中实现标。

Mean Normalisation

特征归一化:Why?How?When?

归一化后,值在1和1之间,μ=0。

Min-Max 

特征归一化:Why?How?When?

归一化后,值在0和1之间。

Unit Vector

特征归一化:Why?How?When?

考虑到整个特征结构的单位长度,进行缩放。

Min-Max 和Unit Vector的值范围均为[0,1]。当处理带有规定边界的特征时,这非常有用。例如,在处理图像数据时,颜色的范围只能从0到255。

我们遵循的经验法则是计算距离或假设正态性的任何算法。

一些算法的例子:

1、使用欧氏距离度量的KNN对大小很敏感,因此应该对所有特征进行缩放,使其权重相等。

2、在执行主成分分析(PCA)时,缩放是至关重要的。主成分分析试图得到方差最大的特征,对于高幅值特征,方差较大。这使得PCA倾向于高幅值特征。

3、我们可以通过缩放来加速梯度下降。这是因为θ将在小范围内快速下降并且在大范围内缓慢下降, 因此当变量非常不均匀时,将无效地振荡到最佳值。

4、基于树模型不是基于距离的模型,可以处理不同范围的特征。因此,建立树模型时不需要缩放。

5、像线性判别分析(LDA)、朴素贝叶斯(Naive Bayes)这样的算法可以通过设计来处理这一问题并相应地赋予这些特征权重。在这些算法中执行特征缩放可能没有太大影响。

—End—

量化投资与机器学习微信公众号,是业内垂直于 Quant MFE CST 等专业的主流自媒体。公众号拥有来自 公募、私募、券商、银行、海外 等众多圈内 10W+ 关注者。每日发布行业前沿研究成果和最新资讯。

特征归一化:Why?How?When?


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

七周七并发模型

七周七并发模型

Paul Butcher / 黄炎 / 人民邮电出版社 / 2015-3 / 49.00元

借助Java、Go等多种语言的特长,深度剖析所有主流并发编程模型 基于锁和线程的并发模型是目前最常用的一种并发模型,但是并发编程模型不仅仅只有这一种,本书几乎涵盖了目前所有的并发编程模型。了解和熟悉各种并发编程模型,在解决并发问题时会有更多思路。 ——方腾飞,并发编程网站长 当看到这本书的目录时,我就为之一振。它涉及了当今所有的主流并发编程模型(当然也包括Go语言及其实现的CSP......一起来看看 《七周七并发模型》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具