8种最差的预测建模技术，你认同吗？

栏目: 数据库 · 发布时间: 8年前

内容简介：8种最差的预测建模技术，你认同吗？

引言：现代数据的特点通常是更加的非结构化、更大规模，需要合并来自各种源的不完全兼容的数据集。然而一些传统统计学应用于现代数据时经常被滥用并导致错误结论。以下罗列了8种最差的预测建模技术以及仍被使用的原因。

本文选自《数据天才：数据科学家修炼之道》。

以下技术大多数已经发展了较长时间（在过去10年中），其中大部分缺点已经得到弥补，因此更新后的技术已经远不同于其原始版本，性能也大为提高。但通常情况下，这些有弊端的技术仍然被广泛使用。

1．线性回归

依靠一般标准、异方差性和其他假设，不能捕获高度非线性的混沌模式。它倾向于过度拟合、参数难以解读，并且在独立变量高度相关时非常不稳定。修正方法包括减少变量、进行变量变换，以及使用约束回归（例如，岭回归或Lasso回归）。

2．传统决策树

大而不稳定，无法解读，而且容易过度拟合。修正方法包括使用多个小决策树，而不是使用一个大决策树。

3．线性判别分析法

用于监督聚类。这是一个很差的技术，因为它假定簇没有重叠并且被超平面完全分开。在实践中从来没有这样的情况。应改用密度估计技术。

4．K-均值聚类

倾向于产生环形簇，不容易处理不符合高斯混合分布的数据点。

5．神经网络

不容易解读，不稳定，容易过度拟合。

6．最大似然估计

要求你的数据符合预先规定的概率分布。它不是数据驱动的，很多时候预先指定的高斯分布和你的数据很不适合。

7．高维密度估计

常受到维度的影响。修正方法之一是使用非参数核密度估计与自适应的带宽。

8．朴素贝叶斯

用于如欺诈检测、垃圾邮件检测和评分。它们假定变量是独立的，但如果不是，就会惨遭失败。在进行欺诈检测和垃圾邮件检测时，变量（有时被称为规则）是高度相关的。修正方法之一是将变量分为独立的变量簇，每个簇包含高度相关的变量。然后将朴素贝叶斯应用于簇，或者使用数据减少技术。不好的文本挖掘技术（例如，垃圾邮件检测中的基本“单词”规则）和朴素贝叶斯结合会产生非常可怕的结果，带来很多误报和漏报。

这些不好的模型仍然被广泛使用的原因如下。

很多大学课程使用过时的教材，因此很多学生没有接触过更好的数据科学技术。

人们使用黑箱统计软件，不知道其局限性和缺点，或者不会正确调整参数和优化各种节点，或者不了解该软件实际生成什么结果。

政府强制监管行业（制药业和银行业——见银行的Basel III规定）为统计合规而使用30年前的SAS程序。例如，虽然SAS有更好的评分方法可用于信用评分，却被当局武断地拒绝使用。提交给FDA的临床试验分析也是一样，SAS是强制使用的合规软件，使FDA可以从制药公司复制分析和结果。
现代数据集比当初开发这些技术时使用的数据集复杂得多，也极不相同。简而言之，这些技术不是为现代数据集开发的。
没有完美的适用于所有数据集的统计技术，但有很多差的技术。
此外，由于不良的交叉验证高估了未来数据的预期提升值、实际的准确度，或训练集之外的真实投资回报率，从而使差的模型也能达标通过。良好的交叉验证包括以下方面。
将训练集拆分成多个子集（测试和控制子集）。
在控制集中放入不同类型的客户和比测试集更新的数据。
检查控制集中预测值的质量。
计算个别错误（错误定义为，比如真实值减去预测值）的置信区间，以确保错误足够小而且波动不大（在所有控制集上有小方差）。

本文选自《数据天才：数据科学家修炼之道》，点此链接可在博文视点官网查看此书。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

程序员健康指南

Joe Kutner / 陈少芸 / 人民邮电出版社 / 2014-9-20 / 31.60元

本书是为程序员量身制作的健康指南，针对头痛、眼部疲劳、背部疼痛和手腕疼痛等常见的问题，简要介绍了其成因、测试方法，并列出了每天的行动计划，从运动、饮食等方面给出详细指导，帮助程序员在不改变工作方式的情况下轻松拥有健康。本书适合程序员、长期伏案工作的其他人群以及所有关心健康的人士阅读。一起来看看《程序员健康指南》这本书的介绍吧!

码农工具