240万名演员职业生涯数据，揭露演艺圈“潜规则”

栏目: 数据库 · 发布时间: 6年前

内容简介：成功的背后，可否有通用的秘诀？从前这是一个哲学之问，但随着海量的数据被挖掘，被结构化，关于成功的科学（Science of Success）开始变成一门显学。从科学家，艺术家到后来的初创企业、体育明星，成功背后的规律被不断挖掘出来。而今年6月在 Nature Communication 上发表的新文将研究对象扩展到了演员。

成功的背后，可否有通用的秘诀？从前这是一个哲学之问，但随着海量的数据被挖掘，被结构化，关于成功的科学（Science of Success）开始变成一门显学。从科学家，艺术家到后来的初创企业、体育明星，成功背后的规律被不断挖掘出来。而今年6月在 Nature Communication 上发表的新文将研究对象扩展到了演员。

Photo by James Kresser on Unsplash，本文来自微信公众号：集智俱乐部（ID：swarma_org），作者：郭瑞东

论文题目：Quantifying and predicting success in show business

论文地址：https://www.nature.com/articles/s41467-019-10213-0

寻求乐趣是人生活中的重要部分，在娱乐业蓬勃发展的当下，来自英国Queen Mary University的科学家们在 Nature Communication 上发表了一篇关于演艺生涯的大数据分析研究。论文分析和讨论了演员职业生涯背后的一些规律，它不仅值得科研从业者阅读，更值得关注演艺界的从业者与观众阅读。如果一家娱乐公司想用大数据来改善公司的运营，节约成本，做出严谨的选择。那么这篇文章能提供切实的建议。初入社会的演艺界新人想要了解行业全景，发展规律，也可以用文中的一些结论来帮助自己做出思考，权衡与取舍。

演艺从业者需要知道的职业规律

先上结论，文章对来自不同影视数据库的数据进行了分析，从影视数据库IMDB中列出的1888年到2016年来的所有电影电视节目中，汇总了约240万演员的职业生涯数据（其中男演员151万，女演员89万）得出了有关演员职业生涯的四条普遍规律。我们来看看结论：

大部分演员的职业生涯堪忧

有90%演员处在失业状态，只有2%的演员能够靠演员的收入实现经济独立。69%的男演员，68%的女演员的演员终生都只参演一部戏。“跑龙套”之后再无其他收入。

演艺界存在显著的马太效应

富者愈富，越是成名的演员，出演次数越多。演员的好年景和好年景往往聚在一起，而坏年景之后往往会接着是另一个坏年景。对他们来说，演技本身不一定意味着确定会成功，更主要的影响因素是在演艺圈的网络中处在的位置。

职业生涯早期更容易爆发式成功

不管男女，综观演员的职业生涯，一年能接到好几部戏的好事多半发生在职业生涯的早期。越是在职业生涯的后期，一年参演多部戏的几率越低，这个现象在女性演员身上尤其明显。

大数据预测能力有限

现阶段的信息无法准确预测职业演员的长期成就，一个演员出演几部戏和其演艺生涯的长度并不是相关的，这意味着不是坚持的越久，就越可能成为大明星。这同样意味着沉寂多年又重新回归的演员，究竟哪一年能够东山再起，也是无法预测的。

影视公司需要知道的行业规律

当前，能够采集到的数据远远比IMDB上提供的对过往电影的回溯性介绍要更具信息量，因此任何对规律的挖掘性尝试都是值得的。并且这些尝试能给人提供决策上的帮助。比如演员职业生涯预测，什么类型的演员更适合什么角色，观众有什么样的选择倾向。

最新的权威研究表明机器学习可以预测不同背景的演员，在职业生涯的什么时间段更有可能“成功”。该算法使用了一万五千名男演员，六千名女演员，从IMDB这个公开数据库网站整理出演出记录，进行训练。基于这个数据库的预每100次只有约15次会出错。这说明使用大数据去预测娱乐业从业者成功的可能性是可行的。

大数据能够预测成功可能性

具体来说，演艺公司可以预测哪些演员或者歌手具有更大的可能性走红；直播网站可以预测哪些主播在什么领域会火；视频网站也可以预测出潜在的大V在哪里，因而可以根据预测结果，优化，精准推广，最终提高用户的使用时间和满意度。

大数据能够揭示用户偏好

不止是预测谁会成功，还可以预测不同的演员在哪种类型的剧中更容易成功，更适合扮演反派还是正面角色什么话题更受观众欢迎。来自视频网站Netflex的案例提供了更进一步的，大数据能够预测用户的偏好，比如某些元素组合的戏能够大火，从而让开发商按图索骥的打造“纸牌屋”等一系列广受好评的美剧。

规律背后的大数据分析方法

如果你想知道研究中的细节与分析，那么你会对下面的内容感兴趣。论文使用的大数据分析能提供定量评价的视角。

在严谨的科学研究中衡量，评价演员的成功程度并不是一件易事。不像学术界，体育界，演艺界的观众们更倾向于依赖对演员的总体感受而不是某一方面的成就来做出评判。虽然IMDB数据库对每部电影有打分，但出演IMDB前250的影片，或者获得奥斯卡奖，在星光大道上留名却不像获得诺奖，学术奖项那样具备极其严谨的评判标准。同时，大部分演员的职业生涯中都会有很长的间隔，演艺界这种人气涨落却是常事，但是学术界很少会出现发了一篇文章后，好几年都不发第二篇文章的现象。

本文中用每年出演的次数来衡量演员生涯的成功程度，这种定义方法能够以一个统一的标准来评估不同年份不同类型的数据，是相对公平客观的。

下面来介绍一下文章中一些重要的分析过程。图1描述了一个演员的职业生涯，这些可直接获得的数据可以称为“一级数据”，有了它我们就能汇总出演员职业生涯的长度、参演总数、具有多少年演出记录等“二级数据”。而成功的科学研究，就是要在这些“二级数据”之间寻找相关性，确定能否通过“一级数据”去预测“二级数据”。

240万名演员职业生涯数据，揭露演艺圈“潜规则”

图1：演员职业生涯规律。图中的每个点代表一年，这个点上对应的数字代表Ta今年参演的次数。

当“二级数据”的样本量足够大时，“二级数据”的分布及对应统计指标就构成“三级数据”。这里样本越多，收集样本时采样越无偏，即“三级数据”越能代表真实情况。有了它，就有可能去验证在其他领域发现的规律是否具有普遍性。

老戏骨永远是少数

图2是由大量演员职业生涯长度汇总而来的“三级数据”，描述了职业生涯持续时间长度与之对应出现的概率。这张图中蓝线和黑线分别为女演员和男演员的职业生涯数据，展示了男女演员职业生涯长度规律相同的和相异的部分。这里需要注意的是，由于在曲线的开始阶段有所不同，女性拥有0-10年演艺生涯的可能性高于男性，因此在右上方对图中的横轴0-10的部分进行了缩放。

240万名演员职业生涯数据，揭露演艺圈“潜规则”

图2：演员职业生涯长度的分布。横轴是演员职业生涯的总时间，纵轴是该生涯长度的演员在群体中出现的概率。

两性演员具有不同的“待机”模式

在下面的分析中，为了使短间隔的数据更容易阅读，论文作者换用柱状图来展示数据。如图3所示，他们首先随机化演员两部戏之间的等待时间数据，创建了一个假想的等待时间分布Pnull(τ）作为对照的基准。然后将演员根据性别分类，分别展示两性演员与假想等待时间之间的区别。除以模拟的等待时间，得到相对偏差幅度。从而，我们就可以看出男女演员在等待时间上呈现出的明显的差异。

其中男性演员拥有一年等待时间的可能性比女性低，女性演员更容易在投演一部戏后马上加入下一部，但是如果时间线拉长到两年及以上，情况则正好相反。销声匿迹一段时间后的男性演员比女性演员更容易回归演艺圈。证明长时间的“待机”对女性演员的职业生涯威胁更大。侧面论证了女性演员的职业黄金时间集中在职业生涯的前期。

240万名演员职业生涯数据，揭露演艺圈“潜规则”

图3：等待时间τ的差异分布

“奇迹年”赶早不赶晚

下图图4展示了演员的“奇迹年”，既高产阶段发生时间的分布，这种现象倾向于发生在早期而不是晚期，也就是人们常说的“出名要趁早。”

240万名演员职业生涯数据，揭露演艺圈“潜规则”

图4：演员生涯的奇迹年时间分布

奇迹是可预测的

如图5，虽然演员职业生涯的成功存在巨大的不可预测性，但是职业演员职业生涯中的“奇迹年”现象却有一些发生规律。在科研领域中，科学家最有影响力的论文似乎在他职业生涯的任何阶段都有可能出现。但是演员的职业生涯平均规律则显示，演员的演出数量会出现在一段时间内的骤增，然后再次下降。

如图所示，一个演员，事业的“奇迹年”前有明显的事业上升和下降。和不考虑时间相关性的随机模型对比，这种奇迹年的出现和消失是具备演出数量变动的前兆的。由此，娱乐产业就可以预测某个演员是否会在短期内迎来巅峰。

240万名演员职业生涯数据，揭露演艺圈“潜规则”

图5：可预测的奇迹年。图中的纵轴表示在这一年间出演的角色总量，横轴表示距离奇迹年的时间距离。

预测质量——算法的误差分析

最后说说论文算法质量的评价方法。算法的效率由准确率，找回率，F1等指标衡量。但本篇文章这类判断真假的计算更应注意错误的类型和来源，这篇研究使用一个二分类算法，其中的假阳性指的是模型预测的成功年份没有出现，即统计学中的第一类错误；假阴性是没有预测出的成功年份，即统计学第二类错误。将假阳性和假阴性按纵轴频率，横轴预测与真实的差异画直方图，可以看出代表假阳性的黄色在分布上明显大于代表假阴性的灰色。

240万名演员职业生涯数据，揭露演艺圈“潜规则”

图6：预测结果的误差分析

这两张图可以说明两个结论：首先，模型预测给出的成功年份倾向于比真实的成功年份早一些，说明预测模型的假阳性来自数据集本身的特点，如果是特定算法导致的错误，那假阳性和假阴性的数据应该呈现相似的分布。而对于假阴性的分析，这里分布接近正态分布，这暗示着在较长的尺度上，下一年是否成功，是随机的。

回顾全文，作者文中虽指出演艺界的成功和演技之间未发现明确联系，这个结论却缺少论证。参考王大顺团队近期的成果，研究了那些获得杰出成就的科学家的职业生涯。如果拿每年奥斯卡的最佳男女主角配角，再加上金球奖，戛纳威尼斯等几个欧洲电影节的奖项，来定义演技突出的演员，研究一小群演技杰出的演员的职业生涯相对平均水平的演员有什么特殊点，也许以揭示出演员演技对职业生涯的影响。

本文来自微信公众号：集智俱乐部（ID：swarma_org），作者：郭瑞东，编辑：陈曦、王怡蔺

*文章为作者独立观点，不代表虎嗅网立场

本文由集智俱乐部授权虎嗅网发表，并经虎嗅网编辑。转载此文章须经作者同意，并请附上出处(虎嗅网)及本页链接。原文链接：https://www.huxiu.com/article/305314.html

未来面前，你我还都是孩子，还不去下载虎嗅App猛嗅创新！

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Natural Language Processing with Python

Steven Bird、Ewan Klein、Edward Loper / O'Reilly Media / 2009-7-10 / USD 44.99

This book offers a highly accessible introduction to Natural Language Processing, the field that underpins a variety of language technologies, ranging from predictive text and email filtering to autom......一起来看看《Natural Language Processing with Python》这本书的介绍吧!

码农工具

JSON 在线解析

在线 JSON 格式化工具

RGB HSV 转换

RGB HSV 互转工具