内容简介:作者 | Yura
作者 | Yura
责编 | 胡巍巍
钱钟书说,有鸡鸭的地方粪多,有女人的地方话多。那么,女生之间到底都在讨论些什么东西?
今天,笔者将带大家挖掘一下自己与另外两个好友的微信群聊中蕴含的有趣信息。
首先看到,我们的群名是“新世纪独立女性养成研究所”,我们的口号是“男人都是大猪蹄子”!两位好友分别是“润贻”和不愿意透露姓名的“美少女”同学(不慌,文末有惊喜,嘻嘻)。
工具: Excel、R语言
数据收集
本次分析总共摘取了微信群从2018年3月9日至2018年7月30日共计144天的聊天内容,感谢淘宝卖家提供给我的强大工具“苹果恢复大师”,在经过将近一小时的扫描备份之后,抓取了比较满意的内容,包括文本信息、图片、语音、视频甚至链接等大部分信息。
数据清洗
老师果然没骗我,在一次数据分析的项目中,数据清洗至少要占80%的时间,我用实际行动为老师提供了又一个血淋淋的真实案例。
一开始我想得很简单,希望能做出一个漂亮的词云。这就需要删除文本信息中一些链接和图片等“乱码”,不过在删除过程中,我发现乱码也有一些信息可挖掘(等下再说),于是我边删除边记录,也得到了不少意料之外的收获。这两个小时也是值得的!
数据分析和可视化
1.聊天频率分析
首先我们来看一下,在这144天3456小时207360分钟之内,我们一共产生了几条消息:
你没看错,我们约以4分钟一条消息的速度产生信息。本人,很光荣地,以39%的比例荣获本群“话痨”称号。
但是我们可以看到我们三个人的发言频率大致相似,用行业话来说就是方差较小。
但在真实生活中,认识我们仨的共同好友肯定不会给我们的文静/活泼程度打上差不多的分数。这可以侧面反映:
无论你在陌生人面前是谈笑自如还是静如瘫痪,在熟人面人必然会露出“动如癫痫”的本态。(敲黑板,记重点!)
更可怕的是,当我统计分析聊天日期levels长度的时候,我发现我们在144天内竟然讲了144天的话,也就是说,这个群没有一天是安静的。
如果这个群有第四个人存在的话,那TA肯定会被吵死......
不过,根据我上文的规律,我觉得TA加入我们的“叽叽喳喳”的行列之中的可能性更大。
再来看我们整体的聊天频率:
从上图可知,我们的聊天频率,真的比股票还稳呀!
三月偏低是因为我的聊天记录是从3月9日开始记录的,如果加上3月1日到3月8日这9天时间,应该会上升一点。
至于六月份的略微下滑,我只能(假装)归结于我们这个月减少了百分之十的聊天时间,去复习期末考啦!
再具体到天:
我们在3月12日的聊天频率是最高的。
这究竟是什么特殊的日子?
原来润贻同学在这一天做出了尝试申请去德国交换学习的决定!因为我有经验,她就问了我许多相关的问题。
接下来我们从学习谈到了人生,谈了以后的工作,幻想如何成为富婆,最后以相约打耳洞结束......
不知道大家有没有发现,我们在聊天的时候,经常是这一秒忘了上一分钟说了什么话题。翻翻聊天记录,我经常的内心os是:“嗯?为什么突然说到这?卧槽,这也能扯到?!”当时的心路历程恐怕不是几段跳跃的聊天记录文字能够回忆起来的。所以说:女生之间的聊天话题总是飞崖式跳跃的。(第二条规律了!)那么我们在一天中的哪个时间段聊天频率最高呢?
上图是我按照聊天小时来统计的,可以看到,中午休息和晚上睡前是我们聊天频率的高峰期。这也很合理,大家都是学生嘛, 白天总是有课要上。
但是我就想不明白了。为什么凌晨两点三点四点五点,也都是有数据的呢?
上图看似是0,其实,下图才是真相:
可能......嗯......是有人睡不着,在群里大发“我失眠了!怎么办?”之类的牢骚吧......
2.聊天内容分析
分析完了聊天频率,下面看一看我们这一天天的,到底聊了啥?
今天推荐这首歌,前奏感人!
这条微博好好笑,快看!
快看这个抖音,哈哈哈哈。
这件衣服怎么样,你们帮我看看!
以上,就是我们肤浅而真实的日常(微笑)
不过仔细看看,从中我们可以悄悄地分析出:
-
我和润贻同学是淘宝的常客;
-
美少女同学有一段时间沉迷抖音( 因为虽然比重大,但是频次不高 );
-
润贻同学很喜欢刷微博消磨时间;
-
我们三个都是音乐girl( hey yo, what's up! );
除了这些官方链接,我们还共享了屏幕截图6594次。
这里虽然无具体统计,但是作为当事人我可以肯定地告诉大家:
百分之九十的屏幕截图都是聊天记录截图,其中百分之八十都是为了吐槽被截图的人。(原因?没法解释)
我们再来看一看我们的聊天方式的不同,有些人享受打字的快感(我本人),有些人觉得语音比较方便(美少女无疑了),有些人却觉得直接拍个图片或者视频更直观。
从某方面来,聊天方式说能反映一个人的行事特点。(具体请咨询心理专家)下面瞧一瞧我们聊天的默认表情包top10:自定义表情包太多了,分析起来难度较大,下次有空再试。
作为九零后老阿姨们,年轻人表情包的步伐是跟不上了,偶尔返璞归真一下也是不错的。
从表情包top10中我们隐隐看到了三个老阿姨面对生活小挫折的一种欲哭无泪的无奈感,紧接着是情绪的失控,然后是淡然处之的微笑态度。当问题解决之后ok,旋转跳跃一下,顺便讲个笑话活跃下气氛(编不下去了)
说了这么多七七八八的内容,我好像还没有真正涉及到我们的聊天内容,大家别急,马上来!
经过筛选之后,我们得到的高频词的词云如下( 形状越大表明出现频率越高) :
正如我朋友圈所言:
再看看词高频名词top5和高频动词top5:
很欣慰!我们除了“吃”“这项人类生存基本需求和“买”这项女生基本生存需求,作为学生还会经常“想”和"说”有关“老师”“学校”和“室友”的优秀话题。
其中出现了一个比较有趣的关键词——杭州,有点怪异,但其实又在情理之中。因为我们三个有一个是在杭州上学的,有一个是想要去杭州求职的,自然提到的次数就有点高了(毕竟我们是爱学习爱工作经常思考未来的新世纪独立女性,耶)。
最后,欣赏一下我们的个人词云( 为了美观,删去了特别高频的“哈哈哈”“哈哈哈哈”“男朋友”等关键字啦 )。
重要鸣谢!!!最后的最后,感谢润贻同学和美少女允许我使用宝贵的聊天记录,笔芯两位小可爱!喔,我也可爱。
作者:Yura,计算机科学与技术专业大四在读,因在澳洲交换学习接触了大数据,甚感兴趣。遂开公众号“Yura不说数据说”督促自己学习数据分析!欢迎大家关注我的个人公众号,一起(监督我)学习。
推荐阅读:
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 面试就像谈恋爱,“一见钟情”很重要!
- 炫酷粒子表白 | 听说女神都想谈恋爱了!
- 和程序员谈恋爱感动不?不敢动不敢动丨520特辑
- MQTT Essential 细节笔记总结(深入理解MQTT细节)
- MetInfo 7.0.0 20200326 细节优化补丁,主要优化商城相关细节
- MetInfo7.0.0 20200407 细节优化补丁,修复编辑及手机端细节
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
离心力:互联网历史与数字化未来
[英] 乔尼·赖安(Johnny Ryan) / 段铁铮 / 译言·东西文库/电子工业出版社 / 2018-2-1 / 68.00元
★一部详实、严谨的互联网史著作; ★哈佛、斯坦福等高校学生必读书目; ★《互联网的未来》作者乔纳森·L. 齐特雷恩,《独立报》《爱尔兰时报》等知名作者和国外媒体联合推荐。 【内容简介】 虽然互联网从诞生至今,不过是五六十年,但我们已然有必要整理其丰富的历史。未来的数字世界不仅取决于我 们的设想,也取决于它的发展历程,以及互联网伟大先驱们的理想和信念。 本书作者乔尼· ......一起来看看 《离心力:互联网历史与数字化未来》 这本书的介绍吧!