内容简介:大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络世界数据进行研究,面临两大难点:数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。爬虫市面上有很多爬虫课,这里我们举文本分析的一个应用。
在过去的两年间,Python一路高歌猛进,成功窜上“最火编程语言”的宝座。 惊奇的是使用 Python 最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有 经济学、管理学、会计学、社会学、传播学、新闻学 等等。
大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络世界数据进行研究,面临两大难点:
-
数据的获取
-
文本(非结构化)数据的处理与分析
数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。爬虫市面上有很多爬虫课,这里我们举文本分析的一个应用。 使用Python 可以帮助我们加速洞察的 广度和速度 ,假设你需要研究几千家公司数十年的报告,需要你标记出
-
公司发生重大政策变化的年份
-
外部环境发生重大变化的年份
如果靠人工去挖掘这两类信息,很难,不具有可实施性。但熟悉Python的人, 会借助Pandas粗略的绘制出每一个公司年报前后年份的相似性曲线 ,再用人工去读图。就会很快的识别出或政策或环境发生变化的时间点。
上图是 Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. Lazy prices . No. w25084. National Bureau of Economic Research, 2018.
文中的一图。我们知道 前后年份年报相似性越小,说明该年份前后发生了很大的改变 。图中红色位置很辣眼睛,每家公司的海量的年报只需简单的读图就帮我们快速锁定2010年前后报告中含有某些重大变故,在这个案例中,工作效率说提高几十倍应该是妥妥的。
课程目录
第一节 简介
课程介绍
课程知识点分布
第二节 环境配置
Mac环境配置
Windows环境配置
pip安装问题解决办法
jupyter notebook使用方法
第三节 python基本语法
python跟英文一样也是一门语言,这很文科
字符串
列表
元组
字典
集合
if条件语句
for循环语句
try-except异常处理语句
第四节 python高级语法
切片-对想要的数据字段进行切片
列表推导式
函数
csv文件存储库
os文件路径操作库
re正则表达式(文本分析利器)
python初学者常见错误
第五节 网络爬虫原理
理解访问与请求
寻求网址规律
开发者 工具 的使用
requests访问库
pyquery网页解析定位库
第六节 网络爬虫实战
静态网站-天涯论坛
静态网站-大众点评
静态网站-boss直聘
动态网站-百度企业信用
动态网站-京东评论
动态网站-B站弹幕
动态网站-B站评论
如何用pandas采集网页中的表格数据
第七节 初识文本分析
如何从不同格式的文件中读取数据
jieba分词、词频统计与可视化
海量公司年报的情感分析(中文)
英文数据的情感分析
如何对excel、csv文件做数据分析(pandas数据分析库)
第八节 文本分析与机器学习
机器学习概论
用机器学习做文本分析的步骤
机器学习库scikit-learn
文本特征工程(描述数据的方式)
在线评论情感分类
了解聚类Kmeans算法
文本相似度计算
LDA话题模型
文本分析在经管研究中的应用案例
相关文献
了解文本分析在经管研究中使用情况,可以参考
-
沈艳,陈赟,黄卓.文本大数据分析在经济学和金融学中的应用:一个文献综述[EB/OL].http://www.ccer.pku.edu.cn/yjcg/tlg/242968.htm,2018-11-19
-
Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. Journal of Accounting Research, 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics
-
Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight." Journal of Marketing (2019): 0022242919873106.
-
孟庆斌, 杨俊华, 鲁冰. 管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. 中国工业经济, 2017 (12): 132-150.
-
王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.管理世界.2016;5:81-98.
-
Hansen S, McMahon M. Shocking language: Understanding the macroeconomic effects of central bank communication[J]. Journal of International Economics, 2016, 99: S114-S133.
-
Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." Information Systems Research 29.2 (2018): 273-291.
课程入口
以上所述就是小编给大家介绍的《[限时优惠]Python大数据分析与文本挖掘实战》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- 记一次上古项目的限时开发
- 最新Java高级架构师图集!需要的限时免费领取
- 免费!!3天直播外加19个视频,妥妥搞懂ZooKeeper!(限时领)
- Azure Pipelines为开源项目提供不限时CI/CD服务
- PyTorch官方教程书限时免费!500页内容带你上手最流行框架
- UWA GOT (Online) 发布—限时免费 | 项目本地随时测,报告线上即时看
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
深入理解计算机系统(英文版·第2版)
[美] Randal E. Bryant、[美] David R. O'Hallaron / 机械工业出版社 / 2011-1 / 128.00元
本书是一本将计算机软件和硬件理论结合讲述的经典教程,内容覆盖计算机导论、体系结构和处理器设计等多门课程。本书的最大优点是为程序员描述计算机系统的实现细节,通过描述程序是如何映射到系统上,以及程序是如何执行的,使读者更好地理解程序的行为为什么是这样的,以及造成效率低下的原因。 相对于第1版,本版主要是反映了过去十年间硬件技术和编译器的变化,具体更新如下: 1. 对系统的介绍(特别是实际使......一起来看看 《深入理解计算机系统(英文版·第2版)》 这本书的介绍吧!