内容简介:Stata & Python 实证前沿与爬虫分析2019年暑期工作坊1
相约钱塘江畔,研讨经济计量
Stata & Python 实证前沿与爬虫分析2019年暑期工作坊
1
工作坊信息
· 工作坊简介
为推动我国经济、统计等社会科学量化研究方法学习与应用,培养和训练社会科学相关领域的青年学者、硕博士研究生,促进社会科学相关领域研究方法科学化规范化,《 Stata & Python 实证前沿与爬虫分析暑期工作坊》提供一个高水平的学术交流、研究方法普及与研究经验分享的学术平台。工作坊采用模块式教学方法,不仅侧重经济、统计等社会科学量化基本方法的介绍,而且更加注重研究设计与研究选题训练,注重理论与实践相结合,培养学员的社会科学量化分析研究的综合能力。
经济学研究正经历大转型:最前沿研究越来越少依赖于个别脑力超群学者发展的数学模型,而更多取决于从不断增长的数据中挖掘真知灼见的能力 。克拉克奖60%的获得者后来都获得诺贝尔经济学奖,他们主要研究领域变化很大程度上反映经济学科发展趋势。1995年以前,80%获得者主要研究领域为理论,20%为实证。1996-2005年,主要研究领域为理论获奖者比例降至50%,主要研究领域为实证的获奖者比例增至50%。2006-2016年,只有33%获奖者主要研究领域为理论,其余67%均为实证。 克拉克奖获得者主要研究领域已由理论转为实证,经济研究前沿主要以数据来验证理论 ,较少出现新理论创新。
计算机的迅速发展,更加促进了以数据分析见长的计量经济学的发展。比如Stata软件功能日益强大,并不断开发新程序,以将 最常 用、最流行、最新计量方法推广应用,大幅提高数据分析效果 。 大数据时代到来,网络数据正成为潜在宝藏 ,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用 网络数据进行研究,面临两大难点-数据获取与文本分析 。数据获取需要借助 Python 编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。
前沿分析固然可能会给你的Paper加分,但不理解其假设,也不知道如何检验假设?在假设得不到满足时也不知道如何用更高级方法去控制?那么会导致前沿方法的滥用!会使你的研究大为失色!为此, 邀请三位走在微观计量前沿和爬虫文本分析的学者,为青年教师、研究生们集中讲解前沿模型的基本思想、基于Stata和Python实操估计,并就研究设计、论文选题、国家课题申报等展开辅导和释疑,帮助大家了解数据采集和文本分析 。
本课程结合案例,将每部分中学到的知识通过实战方式加深各位对知识的理解,具有极强实用性,内容涵盖了数据分析比较重要和前沿的几个方面。例如江艇老师在前次寒假工作坊关于识别匹配的讲解,让学员有茅塞顿开的感觉;慧航老师与学员分享了最近几个月的最新研究。本次工作坊二位老师又有 新的讲解内容与大家分享,给学员带来可能未见或不熟悉的最新微观数据因果识别技术 。新加盟工作坊的邓老师乃活跃在 国内爬虫文本分析领域的青年学者,为学员带来新的爬虫文本分析技术 。根据形势发展需要,工作坊将继续根据各界反馈筹划新的论文撰写与课题申报等期次。
· 工作坊特色
方法应用为基 :讲解经济、统计、管理等科学量化前沿方法的机理与Stata & Python实操
经典论文复制 :讲解高质量经典论文如何使用前沿量化方法
突出研究设计 :突出量化方法和经典论文背后的精巧研究设计
强化互动交流 :强化讲师与学员之间的工作论文和研究计划交流
2
主讲嘉宾简介
江艇: 香港科技大学商学院经济学博士,中国人民大学经济学院副教授,人大国家发展与战略研究院研究员,人大微观数据与实证方法研究中心副主任,美国哥伦比亚大学商学院访问学者。主要研究领域为经济增长与发展、城市经济学、新政治经济学,在Economics Letters、Review of Development Economics、《经济研究》、《管理世界》、《世界经济》等国内外著名学术刊物上发表多篇论文。曾应邀在多所高校讲授“应用微观计量经济学”短期前沿课程,学员反响热烈。
司继春 (慧航): 上海对外经贸大学统计与信息学院助理教授,主要研究领域为微观计量经济学、产业组织理论。在 Journal of Business and Economic Statistics、《财经研究》等学术刊物上发表多篇论文。其实,大家更熟悉的是知乎上大名鼎鼎的[慧航],拥有 219,753 个关注者,获得过 110,578 次赞同,他就是司继春老师 —— [慧航]。
邓旭东(大邓): 哈尔滨工业大学(HIT)管理学院信息管理系统方向在读博士。曾在多所大学分享数据采集和文本分析培训课程,运营【公众号:大邓和他的Python】主要分享Python、爬虫、文本分析、机器学习等相关内容。
3
课程安排
Day 1 上午
主讲人:江艇
课程安排:《匹配方法(上)》
1、如何从反事实框架理解匹配方法?
2、匹配能解决内生性问题么?
3、匹配与OLS的区别何在?
4、为什么说匹配的本质是良好的控制?
5、匹配是一种估计方法还是一种数据预处理手段?
重点文献:Dale and Krueger (2002), Imbens (2015)等,Stata实操
Day 1 下午
主讲人:江艇
课程安排:《匹配方法(下)》
1、如 何选择协变量?
2、如何估计倾向得分?
3、如何删截样本?
4、如何构造匹配样本?
5、应该用协变量匹配还是倾向得分匹配?
重点文献:Aidt &Franck (2015), Dehejia and Wahba (1999, 2002)等, Stata实操
Day 2 上午
主讲人:江艇
课程安排:《双重差分方法(上)》
1、双重差分要求随机分组么?
2、如何根据不同的数据结构设定不同的估计方程?
3、双重差分方法的威胁有哪些?
4、如何展示和解释结果?
5、如何进行稳健性分析?
重点文献:Card & Krueger (1994), Nunn & Qian (2011), Qian (2008)等,Stata实操
Day 2 下午
主讲人:江艇
课程安排:《双重差分方法(下)》、《合成控制方法》
1、双重差分方法与匹配方法的结合
2、半参数双重差分方法
3、模糊双重差分方法
4、单个处理组个体的合成控制方法
5、多个处理组个体的合成控制方法
重点文献:Abadie (2005), Abadie et al (2010), Abadie et al (2015), Acemoglu et al (2016), de Chaisemartin and D’HaultfŒuille (2018), Derrien and Kecskes (2013), Fowlie et al (2012)等, Stata实操
Day 3 上午
主讲人:司继春(慧航)
课程安排:《统计基础与机器学习》
1、条件期望的概念和应用
2、如何估计条件期望1:OLS
3、预测:过拟合、欠拟合与交叉验证
4、如何估计条件期望2:广义线性模型
5、离散选择模型:Probit、Logit回归与分类树
学习材料:Wooldridge(2010)、周志华(2016)等,Python等实操
Day 3 下午
主讲人:司继春(慧航)
课程安排:《外生性条件下的推断》
1、作为因果推断的OLS:控制变量与固定效应
2、作为因果推断的OLS:系数的解释
3、作为因果推断的OLS:标准误的估计与统计推断
4、计量经济学中的离散选择模型:理论基础与解释
5、面板数据:固定效应、随机效应、交互固定效应
6、面板数据离散选择模型介绍
学习材料:Wooldridge(2010)、Train(2009)等,Stata实操
Day 4 上午
主讲人:司继春(慧航)
课程安排:《内生性条件下的推断》
1、内生性问题:何时出现内生性?
2、 工具 变量法:两阶段最小二乘
3、工具变量法:控制函数法
4、使用控制函数法解决非线性模型中的内生性
5、局部平均处理效应(LATE)
学习材料:Imbens and Angrit(1004)、Wooldridge(2010)等,Stata实操
Day 4 下午
主讲人:司继春(慧航)
课程安排:《非线性模型与结构模型前沿选讲》
1、样本选择模型
2、半结构的政策评价:充分统计量简介
3、需求估计:几乎完美的需求系统(AIDS)介绍
4、需求估计:离散选择模型
5、动态规划与动态离散选择模型(DDC)介绍
重点文献:Wooldridge(2010)、Train(2009)、Chetty(2009)、Deaton and Muellbauer(1980)、Rust(1987)等,Python & Matlab实操
Day 5 上午
主讲人:邓旭东(大邓)
课程安排:《Python基础语法》
1、Anaconda安装及使用;Jupyter notebook使用方法;第三方库安装方法
2、初识python(python语法)
3、数据结构(编程语言的单词)-list、str、dict、tuple、set
4、for循环、if逻辑 try-except (编程语言中的句法)
5、常用函数、常用库
Day 5 下午
主讲人:邓旭东(大邓)
课程安排:《数据采集-Python网络爬虫》
1、爬虫原理、设计思路;数据抓包(开发者工具使用方法)
2、网络访问库(requests、selenium);网页数据定位库-bs4、re
3、静态网站与动态网站区别
4、数据存储(txt,csv,json)
5 、案例
例1:(静态)抓取大众点评网酒店数据;
例2:(动态)淘宝商品商品信息
例3:selenium抓取百度企业信用
Day 6 上午
主讲人:邓旭东(大邓)
课程安排:《初识文本分析 》
1、文本分析应用场景;文件的读取(txt、pdf、docx等)
2、中文分词-jieba库;数据清洗-re、flashtext;pyecharts库制作词云图
3、数据分析-pandas库
4、可视化库-matplotlib/seaborn
5、案例
例1:词频统计
例2:excel文件中时间及文本数据处理方法
例3:共现法构建专业情感词典
例4:基于词典法进行情感计算
重点文献:王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.管理世界.2016;5:81-98.
Day 6 下午
主讲人:邓旭东(大邓)
课程安排:《文本分析(数据分析)进阶》
1、监督学习与非监督学习
2、使用机器学习方法进行文本分析的方法和步骤
3、表达文本数据信息的方式(one-hot、bag-of-words、TF-IDF)
4、理解特征矩阵、语料、文档、特征
5、机器学习库 sklearn语法学习
6、协同过滤-推荐系统
7、案例
例1:lda话题模型实战
例2:文本分类实战
重点文献:Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." Information Systems Research 29.2 (2018): 273-291.
4
课程概览
· 主办 : 杭州国商智库信息技术服务有限公司
· 时间:2019年7月13-18日
· 地点:浙江 · 杭州 · 钱塘新区高教园区东区
· 主讲嘉宾:江艇;司继春(慧航);邓旭东(大邓)
· 授课内容 :Stata & Python 实证前沿与爬虫分析
5
报名信息
参加对象 : 全国高等院校及研究机构从事经济科学研究的青年教师。尤其适合那些希望掌握高级实证方法,提升量化研究设计能力和国家课题申报能力的研究者。
参会费用 : 4800元/人,可开具发票。交通与食宿费自理,提供 歌江维嘉大酒店 周边住宿信息,并协助安排附近校内就餐事宜。同一单位或机构三人九折,五人八折,同一单位十人七五折(同一税号单位),在校学生可凭学生证补贴折扣200元/人。
住宿安排: 工作坊签约四星级酒店,标间或大床房每天约350元,含自助早餐;或附近旅馆标间、大床房每天约200元。
报名时间: 从即日起( 按缴费顺序安排教室座位 )。
报名咨询 : 19817117852;18458247922
交通路线指南 :杭州东站搭乘地铁1号线 下沙江滨方向 (注意不要选择间隔的临 平方向 ),40分钟即达报到地点: 钱塘新区高教园区东区 27号大街301号(地铁1号线云水站旁)歌江维嘉大酒店 ; 在萧山国际机场打的约半小时到达 钱塘新区高教园区东区 歌江维嘉大酒店 。
缴费信息 :
单位:杭州国商智库信息技术服务有限公司
开户银行: 中国银行杭州大学城支行
银行账户:6232636200100260588
特别提示: 为不影响各单位、老师、同学的日常工作和学习,工作坊安排在假期举办。如果一些机构暑假期间暂停财务工作,建议拟报名同学老师在之前办理相关事项,报到则可拿到发票,以免等到秋季开学办理而可能有所影响相关程序。
扫描下方二维码报名(请注明:单位—姓名),提供参 会人员个人信息、单位相关信息后缴费。
下载报名材料:
链接:https://pan.baidu.com/s/1bjZUPwHYjAjM2XbcLIhH7Q
提取码:d4zj
请扫码关注我们!
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 预备通知 | stata & Python实证前沿与爬虫分析2019年工作坊
- 假设和实证(200425)
- 实证(10.22)
- 单点登出,你在哪儿?一个基于Web的SSO账户劫持与会话管理的实证分析
- 爬虫需谨慎,那些你不知道的爬虫与反爬虫套路!
- 反爬虫之字体反爬虫
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Spark SQL内核剖析
朱锋、张韶全、黄明 / 电子工业出版社 / 2018-8 / 69.00元
Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregation 算......一起来看看 《Spark SQL内核剖析》 这本书的介绍吧!