集体智慧编程

集体智慧编程

出版信息

Toby Segaran / 莫映、王开福 / 电子工业出版社 / 2015-3 / 79.00元

内容简介

《集体智慧编程》以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web 上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web 网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。

《集体智慧编程》是Web 开发者、架构师、应用工程师等的绝佳选择。

作者简介

Toby Segaran是Genstruct公司的软件开发主管,这家公司涉足计算生物领域,他本人的职责是设计算法,并利用数据挖掘技术来辅助了解药品机理。Toby Segaran还为其他几家公司和数个开源项目服务,帮助它们从收集到的数据当中分析并发掘价值。除此以外,Toby Segaran还建立了几个免费的网站应用,包括流行的tasktoy和Lazybase。他非常喜欢滑雪与品酒,其博客地址是blog.kiwitobes.com,现居于旧金山。

目录

前言.................................................................................................................... viii
第1章 集体智慧导言......................................................................................... 1
什么是集体智慧......................................................................................................................2
什么是机器学习......................................................................................................................3
机器学习的局限......................................................................................................................4
真实生活中的例子..................................................................................................................5
学习型算法的其他用途..........................................................................................................5
第2章 提供推荐................................................................................................ 7
协作型过滤..............................................................................................................................7
搜集偏好.................................................................................................................................8
寻找相近的用户......................................................................................................................9
推荐物品...............................................................................................................................15
匹配商品...............................................................................................................................17
构建一个基于del.icio.us的链接推荐系统..........................................................................19
基于物品的过滤....................................................................................................................22
使用MovieLens数据集........................................................................................................25
基于用户进行过滤还是基于物品进行过滤........................................................................27
练习.......................................................................................................................................28
第3章 发现群组.............................................................................................. 29
监督学习和无监督学习........................................................................................................29
单词向量...............................................................................................................................30
分级聚类...............................................................................................................................33
绘制树状图............................................................................................................................38
列聚类...................................................................................................................................40
K-均值聚类............................................................................................................................42
针对偏好的聚类....................................................................................................................44
以二维形式展现数据............................................................................................................49
有关聚类的其他事宜............................................................................................................53
练习.......................................................................................................................................53
第4章 搜索与排名.......................................................................................... 54
搜索引擎的组成....................................................................................................................54
一个简单的爬虫程序............................................................................................................56
建立索引...............................................................................................................................58
查询.......................................................................................................................................63
基于内容的排名....................................................................................................................64
利用外部回指链接................................................................................................................69
从点击行为中学习................................................................................................................74
练习.......................................................................................................................................84
第5章 优化..................................................................................................... 86
组团旅游...............................................................................................................................87
描述题解...............................................................................................................................88
成本函数...............................................................................................................................89
随机搜索...............................................................................................................................91
爬山法...................................................................................................................................92
模拟退火算法........................................................................................................................95
遗传算法...............................................................................................................................97
真实的航班搜索..................................................................................................................101
涉及偏好的优化..................................................................................................................106
网络可视化..........................................................................................................................110
其他可能的应用场合..........................................................................................................115
练习.....................................................................................................................................116
第6章 文档过滤.............................................................................................117
过滤垃圾信息......................................................................................................................117
文档和单词..........................................................................................................................118
对分类器进行训练..............................................................................................................119
计算概率..............................................................................................................................121
朴素分类器..........................................................................................................................123
费舍尔方法..........................................................................................................................127
将经过训练的分类器持久化..............................................................................................132
过滤博客订阅源..................................................................................................................134
对特征检测的改进..............................................................................................................136
使用Akismet........................................................................................................................138
替代方法..............................................................................................................................139
练习.....................................................................................................................................140
第7章 决策树建模........................................................................................ 142
预测注册用户......................................................................................................................142
引入决策树..........................................................................................................................144
对树进行训练......................................................................................................................145
选择最合适的拆分方案......................................................................................................147
以递归方式构造树..............................................................................................................149
决策树的显示......................................................................................................................151
对新的观测数据进行分类..................................................................................................153
决策树的剪枝......................................................................................................................154
处理缺失数据......................................................................................................................156
处理数值型结果..................................................................................................................158
对住房价格进行建模..........................................................................................................158
对“热度”评价进行建模..................................................................................................161
什么时候使用决策树..........................................................................................................164
练习.....................................................................................................................................165
第8章 构建价格模型..................................................................................... 167
构造一个样本数据集..........................................................................................................167
k-最近邻算法.......................................................................................................................169
为近邻分配权重..................................................................................................................172
交叉验证..............................................................................................................................176
不同类型的变量..................................................................................................................178
对缩放结果进行优化..........................................................................................................181
不对称分布..........................................................................................................................183
使用真实数据——eBay API...............................................................................................189
何时使用k-最近邻算法......................................................................................................195
练习.....................................................................................................................................196
第9章 高阶分类:核方法与SVM ................................................................. 197
婚介数据集..........................................................................................................................197
数据中的难点......................................................................................................................199
基本的线性分类..................................................................................................................202
分类特征..............................................................................................................................205
对数据进行缩放处理..........................................................................................................209
理解核方法..........................................................................................................................211
支持向量机..........................................................................................................................215
使用LIBSVM......................................................................................................................217
基于Facebook的匹配........................................................................................................219
练习.....................................................................................................................................225
第10章 寻找独立特征................................................................................... 226
搜集一组新闻......................................................................................................................227
先前的方法..........................................................................................................................231
非负矩阵因式分解..............................................................................................................232
结果呈现..............................................................................................................................240
利用股票市场的数据..........................................................................................................243
练习.....................................................................................................................................248
第11章 智能进化.......................................................................................... 250
什么是遗传编程..................................................................................................................250
将程序以树形方式表示......................................................................................................253
构造初始种群......................................................................................................................257
测试题解..............................................................................................................................259
对程序进行变异..................................................................................................................260
交叉.....................................................................................................................................263
构筑环境..............................................................................................................................265
一个简单的游戏..................................................................................................................268
更多可能性..........................................................................................................................273
练习.....................................................................................................................................276
第12章 算法总结.......................................................................................... 277
贝叶斯分类器......................................................................................................................277
决策树分类器......................................................................................................................281
神经网络..............................................................................................................................285
支持向量机..........................................................................................................................289
k-最近邻...............................................................................................................................293
聚类.....................................................................................................................................296
多维缩放..............................................................................................................................300
非负矩阵因式分解..............................................................................................................302
优化.....................................................................................................................................304
附录A:第三方函数库..................................................................................... 309
附录B:数学公式............................................................................................. 316
索引.................................................................................................................. 323

本文地址:https://www.codercto.com/books/d/1026.html

JSON 在线解析

JSON 在线解析

在线 JSON 格式化工具

在线进制转换器

在线进制转换器

各进制数互转换器

Markdown 在线编辑器

Markdown 在线编辑器

Markdown 在线编辑器