《全栈数据之门》以数据分析领域热门的Python语言为主要线索,介绍了数据分析库numpy、Pandas与机器学习库scikit-learn,应用了可视化环境Orange 3来理解算法的一些细节。对于机器学习,既有常用算法kNN与Kmeans的应用,决策树与随机森林的实战,还涉及常用特征工程与深度学习中的自动编程器。在大数据Hadoop与Hive环境的基础之上,应用Spark的ML/MLlib库集成了前面的各部分内容,让分布式机器学习更容易。大量的工具与技能实战的介绍将各部分融合成一个全栈的数据科学内容。

《全栈数据之门》不是从入门到精通地介绍某一种技术,可以把本书当成一本技术文集,内容定位于数据科学的全栈基础入门,全部内容来自当前业界实用的技能,有非常基础的,也有比较深入的,有些甚至需要深入领悟才能理解。

《全栈数据之门》适用于任何想在数据领域有所作为的人,包括学生、爱好者、在职人员与科研工作者。无论想从事数据分析、数据工程、数据挖掘或者机器学习,或许都能在书中找到一些之前没有接触过的内容。

目录

知识兔

前言 自强不息,厚德载物 / XIX
0x1 Linux,自由之光 / 001
0x10 Linux,你是我的眼 / 001
0x11 Linux 基础,从零开始 / 003
0x12 Sed 与Grep,文本处理 / 010
05 综合案例 / 016
0x13 数据工程,必备Shell / 018
0x14 Shell 快捷键,Emacs 之门 / 025
0x15 缘起Linux,一入Mac 误终身 / 032
0x16 大成就者,集群安装 / 036
0x2 Python,道法自然 / 045
0x20 Python,灵犀一指 / 045
0x21 Python 基础,兴趣为王 / 047
0x22 喜新厌旧,2 迁移3 / 056
0x23 Anaconda,IPython / 062
0x24 美不胜收,Python 工具 / 067
0x25 numpy 基础,线性代数 / 075
0x26 numpy 实战,PCA 降维 / 085
0x3 大数据,其大无外 / 093
0x30 太大数据,极生两仪 / 093
0x31 神象住世,Hadoop / 095
0x32 分治之美,MapReduce / 100
0x33 Hive 基础,蜂巢与仓库 / 106
0x34 Hive 深入,实战经验 / 115
0x35 HBase 库,实时业务 / 122
0x36 SQL 与NoSQL,Sqoop 为媒 / 130
0x4 数据分析,见微知著 / 141
0x40 大数据分析,鲁班为祖师 / 141
0x41 SQL 技能,必备MySQL / 143
0x42 快刀awk,斩乱数据 / 152
0x43 Pandas,数据之框 / 157
0x44 Zeppelin,一统江湖 / 166
0x45 数据分组,聚合窗口 / 177
0x46 全栈分析,六层内功 / 186
0x5 机器学习,人类失控 / 193
0x50 机器学习,琅琊论断 / 193
0x51 酸酸甜甜,Orange / 195
0x52 sklearn,机器学习 / 205
0x53 特征转换,量纲伸缩 / 211
0x54 描述统计,基础指标 / 220
0x55 模型评估,交叉验证 / 228
0x56 文本特征,词袋模型 / 234
0x6 算法预测,占天卜地 / 241
0x60 命由己做,福自己求 / 241
0x61 近朱者赤,相亲kNN / 243
0x62 物以类聚,Kmeans / 248
0x63 很傻很天真,朴素贝叶斯 / 257
0x64 菩提之树,决策姻缘 / 263
0x65 随机之美,随机森林 / 271
0x7 Spark,唯快不破 / 285
0x70 人生苦短,快用Spark / 285
0x71 PySpark 之门,强者联盟 / 287
0x72 RDD 算子,计算之魂 / 295
0x73 分布式SQL,蝶恋飞舞 / 304
0x75 神器之父,Scala 入世 / 319
0x8 数据科学,全栈智慧 / 337
0x80 才高八斗,共分天下 / 337
0x81 自学数据,神蟒领舞 / 339
0x82 数据科学,七大技能 / 343
0x83 大无所大,生态框架 / 348
0x84 集体智慧,失控哲学 / 354
0x85 一技之长,一生之用 / 359
0x86 知识作谱,数据为栈 / 363

下载体验

请输入密码查看内容!

如何获取密码?

 

点击下载