作者: [美] 爱丽丝 • 郑 / [美] 阿曼达 • 卡萨丽
出版社: 人民邮电出版社
原作名: Feature Engineering for Machine Learning Models: Principles and Techniques for Data Scientists
译者: 陈光欣
出版年: 2019-4
页数: 172
定价: 59.00元
装帧: 平装
丛书: O'Reilly动物系列(中译本)
ISBN: 9787115509680
内容简介:特点工程是一个至关重要的程序流程,机器学习流程的进程,但很少见专门的文件。本书旨在填补这一空白,着重阐明特征工程的基本原则,介绍大量特征工程技术,教你从原始数据中提取出正确的特征并将其转换为适合机器学习模型的格式,从而轻松构建模型,增强机器学习算法的效果。然而,本书并非单纯地讲述特征工程的基本原则,而是通过大量示例和练习将重点放在了实际应用上。每一章都集中研究一个数据问题:如何表示文本数据或图像数据,如何为自动生成的特征降低维度,何时以及如何对特征进行标准化,等等。最后一章通过一个完整的例子演示了多种特征工程技术的实际应用。书中所有代码示例均是用Python编写的,涉及NumPy、Pandas、scikit-learn和Matplotlib等程序包。
- 数值型数据的特征工程:过滤、分箱、缩放、对数变换和指数变换
- 自然文本技术:词袋、n元词与短语检测
- 基于频率的过滤和特征缩放
- 分类变量编码技术:特征散列化与分箱计数
- 使用主成分分析的基于模型的特征工程
- 模型堆叠与k-均值特征化
- 图像特征提取:人工提取与深度学习
精通特征工程
6098
复制