理解问题
首先需要理解当前的问题,并将其抽象成机器学习算法能够处理的数学问题。
这其中包括可以获取数据的理解,目标结果的理解。
获取数据 - constant
这里的数据指的是原始数据。数据决定了机器学习算法的上限,算法只是尽可能的逼近这个上限。获取数据时,请尽量获取较多的训练数据,使其接近真实分布。但在应用时,请注意数据倾斜等问题。
处理数据 - 特征工程 - preprocess
该步骤主要包括数据清洗和特征工程。数据清洗需要去掉一些无用和噪声数据,特征工程主要涉及如何设计特征和获取对应特征值。机器学习算法的输入是特征,我们需要将原始数据转换为一个个特征,特征工程非常体现一个机器学习工程师的功底,特征工程包括特征构建、特征提取、特征选择等。
训练模型 - 模型评估、模型调优 - model
在得到特征后,需要调节模型参数,使模型达到最优。另外需要判断模型是否过拟合、欠拟合,常用的方法是绘制学习曲线,交叉验证等。可以通过增加训练数据量,降低模型复杂度来降低过拟合的风险。提高特征的数量和质量、增加模型复杂度来防止欠拟合。另外需要分析badcase来判断模型进一步优化的方向。
模型融合 - model
可以通过模型融合的方法来提高算法准确度。
参考:
http://www.cnblogs.com/wxquare/p/5484690.html