项目实战中的流程步骤

理解问题
首先需要理解当前的问题，并将其抽象成机器学习算法能够处理的数学问题。
这其中包括可以获取数据的理解，目标结果的理解。
获取数据 - constant
这里的数据指的是原始数据。数据决定了机器学习算法的上限，算法只是尽可能的逼近这个上限。获取数据时，请尽量获取较多的训练数据，使其接近真实分布。但在应用时，请注意数据倾斜等问题。
处理数据 - 特征工程 - preprocess
该步骤主要包括数据清洗和特征工程。数据清洗需要去掉一些无用和噪声数据，特征工程主要涉及如何设计特征和获取对应特征值。机器学习算法的输入是特征，我们需要将原始数据转换为一个个特征，特征工程非常体现一个机器学习工程师的功底，特征工程包括特征构建、特征提取、特征选择等。
训练模型 - 模型评估、模型调优 - model
在得到特征后，需要调节模型参数，使模型达到最优。另外需要判断模型是否过拟合、欠拟合，常用的方法是绘制学习曲线，交叉验证等。可以通过增加训练数据量，降低模型复杂度来降低过拟合的风险。提高特征的数量和质量、增加模型复杂度来防止欠拟合。另外需要分析badcase来判断模型进一步优化的方向。
模型融合 - model
可以通过模型融合的方法来提高算法准确度。

参考：