机器学习模型的行业生产参数

Industry production parameters for machine learning models

我在一家食品公司开始了我的硕士论文。他们从一些原料开始，将它们混合、加热等等，直到最终得到糖果。但有一个问题。生产同样的糖果，PLC控制的机器并不总是运行顺利，也不会给出相同的结果。他们认为是水果作为一种成分，并不总是 100% 相同（粘度等）。他们在用于生产之前测量成分的特性。它们还测量所有工艺参数（压力、温度、白利糖度等）。这些都存储起来了。现在我的论文是使用机器学习模型检查这些数据以获得更多信息。现在我遇到了一些问题。第一个问题是我实际上没有分类。没有'good candy'和'bad candy'这样的东西。第二个问题是我真的没有输出参数。我有白利糖度值，但仅此而已。最后一个问题是：成分是我模型的输入特征，但是过程特征也是这些输入吗？还是我应该把它留下？

非常感谢您的帮助！

The first problem is that I do not actually have a classification. There is no such thing as 'good candy' and 'bad candy'.

公司如何决定什么足够或不够？您需要确定他们用于将糖果标记为 'bad' 或 'good' 的标准。如果您没有任何标签，则可能需要寻找无监督学习技术，例如聚类分析或因子分析。

The second problem is that I do not really have output parameters. I have the brix value, but that's it.

根据您的任务，您将不得不考虑您的目标值是什么。对于分类，它将是糖果的标签。因此，'bad' 或 'good' 糖果。对于回归问题，您需要一些连续的东西（例如，如果这与您的目标相关，则为糖度值）。对于无监督学习，您不需要输出变量。

The last question is: the ingredients are input features for my model, but the process featues, are these inputs also? Or should I just leave it behind?

如果糖果是 'good' 或 'bad'，您必须查看所有变量并确定哪些变量包含有价值的信息。那是您需要收集的特定领域知识。你可以问问公司的人。他们应该能够告诉你什么是重要的或不重要的。您还可以查看所有参数的统计信息。应确定与糖果质量相关的参数。变化不大的参数（例如温度总是恒定的）可以忽略不计。

机器学习模型的行业生产参数

Industry production parameters for machine learning models

industrial

machine-learning

bigdata