机器学习模型的行业生产参数

Industry production parameters for machine learning models

我在一家食品公司开始了我的硕士论文。他们从一些原料开始,将它们混合、加热等等,直到最终得到糖果。但有一个问题。生产同样的糖果,PLC控制的机器并不总是运行顺利,也不会给出相同的结果。他们认为是水果作为一种成分,并不总是 100% 相同(粘度等)。他们在用于生产之前测量成分的特性。它们还测量所有工艺参数(压力、温度、白利糖度等)。这些都存储起来了。现在我的论文是使用机器学习模型检查这些数据以获得更多信息。现在我遇到了一些问题。第一个问题是我实际上没有分类。没有'good candy'和'bad candy'这样的东西。第二个问题是我真的没有输出参数。我有白利糖度值,但仅此而已。最后一个问题是:成分是我模型的输入特征,但是过程特征也是这些输入吗?还是我应该把它留下?

非常感谢您的帮助!

The first problem is that I do not actually have a classification. There is no such thing as 'good candy' and 'bad candy'.

公司如何决定什么足够或不够?您需要确定他们用于将糖果标记为 'bad' 或 'good' 的标准。如果您没有任何标签,则可能需要寻找无监督学习技术,例如聚类分析或因子分析。

The second problem is that I do not really have output parameters. I have the brix value, but that's it.

根据您的任务,您将不得不考虑您的目标值是什么。对于分类,它将是糖果的标签。因此,'bad' 或 'good' 糖果。对于回归问题,您需要一些连续的东西(例如,如果这与您的目标相关,则为糖度值)。对于无监督学习,您不需要输出变量。

The last question is: the ingredients are input features for my model, but the process featues, are these inputs also? Or should I just leave it behind?

如果糖果是 'good' 或 'bad',您必须查看所有变量并确定哪些变量包含有价值的信息。那是您需要收集的特定领域知识。你可以问问公司的人。他们应该能够告诉你什么是重要的或不重要的。您还可以查看所有参数的统计信息。应确定与糖果质量相关的参数。变化不大的参数(例如温度总是恒定的)可以忽略不计。