数据框的剂量元数据有助于构建 ML 算法的特征

Dose meta data of data frame help build features for ML algorithms

最近,一位潜在雇主给我分配了一项任务,要求我执行以下操作:

- transfer a data set to S3
- create metadata for the data set
- creat a feature for the data set in spark

现在这是一个见习职位,我在概念方面是数据工程的新手,我无法理解元数据如何或什至是否用于创建功能。

我浏览了很多特征工程和元数据方面的网站,但 none 其中确实让我知道元数据是否直接用于构建特征。

到目前为止,我从网站上收集到的是,当你构建一个特征时,它会从给定的数据集中提取某些列,然后你将这些信息放入一个特征向量中,供 ML 算法学习。所以对我来说,你可以直接从数据集中直接构建一个特性,而不用关心元数据。

但是,我想知道使用元数据在多个数据集中搜索给定信息以构建功能是否很常见,即您在元数据文件中查看特定条件 适合您的建筑物的特征,然后从元数据中加载数据并从那里构建特征以训练模型。

举个例子,我有多个文件或某些制造车型,即(大众高尔夫、大众福克斯等),它包含年份和当年的汽车价格,我想要 ML预测汽车未来折旧或该汽车最新型号未来几年折旧的算法。您无需直接遍历所有数据集,而是检查某些属性的元数据(标签,如果措辞正确)以训练模型,然后使用(标签)从特定数据集中加载数据。

我很可能在这里偏离基础,或者我上面给出的示例可能是完全错误的,但是如果有人可以解释如何使用元数据来构建功能,如果可以的话,即使链接到解释的数据工程网站。就在过去一两天的研究中,我发现数据 sic 比数据工程本身更多,而且大多数数据工程信息都来自博客,所以我觉得在阅读它们时我应该具备一些预先存在的知识。

P.S 虽然不是编码问题,但我使用了 python 标签,因为大多数数据工程师似乎都使用 python.

我来介绍一下吧!!! 这里我们需要了解两个条件 1)我们是否具有与构建 ML 模型直接相关的特征。 2)我们是否处于数据稀缺状态? 总是提出一个问题,问题陈述对我们生成特征有什么建议? 我们可以通过多种方式从给定数据集生成特征,如 PCA、截断 SVD、用于降维技术的 TSNE,其中新特征是从给定 features.feature 工程技术(如傅里叶特征、三角特征等)创建的,然后我们转向元数据,如特征类型、特征大小、提取时间等。像这样 metadata 也有助于我们创建用于构建 ML 模型的特征,但这取决于我们的表现各个问题的数据语料库特征工程。