Spark 依赖较少的模型导出如何工作?
How does a Spark dependency less Model export works?
谁能用简单的语言解释一下 Spark 模型是如何工作的
导出期间不依赖于 Spark 集群的作品
预测?
我的意思是,如果我们在 ML 管道的训练中使用 ml.feature.stopwordremover 之类的 Spark 函数并将其导出为 PMML 格式,那么当部署到我没有的生产环境中时,该函数如何重新生成星火安装。可能是我们使用 JPMML 的时候。我浏览了 PMML 维基页面 here,但它只是解释了 PMML 的结构。但是那里没有提供功能描述。
欢迎任何好的文章链接。
请试验 JPMML-SparkML library (or its PySpark2PMML or Sparklyr2PMML 前端)以了解不同的 Apache Spark 转换器和模型究竟如何映射到 PMML 标准。
例如,PMML 标准不提供专门的 "remove stopwords" 元素。相反,所有低级文本操作都是使用通用 TextIndex and TextIndexNormalization 元素处理的。删除停用词是 expressed/implemented 作为正则表达式转换,其中它们被简单地替换为空字符串。要评估此类 PMML 文档,您的运行时必须仅提供基本的正则表达式功能 - 绝对不需要 Apache Spark 运行时或其转换器和模型 algorithms/classes.
从 Apache Spark ML 到 PMML 的转换效果出奇地好(例如,覆盖率比 MLeap 等其他转换方法好得多)。
谁能用简单的语言解释一下 Spark 模型是如何工作的 导出期间不依赖于 Spark 集群的作品 预测?
我的意思是,如果我们在 ML 管道的训练中使用 ml.feature.stopwordremover 之类的 Spark 函数并将其导出为 PMML 格式,那么当部署到我没有的生产环境中时,该函数如何重新生成星火安装。可能是我们使用 JPMML 的时候。我浏览了 PMML 维基页面 here,但它只是解释了 PMML 的结构。但是那里没有提供功能描述。
欢迎任何好的文章链接。
请试验 JPMML-SparkML library (or its PySpark2PMML or Sparklyr2PMML 前端)以了解不同的 Apache Spark 转换器和模型究竟如何映射到 PMML 标准。
例如,PMML 标准不提供专门的 "remove stopwords" 元素。相反,所有低级文本操作都是使用通用 TextIndex and TextIndexNormalization 元素处理的。删除停用词是 expressed/implemented 作为正则表达式转换,其中它们被简单地替换为空字符串。要评估此类 PMML 文档,您的运行时必须仅提供基本的正则表达式功能 - 绝对不需要 Apache Spark 运行时或其转换器和模型 algorithms/classes.
从 Apache Spark ML 到 PMML 的转换效果出奇地好(例如,覆盖率比 MLeap 等其他转换方法好得多)。