Lambda 中用于 SageMaker 端点的实时数据预处理

Real-time Data Pre-processing in Lambda for SageMaker Endpoint

正在做一个网站消费者行为分析项目,实时预测用户的恶意activity。 正在收集用户每次点击的点击数据。

我正在使用多种 AWS 服务,例如 kinesis stream、Lambda 和 sagemaker。我创建了一个自动编码器模型并且 将其部署为 sagemaker 端点,当它从网站接收到新的点击数据时,将使用 lambda 调用 运动流。

由于 sagemaker 端点包含唯一的模型,但 lambda 函数接收的点击数据是带有 URL、文本和 日期。如何将原始数据传递到所需的预处理步骤并将处理后的数据以所需格式发送到 sagemaker 端点?

原始数据示例:-

{'URL':'www.amazon.com.au/ref=nav_logo', 'Text':'Home', 'Information':'Computers'}

您可以使用 Sagemaker 推理管道。您需要创建包含预处理步骤的预处理脚本,并创建包含预处理和模型的管道。将管道部署到端点以进行实时推理。

参考: https://aws.amazon.com/blogs/machine-learning/preprocess-input-data-before-making-predictions-using-amazon-sagemaker-inference-pipelines-and-scikit-learn/

https://github.com/aws/amazon-sagemaker-examples/blob/master/sagemaker-python-sdk/scikit_learn_inference_pipeline/Inference%20Pipeline%20with%20Scikit-learn%20and%20Linear%20Learner.ipynb