AWS Cloudsearch 是否可扩展?

Is AWS Cloudsearch Scalable?

我有 500MB 的数据要推送到云搜索。

以下是我尝试过的选项:

直接从控制台上传:

尝试上传文件,有 5 MB 的限制。

然后上传文件到S3,选择S3选项,

上传到S3,在控制台给S3url:

失败并要求尝试命令行。

尝试使用命令行

aws cloudsearchdomain upload-documents --endpoint-url http://endpoint --content-type application/json --documents s3://bucket/cs.json

Error parsing parameter '--documents': Blob values must be a path to a file.

好的,将文件从s3复制到本地并尝试上传,

尝试使用本地文件和 cli:

aws cloudsearchdomain upload-documents --endpoint-url http://endpoint --content-type application/json --documents ./cs.json

在我们从端点 URL 收到有效响应之前连接已关闭:“http://endpoint/2013-01-01/documents/batch?format=sdk”。

有没有办法让 CloudSearch 正常工作?

据我了解,这与问题 Header 中 Cloudsearch 的可扩展性无关,而是关于上传的限制,以及如何将大文件上传到 Amazon Cloudsearch。

最佳和最优的解决方案是通过分块上传数据。 将您的文档分成几批并分批上传数据。 (但请记住相关的限制)

这样做的好处是,如果您有多个文档要提交,请在一个调用中提交所有文档,而不是总是提交大小为 1 的批次。AWS 建议分组(最多 5 mb)并在一个调用中发送.我认为每 1,000 次批量调用花费 0.10 美元,因此分组也可以为您节省一些钱。

这对我有用。以下是一些有助于更好地解决问题的指南。


将数据上传到 Amazon Cloudsearch 时要遵循的指南

  1. 在上传文档之前将文档分组。连续上传仅包含一个文档的批次会对 Amazon CloudSearch 处理您的更新的速度产生巨大的负面影响。相反,创建尽可能接近限制的批次并降低上传频率。 (限制解释如下)

  2. 要将数据上传到您的域,它的格式必须为有效的 JSONXML 批量


现在,让我解释一下与文件上传相关的limitations associated with Amazon Cloud search

1) 批量大小:

The maximum batch size is 5 MB

2) 文档大小

The maximum document size is 1 MB

3) 文档字段

Documents can have no more than 200 fields

4) 数据加载量

You can load one document batch every 10 seconds (approximately 10,000 batches every 24 hours), with each batch size up to 5 MB.

但如果您想提高限制,可以联系 Amazon CloudSearch。目前,亚马逊不允许增加上传大小限制。

You can submit a request if you need to increase the maximum number of partitions for a search domain. For information about increasing other limits such as the maximum number of search domains, contact Amazon CloudSearch.