提升批量 HTTP REST 调用与 GET 方法调用并行的性能
Boosting performance of bulk HTTP REST calls paralleling GET methods invocation
在我开发的应用程序中,我需要执行大量的 REST 调用。我需要与之交互的 REST API 资源的体系结构是分层的,如下所示:
/api/continents - return list of all Earth's continents
/api/continents/{continent_name}/countries - return list of all countries on mentioned continent
/api/continents/{continent_name}/countries/{country_name}/cities - return list of all cities in mentioned country
不幸的是,这个 API 没有提供任何方法来获取所有城市,我需要首先获取所有大陆的列表,然后获取每个大陆的所有国家/地区列表,然后是获取每个大陆每个国家/地区的所有城市列表。
首先,我尝试实现我的方法来从 API 中获取所有城市,而无需仅通过连续调用进行并行化。类似的东西:
private List<City> getCities() {
List<Continent> continents = getAllContinents(); //HTTP GET call
List<Country> countries = new ArrayList<>();
for (Continent continent: continents) {
countries.addAll(getAllCountriesOfContinent(continent));
}
List<City> cities = new ArrayList<>();
for (Country country : countries) {
cities.addAll(getAllCitiesOfCountry(country));
}
return cities;
}
但是这种方法太慢了(具体执行了大约 7 个小时)。我决定尝试使用 Java Parallel Streams 和 CompletableFuture 改进它,并得到了这样的方法:
private List<City> getCities() {
return getAllContinents()
.parallelStream()
.map(continent -> getAllCountriesOfContinent(continent))
.flatMap(feature -> feature.join().parallelStream())
.map(country -> getAllCitiesOfCountry(country))
.flatMap(feature -> feature.join().parallelStream())
.collect(Collectors.toList());
}
其中 getAllCountriesOfContinent 和 getAllCitiesOfCountry 方法返回了 CompletableFuture 列表,看起来像:
private CompletableFuture<List<Country>> getAllCountriesOfContinent(Continent continent) {
return CompletableFuture.supplyAsync(() -> {
return restClient.getDataFromApi(continent);
});
}
private CompletableFuture<List<City>> getAllCitiesOfCountry(Country country) {
return CompletableFuture.supplyAsync(() -> {
return restClient.getDataFromApi(country);
});
}
通过这样的重构,我的性能得到了很好的提升(它执行了大约 25-30 分钟)。但我认为我可以使用 Java ThreadPoolExecutors and Threads 或 ForkJoin 框架进一步改进它。这些方法是否会帮助我提高代码的性能,或者还有其他一些特殊的 techniques/algorithms/frameworks?
Will such approaches help me to boost performance?
答案是:可能。
你看,parallelStream()
给了你一个 "default" 多线程的实现(在幕后,这个操作实际上使用了 ForkJoin 框架)。
换句话说:你总是可以退后一步,投入大量时间进行实验,使用不同的低层次方法,并衡量相应的结果。是的,最有可能的是,当您花费 1 周的时间微调您的算法时,您 应该 能够得到比依赖 "default implementations" 更好的结果 Java 必须提供。
但是您获得了多少改进,以及您需要多长时间才能到达那里,这很难预测。
因此,真正的答案是:
- 衡量哪个操作需要多长时间,确定 整体 系统中真正的瓶颈(例如:典型的客户应该使用 one 每个国家/地区的线程,以获取这些城市,或者更少的线程会更有帮助)
- 如果可能,增强 REST API 以简单地为您提供一个城市列表
长话短说:您必须做出权衡。您可以编写大量自定义代码以获得更好的结果。但是没有人可以预先告诉您您将获得的收益,以及有多少 "cost" 将添加到您的 "budget" 因为 "writing and maintaining more complicated code over time"。
我觉得多线程在这里并不是正确的工具,因为这是网络通信问题,而不是计算问题。
特别是因为 Java 缺少协同程序,parallelStream 可能是一次管理多个正在运行的 HTTP 请求的良好且合理的选择,但它并不是您应该关注的解决方案中最重要的部分。
您应该关注的是网络细节,而不是 CPU 细节。这种情况特别让我想起 HTTP/2 应该允许多个这样的请求同时进行。您还应该查看早期版本支持的 HTTP 管道,但设置起来要复杂得多。
在我开发的应用程序中,我需要执行大量的 REST 调用。我需要与之交互的 REST API 资源的体系结构是分层的,如下所示:
/api/continents - return list of all Earth's continents
/api/continents/{continent_name}/countries - return list of all countries on mentioned continent
/api/continents/{continent_name}/countries/{country_name}/cities - return list of all cities in mentioned country
不幸的是,这个 API 没有提供任何方法来获取所有城市,我需要首先获取所有大陆的列表,然后获取每个大陆的所有国家/地区列表,然后是获取每个大陆每个国家/地区的所有城市列表。
首先,我尝试实现我的方法来从 API 中获取所有城市,而无需仅通过连续调用进行并行化。类似的东西:
private List<City> getCities() {
List<Continent> continents = getAllContinents(); //HTTP GET call
List<Country> countries = new ArrayList<>();
for (Continent continent: continents) {
countries.addAll(getAllCountriesOfContinent(continent));
}
List<City> cities = new ArrayList<>();
for (Country country : countries) {
cities.addAll(getAllCitiesOfCountry(country));
}
return cities;
}
但是这种方法太慢了(具体执行了大约 7 个小时)。我决定尝试使用 Java Parallel Streams 和 CompletableFuture 改进它,并得到了这样的方法:
private List<City> getCities() {
return getAllContinents()
.parallelStream()
.map(continent -> getAllCountriesOfContinent(continent))
.flatMap(feature -> feature.join().parallelStream())
.map(country -> getAllCitiesOfCountry(country))
.flatMap(feature -> feature.join().parallelStream())
.collect(Collectors.toList());
}
其中 getAllCountriesOfContinent 和 getAllCitiesOfCountry 方法返回了 CompletableFuture 列表,看起来像:
private CompletableFuture<List<Country>> getAllCountriesOfContinent(Continent continent) {
return CompletableFuture.supplyAsync(() -> {
return restClient.getDataFromApi(continent);
});
}
private CompletableFuture<List<City>> getAllCitiesOfCountry(Country country) {
return CompletableFuture.supplyAsync(() -> {
return restClient.getDataFromApi(country);
});
}
通过这样的重构,我的性能得到了很好的提升(它执行了大约 25-30 分钟)。但我认为我可以使用 Java ThreadPoolExecutors and Threads 或 ForkJoin 框架进一步改进它。这些方法是否会帮助我提高代码的性能,或者还有其他一些特殊的 techniques/algorithms/frameworks?
Will such approaches help me to boost performance?
答案是:可能。
你看,parallelStream()
给了你一个 "default" 多线程的实现(在幕后,这个操作实际上使用了 ForkJoin 框架)。
换句话说:你总是可以退后一步,投入大量时间进行实验,使用不同的低层次方法,并衡量相应的结果。是的,最有可能的是,当您花费 1 周的时间微调您的算法时,您 应该 能够得到比依赖 "default implementations" 更好的结果 Java 必须提供。
但是您获得了多少改进,以及您需要多长时间才能到达那里,这很难预测。
因此,真正的答案是:
- 衡量哪个操作需要多长时间,确定 整体 系统中真正的瓶颈(例如:典型的客户应该使用 one 每个国家/地区的线程,以获取这些城市,或者更少的线程会更有帮助)
- 如果可能,增强 REST API 以简单地为您提供一个城市列表
长话短说:您必须做出权衡。您可以编写大量自定义代码以获得更好的结果。但是没有人可以预先告诉您您将获得的收益,以及有多少 "cost" 将添加到您的 "budget" 因为 "writing and maintaining more complicated code over time"。
我觉得多线程在这里并不是正确的工具,因为这是网络通信问题,而不是计算问题。
特别是因为 Java 缺少协同程序,parallelStream 可能是一次管理多个正在运行的 HTTP 请求的良好且合理的选择,但它并不是您应该关注的解决方案中最重要的部分。
您应该关注的是网络细节,而不是 CPU 细节。这种情况特别让我想起 HTTP/2 应该允许多个这样的请求同时进行。您还应该查看早期版本支持的 HTTP 管道,但设置起来要复杂得多。