什么时候用,什么时候不用 Python 3.5 `await`?
When to use and when not to use Python 3.5 `await` ?
我正在了解 Python 3.5 中使用 asyncio
的流程,但我还没有看到关于我应该 await
和不应该做的事情的描述是或可以忽略不计的地方。我是否只需要根据 "this is an IO operation and thus should be await
ed" 使用我的最佳判断?
默认情况下,所有代码都是同步的。您可以使用 async def
和 "calling" 异步定义函数,这些函数使用 await
。更正确的问题是 "When should I write asynchronous code instead of synchronous?"。答案是"When you can benefit from it"。在您使用 I/O 操作的情况下,您通常会受益:
# Synchronous way:
download(url1) # takes 5 sec.
download(url2) # takes 5 sec.
# Total time: 10 sec.
# Asynchronous way:
await asyncio.gather(
async_download(url1), # takes 5 sec.
async_download(url2) # takes 5 sec.
)
# Total time: only 5 sec. (+ little overhead for using asyncio)
当然,如果你创建了一个使用异步代码的函数,这个函数也应该是异步的(应该定义为async def
)。但是任何异步函数都可以自由使用同步代码。无缘无故地将同步代码转换为异步代码是没有意义的:
# extract_links(url) should be async because it uses async func async_download() inside
async def extract_links(url):
# async_download() was created async to get benefit of I/O
html = await async_download(url)
# parse() doesn't work with I/O, there's no sense to make it async
links = parse(html)
return links
一个非常重要的事情是,任何长时间的同步操作(例如,> 50 ms,很难准确地说)都会冻结你所有的异步操作:
async def extract_links(url):
data = await download(url)
links = parse(data)
# if search_in_very_big_file() takes much time to process,
# all your running async funcs (somewhere else in code) will be frozen
# you need to avoid this situation
links_found = search_in_very_big_file(links)
您可以避免它在单独的进程中调用长 运行 同步函数(并等待结果):
executor = ProcessPoolExecutor(2)
async def extract_links(url):
data = await download(url)
links = parse(data)
# Now your main process can handle another async functions while separate process running
links_found = await loop.run_in_executor(executor, search_in_very_big_file, links)
再举个例子:当你需要在asyncio中使用requests
的时候。 requests.get
只是同步的 long 运行 函数,你不应该在异步代码中调用它(同样,为了避免冻结)。但它 运行 长是因为 I/O,而不是因为长计算。在这种情况下,您可以使用 ThreadPoolExecutor
而不是 ProcessPoolExecutor
来避免一些多处理开销:
executor = ThreadPoolExecutor(2)
async def download(url):
response = await loop.run_in_executor(executor, requests.get, url)
return response.text
你没有多少自由。如果你需要调用一个函数,你需要确定这是一个普通函数还是协程。当且仅当您调用的函数是协程时,您必须使用 await
关键字。
如果涉及 async
函数,则应该有一个 "event loop" 来协调这些 async
函数。严格来说没有必要,你可以 "manually" 运行 async
方法向它发送值,但你可能不想这样做。事件循环跟踪尚未完成的协程并选择下一个继续 运行ning。 asyncio
模块提供了事件循环的实现,但这不是唯一可能的实现。
考虑这两行代码:
x = get_x()
do_something_else()
和
x = await aget_x()
do_something_else()
语义完全相同:调用一个产生一些值的方法,当值准备好时将其分配给变量 x
并做其他事情。在这两种情况下,do_something_else
函数只会在上一行代码完成后被调用。它甚至并不意味着在执行异步 aget_x
方法之前或之后或期间,控制权将交给事件循环。
还是有一些不同:
- 第二个片段只能出现在另一个
async
函数中
aget_x
函数不是通常的,而是协程(用 async
关键字声明或修饰为协程)
aget_x
能够 "communicate" 与事件循环:即产生一些对象给它。事件循环应该能够将这些对象解释为执行某些操作的请求(f.e。发送网络请求并等待响应,或者只是将此协程暂停 n
秒)。通常的 get_x
函数无法与事件循环通信。
我正在了解 Python 3.5 中使用 asyncio
的流程,但我还没有看到关于我应该 await
和不应该做的事情的描述是或可以忽略不计的地方。我是否只需要根据 "this is an IO operation and thus should be await
ed" 使用我的最佳判断?
默认情况下,所有代码都是同步的。您可以使用 async def
和 "calling" 异步定义函数,这些函数使用 await
。更正确的问题是 "When should I write asynchronous code instead of synchronous?"。答案是"When you can benefit from it"。在您使用 I/O 操作的情况下,您通常会受益:
# Synchronous way:
download(url1) # takes 5 sec.
download(url2) # takes 5 sec.
# Total time: 10 sec.
# Asynchronous way:
await asyncio.gather(
async_download(url1), # takes 5 sec.
async_download(url2) # takes 5 sec.
)
# Total time: only 5 sec. (+ little overhead for using asyncio)
当然,如果你创建了一个使用异步代码的函数,这个函数也应该是异步的(应该定义为async def
)。但是任何异步函数都可以自由使用同步代码。无缘无故地将同步代码转换为异步代码是没有意义的:
# extract_links(url) should be async because it uses async func async_download() inside
async def extract_links(url):
# async_download() was created async to get benefit of I/O
html = await async_download(url)
# parse() doesn't work with I/O, there's no sense to make it async
links = parse(html)
return links
一个非常重要的事情是,任何长时间的同步操作(例如,> 50 ms,很难准确地说)都会冻结你所有的异步操作:
async def extract_links(url):
data = await download(url)
links = parse(data)
# if search_in_very_big_file() takes much time to process,
# all your running async funcs (somewhere else in code) will be frozen
# you need to avoid this situation
links_found = search_in_very_big_file(links)
您可以避免它在单独的进程中调用长 运行 同步函数(并等待结果):
executor = ProcessPoolExecutor(2)
async def extract_links(url):
data = await download(url)
links = parse(data)
# Now your main process can handle another async functions while separate process running
links_found = await loop.run_in_executor(executor, search_in_very_big_file, links)
再举个例子:当你需要在asyncio中使用requests
的时候。 requests.get
只是同步的 long 运行 函数,你不应该在异步代码中调用它(同样,为了避免冻结)。但它 运行 长是因为 I/O,而不是因为长计算。在这种情况下,您可以使用 ThreadPoolExecutor
而不是 ProcessPoolExecutor
来避免一些多处理开销:
executor = ThreadPoolExecutor(2)
async def download(url):
response = await loop.run_in_executor(executor, requests.get, url)
return response.text
你没有多少自由。如果你需要调用一个函数,你需要确定这是一个普通函数还是协程。当且仅当您调用的函数是协程时,您必须使用 await
关键字。
如果涉及 async
函数,则应该有一个 "event loop" 来协调这些 async
函数。严格来说没有必要,你可以 "manually" 运行 async
方法向它发送值,但你可能不想这样做。事件循环跟踪尚未完成的协程并选择下一个继续 运行ning。 asyncio
模块提供了事件循环的实现,但这不是唯一可能的实现。
考虑这两行代码:
x = get_x()
do_something_else()
和
x = await aget_x()
do_something_else()
语义完全相同:调用一个产生一些值的方法,当值准备好时将其分配给变量 x
并做其他事情。在这两种情况下,do_something_else
函数只会在上一行代码完成后被调用。它甚至并不意味着在执行异步 aget_x
方法之前或之后或期间,控制权将交给事件循环。
还是有一些不同:
- 第二个片段只能出现在另一个
async
函数中 aget_x
函数不是通常的,而是协程(用async
关键字声明或修饰为协程)aget_x
能够 "communicate" 与事件循环:即产生一些对象给它。事件循环应该能够将这些对象解释为执行某些操作的请求(f.e。发送网络请求并等待响应,或者只是将此协程暂停n
秒)。通常的get_x
函数无法与事件循环通信。