Lwt 泄漏文件描述符,不确定是错误还是我的代码
Lwt leaking file descriptors, not sure if bug or my code
(交叉发布到 lwt github 问题)
我已经将我的用法归结为这个代码示例,它会泄漏文件描述符。
假设你有:
#require "lwt.unix"
open Lwt.Infix
let echo ic oc = Lwt_io.(write_chars oc (read_chars ic))
let program =
let server_address = Unix.(ADDR_INET (inet_addr_loopback, 2000)) in
let other_addr = Unix.(ADDR_INET (inet_addr_loopback, 2001)) in
let server = Lwt_io.establish_server server_address begin fun (tcp_ic, tcp_oc) ->
Lwt_io.with_connection other_addr begin fun (nc_ic, nc_oc) ->
Lwt_io.printl "Created connection" >>= fun () ->
echo tcp_ic nc_oc <&> echo nc_ic tcp_oc >>= fun () ->
Lwt_io.printl "finished"
end
|> Lwt.ignore_result
end
in
fst (Lwt.wait ())
let () =
Lwt_main.run program
然后你创建一个简单的服务器:
nc -l 2001
然后让我们启动 OCaml 代码
utop example.ml
然后打开客户端
nc localhost 2000
blah blah
^c
然后使用 lsof 查看端口 2000 的连接,我们看到
ocamlrun 71109 Edgar 6u IPv4 0x7ff3e309cb80aead 0t0 TCP 127.0.0.1:callbook (LISTEN)
ocamlrun 71109 Edgar 7u IPv4 0x7ff3e309c9dc8ead 0t0 TCP 127.0.0.1:callbook->127.0.0.1:54872 (CLOSE_WAIT)
事实上,对于 nc localhost 2000
的每次使用,我们都会从 lsof 的使用中得到一个剩余的 CLOSE_WAIT
记录。
最终这将导致系统 运行 耗尽文件描述符,最烦人的是这不会使程序崩溃,但会导致 Lwt 挂起。
我不知道我做错了什么或者这是一个真正的错误,无论如何这对我来说都是一个严重的错误,我 运行 在 10 小时内用完了文件描述符.. .
编辑:在我看来,问题是连接的一侧已关闭,而另一侧未关闭,我本以为 with_connection
应该 cleanup/close 无论何时任何一方关闭,又名每当 nc_ic
或 nc_oc
关闭时。
编辑二:我已经尝试了使用 Lwt_io.close
手动关闭描述符的所有方法,但我仍然有 CLOSE_WAIT 消息。
编辑 III:甚至在给定 with_connection 的可选 fd
参数的原始 fd 上使用 Lwt_unix.close
,结果也类似。
编辑 IV:最阴险的是如果我使用 Lwt_daemon.daemonize
,那么这个问题似乎就消失了
首先,不清楚为什么使用 join <&>
而不是 choose <?>
。我想如果双方之一想关闭它,应该关闭连接。
关于 CLOSE_WAIT
:它是 half-closed 从 utop
服务器到 nc
客户端的连接。
一个TCP连接由两个half-connections组成,它们是独立关闭的。由于 Ctrl-C
,从 nc
客户端到 utop
服务器的连接已被 nc
关闭。但是您必须通过关闭输出流来显式关闭服务器端的相反连接。我不确定为什么 Lwt.establish_server
不会自动关闭它。可能,这是设计问题。
这对我在 CentOS 7 上有效:
Lwt_io.printl "Created connection" >>= fun () ->
echo tcp_ic nc_oc <?> echo nc_ic tcp_oc >>= fun () ->
Lwt_io.close tcp_oc >>= fun () ->
Lwt_io.printl "finished"
此外,还有一个简化的代码片段可以重现该问题:
#require "lwt.unix"
let program =
let server_address = Unix.(ADDR_INET (inet_addr_loopback, 2000)) in
let _server = Lwt_io.establish_server server_address begin fun (ic, oc) ->
(* Lwt_io.close oc |> Lwt.ignore_result; *) ()
end
in
fst (Lwt.wait ())
let () =
Lwt_main.run program
运行 nc localhost 2000
几次以获取处于 CLOSE_WAIT
状态的连接。取消注释代码以解决问题。
在提出这个问题时,潜在的问题是 Lwt_io.establish_server
根本没有做出任何努力来关闭与 tcp_ic
和 tcp_oc
关联的文件描述符。虽然这可以(并且应该)通过用户手动关闭它们来解决,但这是一种奇怪且意外的行为。
自 Lwt 3.0.0 起可用的 new Lwt_io.establish_server
会尝试自动关闭 tcp_ic
和 tcp_oc
。为了允许这一点,它有一个稍微不同的回调类型签名:回调必须 return 一个承诺,当不再需要 tcp_ic
/tcp_oc
时你应该解析它。 (编辑)实际上,这意味着您只需以自然的 Lwt 风格编写回调,最后一个 Lwt 操作的完成将关闭通道。
新的 API 还在内部调用 Lwt.async
用于 运行 您的回调,因此您不必调用它或 Lwt.ignore_result
.
您仍然可以在回调中手动关闭 tcp_ic
和 tcp_oc
,以编写您自己的错误处理程序,可以根据您的喜好进行详细说明。新 Lwt_io.establish_server
中的第二个自动内部关闭不会产生任何有害影响。
新的 API 是 Lwt issue #208.
中对该问题的平行讨论的最终结果
如果有人想要旧的、痛苦的行为,也许是为了重现问题中的问题,旧的 API 可以在名称 Lwt_io.Versioned.establish_server_1
下使用一段时间。
(交叉发布到 lwt github 问题)
我已经将我的用法归结为这个代码示例,它会泄漏文件描述符。
假设你有:
#require "lwt.unix"
open Lwt.Infix
let echo ic oc = Lwt_io.(write_chars oc (read_chars ic))
let program =
let server_address = Unix.(ADDR_INET (inet_addr_loopback, 2000)) in
let other_addr = Unix.(ADDR_INET (inet_addr_loopback, 2001)) in
let server = Lwt_io.establish_server server_address begin fun (tcp_ic, tcp_oc) ->
Lwt_io.with_connection other_addr begin fun (nc_ic, nc_oc) ->
Lwt_io.printl "Created connection" >>= fun () ->
echo tcp_ic nc_oc <&> echo nc_ic tcp_oc >>= fun () ->
Lwt_io.printl "finished"
end
|> Lwt.ignore_result
end
in
fst (Lwt.wait ())
let () =
Lwt_main.run program
然后你创建一个简单的服务器:
nc -l 2001
然后让我们启动 OCaml 代码
utop example.ml
然后打开客户端
nc localhost 2000
blah blah
^c
然后使用 lsof 查看端口 2000 的连接,我们看到
ocamlrun 71109 Edgar 6u IPv4 0x7ff3e309cb80aead 0t0 TCP 127.0.0.1:callbook (LISTEN)
ocamlrun 71109 Edgar 7u IPv4 0x7ff3e309c9dc8ead 0t0 TCP 127.0.0.1:callbook->127.0.0.1:54872 (CLOSE_WAIT)
事实上,对于 nc localhost 2000
的每次使用,我们都会从 lsof 的使用中得到一个剩余的 CLOSE_WAIT
记录。
最终这将导致系统 运行 耗尽文件描述符,最烦人的是这不会使程序崩溃,但会导致 Lwt 挂起。
我不知道我做错了什么或者这是一个真正的错误,无论如何这对我来说都是一个严重的错误,我 运行 在 10 小时内用完了文件描述符.. .
编辑:在我看来,问题是连接的一侧已关闭,而另一侧未关闭,我本以为 with_connection
应该 cleanup/close 无论何时任何一方关闭,又名每当 nc_ic
或 nc_oc
关闭时。
编辑二:我已经尝试了使用 Lwt_io.close
手动关闭描述符的所有方法,但我仍然有 CLOSE_WAIT 消息。
编辑 III:甚至在给定 with_connection 的可选 fd
参数的原始 fd 上使用 Lwt_unix.close
,结果也类似。
编辑 IV:最阴险的是如果我使用 Lwt_daemon.daemonize
,那么这个问题似乎就消失了
首先,不清楚为什么使用 join <&>
而不是 choose <?>
。我想如果双方之一想关闭它,应该关闭连接。
关于 CLOSE_WAIT
:它是 half-closed 从 utop
服务器到 nc
客户端的连接。
一个TCP连接由两个half-connections组成,它们是独立关闭的。由于 Ctrl-C
,从 nc
客户端到 utop
服务器的连接已被 nc
关闭。但是您必须通过关闭输出流来显式关闭服务器端的相反连接。我不确定为什么 Lwt.establish_server
不会自动关闭它。可能,这是设计问题。
这对我在 CentOS 7 上有效:
Lwt_io.printl "Created connection" >>= fun () ->
echo tcp_ic nc_oc <?> echo nc_ic tcp_oc >>= fun () ->
Lwt_io.close tcp_oc >>= fun () ->
Lwt_io.printl "finished"
此外,还有一个简化的代码片段可以重现该问题:
#require "lwt.unix"
let program =
let server_address = Unix.(ADDR_INET (inet_addr_loopback, 2000)) in
let _server = Lwt_io.establish_server server_address begin fun (ic, oc) ->
(* Lwt_io.close oc |> Lwt.ignore_result; *) ()
end
in
fst (Lwt.wait ())
let () =
Lwt_main.run program
运行 nc localhost 2000
几次以获取处于 CLOSE_WAIT
状态的连接。取消注释代码以解决问题。
在提出这个问题时,潜在的问题是 Lwt_io.establish_server
根本没有做出任何努力来关闭与 tcp_ic
和 tcp_oc
关联的文件描述符。虽然这可以(并且应该)通过用户手动关闭它们来解决,但这是一种奇怪且意外的行为。
自 Lwt 3.0.0 起可用的 new Lwt_io.establish_server
会尝试自动关闭 tcp_ic
和 tcp_oc
。为了允许这一点,它有一个稍微不同的回调类型签名:回调必须 return 一个承诺,当不再需要 tcp_ic
/tcp_oc
时你应该解析它。 (编辑)实际上,这意味着您只需以自然的 Lwt 风格编写回调,最后一个 Lwt 操作的完成将关闭通道。
新的 API 还在内部调用 Lwt.async
用于 运行 您的回调,因此您不必调用它或 Lwt.ignore_result
.
您仍然可以在回调中手动关闭 tcp_ic
和 tcp_oc
,以编写您自己的错误处理程序,可以根据您的喜好进行详细说明。新 Lwt_io.establish_server
中的第二个自动内部关闭不会产生任何有害影响。
新的 API 是 Lwt issue #208.
中对该问题的平行讨论的最终结果如果有人想要旧的、痛苦的行为,也许是为了重现问题中的问题,旧的 API 可以在名称 Lwt_io.Versioned.establish_server_1
下使用一段时间。