在 go 中服务 samba 文件的矛盾性能
Paradoxical performance serving samba files in go
我在 go 中编写了一个程序,作为 samba 共享的简单 HTTP 接口:用户向 http://proxy.example.com/?path=\repository\foo\bar.txt
发出获取请求,\repository\foo\bar.txt
通过 http.ServeFile(或多或少)。
然而,表现很糟糕。我 运行 一些基准测试结果让我很困惑。对于上下文,图中有三台机器:samba 服务器(文件所在的位置)、代理服务器(go 程序 运行s 所在的位置)和最终用户的机器(我最终希望文件所在的位置)得到)。 samba服务器和proxy服务器共置,终端用户相距较远
使用 windows 复制 运行s 从 samba 机器直接复制到用户机器,速度约为 1.5MB/s。这对我来说已经足够好了,也是我在代理服务中的目标。
不幸的是,curl 'http://proxy.example.com/?path=\repository\foo\bar.txt' > bar.txt
用户机器的时钟速度约为 150KB/s。
那么,让我们看看 samba 服务器和代理服务器之间是否存在连接问题。从 samba 服务器到代理服务器的副本看起来正在……大约 15MB/s。
嗯,也许这是一个可行的事情?我将编写一个对 t运行sfer 速度进行基准测试的 go 程序。
src, _ := os.Open("\\repository\foo\bar.txt")
start := time.Now()
written, _ := io.Copy(ioutil.Discard, src)
elapsed := time.Since(start)
bytesPerSecond := written/int64(elapsed/time.Second)
该死,15MB/s。
好吧,好吧,可能是 go 代码中的某些东西 else 导致了这个问题。远程登陆代理服务器,启动IE,进入http://proxy.example.com/?path=\repository\foo\bar.txt
,15MB/s.
好的,所以我的代码显然工作得很好,它一定是代理服务器和最终用户之间的连接。我会将 bar.txt
复制到代理服务器并在 url、\mycoolfiles\bar.txt
中使用其本地路径。嗯,1.5MB/s。
为了让事情变得更奇怪,我刚好将 C:\mycoolfiles
设置为名为 \alexscoolfiles
的网络共享,并且 http://proxy.example.com/?path=\alexscoolfiles\bar.txt
时钟输入,dun dun dun,150KB/ s.
为了证实这种疯狂,我分两步将 go 程序更改为 运行:
- 将文件从共享复制到本地硬盘
- http.SendFile 从那里
你瞧,文件 t运行 以 15MB/s 的速度传输时短暂停顿后,下载开始稳定在 1.5MB/s。
所以,share->proxy 是 15MB/s,proxy->user 是 1.5MB/s,但是 share->proxy->user 是... 150KB/s?比应该的慢十倍?除非你和代理在同一台机器上,因为那样它就和它应该的一样快?而且即使访问的是完全相同的文件,只要一个是 UNC 路径而另一个只是本地路径,这个问题仍然存在?
什么?
请帮忙,我只是不知道。
编辑:所以我的直觉是(正如评论的那样)它与 TCP 有关。有问题的代码已被隔离到几乎 io.Copy.
- 我知道当 reader 是一个 samba 文件时,编写器是 ioutil.Discard,我得到大约最大吞吐量。
- 我知道当 reader 是一个本地文件并且编写者是一个 http.Response 时,无论客户端使用响应的带宽和 RRT 如何,我都可以获得最大吞吐量。
- 我知道当 reader 是一个 samba 文件时,作者是一个 http.Response,并且连接是本地的,我得到大约最大吞吐量。
- 我知道当 reader 是一个 samba 文件时,作者是一个 http.Response,并且连接不是本地的,我的吞吐量很糟糕 (~1/10)。
查看io.Copy,似乎唯一可能导致问题的是读取 samba 文件和写入响应的时间之间的相互作用;足够快的编写器使读取 samba 文件达到最大吞吐量,足够快的 reader 使 http.Response。写入达到最大吞吐量,但结合它们会使一切变得糟糕。
非常有帮助的是......实际发生了什么,更重要的是,我怎样才能解决这个问题。
在尝试准确找到可以重现该问题的位置和条件后,我终于将其归结为一行:如果我注释掉 io.Copy 使用 ReadFrom 的位置(目前 io/io.go
,第 358 行),我获得了最大吞吐量。
检查 ReadFrom 的实现位置(net/http/server.go
,第 381 行):
// ReadFrom is here to optimize copying from an *os.File regular file
// to a *net.TCPConn with sendfile.
我真的没有意愿深入挖掘,但我猜这个调用 net/sendfile_windows.go
,它调用 TransmitFile 系统调用,并且在它和我们的各种服务器配置之间的某个地方发生了一些不好的事情.
解决方案是从 http.ServeFile 复制并粘贴我需要的内容,然后将 ResponseWriter 转换为 io.Writer(或其他),然后再将其传递给 io.Copy:
type writerOnly struct {
io.Writer
}
//...
io.Copy(writerOnly{w}, f)
//...
我在 go 中编写了一个程序,作为 samba 共享的简单 HTTP 接口:用户向 http://proxy.example.com/?path=\repository\foo\bar.txt
发出获取请求,\repository\foo\bar.txt
通过 http.ServeFile(或多或少)。
然而,表现很糟糕。我 运行 一些基准测试结果让我很困惑。对于上下文,图中有三台机器:samba 服务器(文件所在的位置)、代理服务器(go 程序 运行s 所在的位置)和最终用户的机器(我最终希望文件所在的位置)得到)。 samba服务器和proxy服务器共置,终端用户相距较远
使用 windows 复制 运行s 从 samba 机器直接复制到用户机器,速度约为 1.5MB/s。这对我来说已经足够好了,也是我在代理服务中的目标。
不幸的是,curl 'http://proxy.example.com/?path=\repository\foo\bar.txt' > bar.txt
用户机器的时钟速度约为 150KB/s。
那么,让我们看看 samba 服务器和代理服务器之间是否存在连接问题。从 samba 服务器到代理服务器的副本看起来正在……大约 15MB/s。
嗯,也许这是一个可行的事情?我将编写一个对 t运行sfer 速度进行基准测试的 go 程序。
src, _ := os.Open("\\repository\foo\bar.txt")
start := time.Now()
written, _ := io.Copy(ioutil.Discard, src)
elapsed := time.Since(start)
bytesPerSecond := written/int64(elapsed/time.Second)
该死,15MB/s。
好吧,好吧,可能是 go 代码中的某些东西 else 导致了这个问题。远程登陆代理服务器,启动IE,进入http://proxy.example.com/?path=\repository\foo\bar.txt
,15MB/s.
好的,所以我的代码显然工作得很好,它一定是代理服务器和最终用户之间的连接。我会将 bar.txt
复制到代理服务器并在 url、\mycoolfiles\bar.txt
中使用其本地路径。嗯,1.5MB/s。
为了让事情变得更奇怪,我刚好将 C:\mycoolfiles
设置为名为 \alexscoolfiles
的网络共享,并且 http://proxy.example.com/?path=\alexscoolfiles\bar.txt
时钟输入,dun dun dun,150KB/ s.
为了证实这种疯狂,我分两步将 go 程序更改为 运行:
- 将文件从共享复制到本地硬盘
- http.SendFile 从那里
你瞧,文件 t运行 以 15MB/s 的速度传输时短暂停顿后,下载开始稳定在 1.5MB/s。
所以,share->proxy 是 15MB/s,proxy->user 是 1.5MB/s,但是 share->proxy->user 是... 150KB/s?比应该的慢十倍?除非你和代理在同一台机器上,因为那样它就和它应该的一样快?而且即使访问的是完全相同的文件,只要一个是 UNC 路径而另一个只是本地路径,这个问题仍然存在?
什么?
请帮忙,我只是不知道。
编辑:所以我的直觉是(正如评论的那样)它与 TCP 有关。有问题的代码已被隔离到几乎 io.Copy.
- 我知道当 reader 是一个 samba 文件时,编写器是 ioutil.Discard,我得到大约最大吞吐量。
- 我知道当 reader 是一个本地文件并且编写者是一个 http.Response 时,无论客户端使用响应的带宽和 RRT 如何,我都可以获得最大吞吐量。
- 我知道当 reader 是一个 samba 文件时,作者是一个 http.Response,并且连接是本地的,我得到大约最大吞吐量。
- 我知道当 reader 是一个 samba 文件时,作者是一个 http.Response,并且连接不是本地的,我的吞吐量很糟糕 (~1/10)。
查看io.Copy,似乎唯一可能导致问题的是读取 samba 文件和写入响应的时间之间的相互作用;足够快的编写器使读取 samba 文件达到最大吞吐量,足够快的 reader 使 http.Response。写入达到最大吞吐量,但结合它们会使一切变得糟糕。
非常有帮助的是......实际发生了什么,更重要的是,我怎样才能解决这个问题。
在尝试准确找到可以重现该问题的位置和条件后,我终于将其归结为一行:如果我注释掉 io.Copy 使用 ReadFrom 的位置(目前 io/io.go
,第 358 行),我获得了最大吞吐量。
检查 ReadFrom 的实现位置(net/http/server.go
,第 381 行):
// ReadFrom is here to optimize copying from an *os.File regular file
// to a *net.TCPConn with sendfile.
我真的没有意愿深入挖掘,但我猜这个调用 net/sendfile_windows.go
,它调用 TransmitFile 系统调用,并且在它和我们的各种服务器配置之间的某个地方发生了一些不好的事情.
解决方案是从 http.ServeFile 复制并粘贴我需要的内容,然后将 ResponseWriter 转换为 io.Writer(或其他),然后再将其传递给 io.Copy:
type writerOnly struct {
io.Writer
}
//...
io.Copy(writerOnly{w}, f)
//...