Haskell: quoteFile 在 unicode 字符上带有 "invalid byte sequence" 的文本文件上失败
Haskell: quoteFile fails on text file with "invalid byte sequence" on unicode characters
我在虚拟环境(安装了 GHC 7.8.4 的 Debian Wheezy)中遇到 quoteFile
问题。我已经描述了来自 Text.Shakespeare.Text
:
的 st
准引用的文件导向版本
import Language.Haskell.TH.Quote (QuasiQuoter, quoteFile)
import Text.Shakespeare.Text (st)
sfFile :: QuasiQuoter
stFile = quoteFile st
这在我的主机上运行良好,但是,在我的虚拟环境(Docker 图像)上失败并出现以下错误:
Exception when trying to run compile-time code:
test-file.md: hGetContents: invalid argument (invalid byte sequence)
Code: Language.Haskell.TH.Quote.quoteExp
stFile "test-file.md"
我的 REPL 调查显示,错误发生在文本文件中的第一个 unicode 字符上,在我当前的情况下,这是 '«' 左指针双角引号:
import System.IO (IOMode(..), hGetContents, openFile, openBinaryFile, utf8)
main =
do h <- openBinaryFile "test-file.md" ReadMode
hGetContentContents h
-- Binary read works fine out-of-box.
h' <- openFile "test-file.md" ReadMode
hSetEncoding h' utf8
hGetContentContents h'
-- This works only if encoding is explicitly set, otherwise
-- it gives "invalid byte sequence" error at run-time
在我看来,我需要配置一点我的虚拟环境,或者可能重建 GHC 本身。
我尝试将语言环境设置为 en.UTF-8 UTF-8
,但没有帮助(最初我根本没有进行语言环境配置)。
更新:目标文件有 UTF-8
编码:
$ file -bi test-file.md
text/x-c++; charset=utf-8
最后,我发现我的虚拟语言环境设置不正确,例如locale
命令显示所有 LANG
变量都设置为 POSIX
.
将 LANG
变量导出到命令是最快的解决方法(bash 示例):
export LANG=en_US.UTF8 cabal build
但是,您可能需要安装 en_US
语言环境,Debian 手动配置是:
- 编辑文件
/etc/locale.gen
,追加新行 en_US.UTF-8 UTF-8
- 调用
locale-gen
生成语言环境。
- 导出
LANG
变量。
Debian 语言环境维基1
P.S。我的默认 Debian Wheezy 安装在默认语言环境列表中有 C.UTF-8
,所以我相信极简主义的目的是可以使用它而不是安装额外的英语语言环境,但我没有自己测试一下。
我在虚拟环境(安装了 GHC 7.8.4 的 Debian Wheezy)中遇到 quoteFile
问题。我已经描述了来自 Text.Shakespeare.Text
:
st
准引用的文件导向版本
import Language.Haskell.TH.Quote (QuasiQuoter, quoteFile)
import Text.Shakespeare.Text (st)
sfFile :: QuasiQuoter
stFile = quoteFile st
这在我的主机上运行良好,但是,在我的虚拟环境(Docker 图像)上失败并出现以下错误:
Exception when trying to run compile-time code: test-file.md: hGetContents: invalid argument (invalid byte sequence)
Code: Language.Haskell.TH.Quote.quoteExp stFile "test-file.md"
我的 REPL 调查显示,错误发生在文本文件中的第一个 unicode 字符上,在我当前的情况下,这是 '«' 左指针双角引号:
import System.IO (IOMode(..), hGetContents, openFile, openBinaryFile, utf8)
main =
do h <- openBinaryFile "test-file.md" ReadMode
hGetContentContents h
-- Binary read works fine out-of-box.
h' <- openFile "test-file.md" ReadMode
hSetEncoding h' utf8
hGetContentContents h'
-- This works only if encoding is explicitly set, otherwise
-- it gives "invalid byte sequence" error at run-time
在我看来,我需要配置一点我的虚拟环境,或者可能重建 GHC 本身。
我尝试将语言环境设置为 en.UTF-8 UTF-8
,但没有帮助(最初我根本没有进行语言环境配置)。
更新:目标文件有 UTF-8
编码:
$ file -bi test-file.md
text/x-c++; charset=utf-8
最后,我发现我的虚拟语言环境设置不正确,例如locale
命令显示所有 LANG
变量都设置为 POSIX
.
将 LANG
变量导出到命令是最快的解决方法(bash 示例):
export LANG=en_US.UTF8 cabal build
但是,您可能需要安装 en_US
语言环境,Debian 手动配置是:
- 编辑文件
/etc/locale.gen
,追加新行en_US.UTF-8 UTF-8
- 调用
locale-gen
生成语言环境。 - 导出
LANG
变量。
Debian 语言环境维基1
P.S。我的默认 Debian Wheezy 安装在默认语言环境列表中有 C.UTF-8
,所以我相信极简主义的目的是可以使用它而不是安装额外的英语语言环境,但我没有自己测试一下。