Java 用于 Web - Multipart/form-data 文件编码错误

Question

我正在使用 Java 和 Tomcat 开发 Web 应用程序 8. 此应用程序有一个页面，用于上传文件，其内容将显示在不同的页面中。简单明了。

但是，这些文件可能包含不太常见的字符作为其文本的一部分。例如，现在，我正在处理一个包含越南文本的文件。

该文件以 UTF-8 编码，可以在任何文本编辑器中打开。但是，尽管进行了很多搜索并尝试了许多不同的方法，但我找不到任何方法来上传它并使内容保持正确的编码。

我上传文件的页面包含以下形式：

<form method="POST" action="upload" enctype="multipart/form-data" accept-charset="UTF-8" >
                                File: <input type="file" name="file" id="file"  multiple/><br/>
                                Param1: <input type="text" name="param1"/> <br/>
                                Param2: <input type="text" name="param2"/> <br/>
                                <input type="submit" value="Upload" name="upload" id="upload" />
                            </form>

还包含：

<%@page contentType="text/html" pageEncoding="UTF-8"%>
...
<meta http-equiv="content-type" content="text/html; charset=UTF-8">

我的 servlet 如下所示：

protected void processRequest(HttpServletRequest request, HttpServletResponse response)
            throws ServletException, IOException {
        try {
            response.setContentType("text/html;charset=UTF-8");
            request.setCharacterEncoding("UTF-8");

            String param1 = request.getParameter("param1");

            String param2 = request.getParameter("param2");

            Collection<Part> parts = request.getParts();

            Iterator<Part> iterator = parts.iterator();
            while (iterator.hasNext()) {
                Part filePart = iterator.next();
                InputStream filecontent = null;

                filecontent = filePart.getInputStream();

                String content = convertStreamToString(filecontent, "UTF-8");

                //Save the content and the parameters in the database

                if (filecontent != null) {
                    filecontent.close();
                }
            }

        } catch (ParseException ex) {
        } 
    }

static String convertStreamToString(java.io.InputStream is, String encoding) {
        java.util.Scanner s = new java.util.Scanner(is, encoding).useDelimiter("\A");
        return s.hasNext() ? s.next() : "";
    }

尽管我付出了所有努力，但我始终无法获得保留了正确字符的 "content" 字符串。我要么得到类似 "K?n" 或 "Káº¡n" 的东西（这似乎是它的 ISO-8859-1 解释），但正确的应该是 "Kạn".

为了增加问题，如果我在其他表单参数（param1 或 param2）中写入越南字符，这也需要是可能的，我只能在设置表单的 accept-charset 和servlet 扫描器编码为 ISO-8859-1，我绝对不明白。在那种情况下，如果我打印接收到的参数，我会得到类似 "K & # 7 8 4 1 ; n"（没有空格）的东西，其中包含正确字符的表示。因此，只要表单本身使用该字符集，似乎就可以使用 ISO-8859-1 从表单中读取越南字符。但是，它永远不会处理上传文件的内容。我什至尝试在 ISO-8859-1 中对文件进行编码，以对所有内容使用字符集，但它根本不起作用。

我相信这种情况并不少见，所以我想请以前可能遇到过这种情况的人提供一些帮助。我可能遗漏了一些东西，因此我们将不胜感激。

提前谢谢你。

编辑 1： 虽然这个问题还没有收到回复，但我会继续发布我的发现，以防有人感兴趣或关注它。

在尝试了许多不同的事情之后，我似乎已经缩小了问题的原因。我创建了一个 class ，它从磁盘中的特定文件夹读取文件并打印其内容。代码如下：

public static void openFile() {
    System.out.println(String.format("file.encoding: %s", System.getProperty("file.encoding")));
    System.out.println(String.format("defaultCharset: %s", Charset.defaultCharset().name()));

    File file = new File(myFilePath);
    byte[] buffer = new byte[(int) file.length()];
    BufferedInputStream f = null;
    String content = null;
    try {
        f = new BufferedInputStream(new FileInputStream(file));
    } catch (FileNotFoundException ex) {
    }

    try {
        f.read(buffer);
        content = new String(buffer, "UTF-8");
        System.out.println("UTF-8 File: " + content);
        f.close();
    } catch (IOException ex) {
    }
}

然后我给这个 class 添加了一个 main 函数，让它可以执行。当我运行它独立时，我得到以下输出：

file.encoding: UTF-8
defaultCharset: UTF-8
UTF-8 File: {"...Kạn..."}

但是，如果运行项目作为一个 webapp，正如它应该的那样，并从那个 class 调用相同的函数，我得到：

file.encoding: Cp1252
defaultCharset: windows-1252
UTF-8 File: {"...K?n..."}

当然，这清楚地表明webapp读取文件使用的默认编码不是UTF-8。因此，我对该主题进行了一些研究，并找到了为 Tomcat 创建 setenv.bat 并让它执行的 class 合理答案：

set "JAVA_OPTS=%JAVA_OPTS% -Dfile.encoding=UTF-8"

结果还是不对：

file.encoding: UTF-8
defaultCharset: UTF-8
UTF-8 File {"...Káº¡n..."}

我现在可以看到默认编码变成了UTF-8。然而，从文件中读取的内容仍然是错误的。如果我在 Microsoft Word 中打开文件，但选择使用 ISO-Latin-1 而不是 UTF-8 来读取它，上面显示的内容是相同的。出于某种奇怪的原因，读取文件仍在某处使用 ISO-Latin-1，尽管一切都指出使用 UTF-8。

同样，如果有人对此有任何建议或指导，我们将不胜感激。

Answer 1

我似乎无法结束这个问题，所以让我贡献我找到的答案。

问题是调查此类问题非常棘手，因为代码中有很多点可能会更改编码（页面，表单编码，请求编码，文件读取，文件写入，控制台输出、数据库写入、数据库读取...)。

就我而言，在完成我在问题中发布的所有内容之后，我浪费了很多时间来尝试解决不再存在的问题，只是因为 IDE 中的控制台输出（NetBeans，对于那个项目）没有使用所需的字符编码。所以我在某个点上做的每件事都是正确的，但是当我试图打印任何东西时，我都会出错。在我开始将日志写入文件而不是控制台，从而控制写入编码后，我开始清楚地了解这个问题。

在我的问题中（编辑之前）已经描述了所有内容之后，我的解决方案中缺少的是配置数据库连接的编码。令我惊讶的是，即使我的数据库和所有表都使用 UTF-8，应用程序和 MySQL 之间的通信仍然是 ISO-Latin。最后缺少的是将 "useUnicode=true&characterEncoding=utf-8" 添加到连接中，就像这样：

con = DriverManager.getConnection("jdbc:mysql:///dbname?useUnicode=true&characterEncoding=utf-8", "user", "pass");

感谢这个回答，还有很多其他的：

Java 用于 Web - Multipart/form-data 文件编码错误

Java for Web - Multipart/form-data file with wrong encoding

java

tomcat

multipartform-data

utf-8

character-encoding