跳过格式错误的 csv 行

skip malformed csv row

我一直在尝试读取 csv 并将字段添加到数据结构中。但是,其中一排的格式不正确,我知道这一点。我只想跳过这一行,转到另一行。但是,即使我正在捕获异常,它仍然打破了循环。知道我在这里缺少什么吗?

我的 csv:

"id","name","email"
121212,"Steve","steve@example.com"
121212,"Steve","steve2@example.com",,
121212,"Steve","steve@example.com"

我的代码:

import com.fasterxml.jackson.databind.MappingIterator;
import com.fasterxml.jackson.dataformat.csv.CsvMapper;
import com.fasterxml.jackson.dataformat.csv.CsvSchema;

public static void main(String[] args) throws Exception{
    Path path = Paths.get("list2.csv");
    CsvMapper mapper = new CsvMapper();
    CsvSchema schema = CsvSchema.emptySchema().withHeader();
    MappingIterator<Object> it = mapper.reader(Object.class)
            .with(schema)
            .readValues(path.toFile());

    try{
        while(it.hasNext()){
            Object row;
            try{
                row = it.nextValue();
            } catch (IOException e){
                e.printStackTrace();
                continue;
            }
        }
    } catch (ArrayIndexOutOfBoundsException e){
        e.printStackTrace();
    }

}

异常:

com.fasterxml.jackson.core.JsonParseException: Too many entries: expected at most 3 (value #3 (0 chars) "")
 at [Source: java.io.InputStreamReader@12b3519c; line: 3, column: 38]
    at com.fasterxml.jackson.core.JsonParser._constructError(JsonParser.java:1486)
    at com.fasterxml.jackson.core.base.ParserMinimalBase._reportError(ParserMinimalBase.java:518)
    at com.fasterxml.jackson.dataformat.csv.CsvParser._handleNextEntryExpectEOL(CsvParser.java:601)
    at com.fasterxml.jackson.dataformat.csv.CsvParser._handleNextEntry(CsvParser.java:587)
    at com.fasterxml.jackson.dataformat.csv.CsvParser.nextToken(CsvParser.java:474)
    at com.fasterxml.jackson.databind.deser.std.UntypedObjectDeserializer$Vanilla.mapObject(UntypedObjectDeserializer.java:592)
    at com.fasterxml.jackson.databind.deser.std.UntypedObjectDeserializer$Vanilla.deserialize(UntypedObjectDeserializer.java:440)
    at com.fasterxml.jackson.databind.MappingIterator.nextValue(MappingIterator.java:188)
    at CSVTest.main(CSVTest.java:24)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at com.intellij.rt.execution.application.AppMain.main(AppMain.java:140)
java.lang.ArrayIndexOutOfBoundsException: 3
    at com.fasterxml.jackson.dataformat.csv.CsvSchema.column(CsvSchema.java:941)
    at com.fasterxml.jackson.dataformat.csv.CsvParser._handleNamedValue(CsvParser.java:614)
    at com.fasterxml.jackson.dataformat.csv.CsvParser.nextToken(CsvParser.java:476)
    at com.fasterxml.jackson.databind.MappingIterator.hasNextValue(MappingIterator.java:158)
    at CSVTest.main(CSVTest.java:21)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at com.intellij.rt.execution.application.AppMain.main(AppMain.java:140)

com.fasterxml.jackson.core.JsonParseException 是一个 IOException,因此应该在 try-catch 块中捕获异常。它没有被捕获的事实使我相信它发生在 hasNext() 方法中。这是一个常见的模式:为了知道是否还有另一个,你实际上必须尝试阅读下一个。

我不能确定,因为省略了一些堆栈跟踪,但是:

  • 如果 ArrayIndexOutOfBoundsException 是抛出的异常(而不是 "cause"),那么原因是您在循环之外捕获了它。
  • 如果异常是 IOException 的(子类),那么正如 Chris Gerken 所写的那样,它可能会在 it.hasNext() 中被抛出,在这种情况下你根本不会捕捉到它,所以你的程序将退出。

堆栈跟踪的其余部分将指出问题出在这些问题中的哪一个或其他原因。



根据完整的输出和堆栈跟踪进行更新:

在 CSVTest.java 的第 24 行,您调用 .nextValue()。在调用这个方法的实现中,抛出一个JsonParseException。因为它是 IOException 的子类,您的 catch 块会捕获它,打印堆栈跟踪并继续您的循环。到目前为止一切顺利。

com.fasterxml.jackson.core.JsonParseException: Too many entries: expected at most 3 (value #3 (0 chars) "")
 at [Source: java.io.InputStreamReader@12b3519c; line: 3, column: 38]
   at com.fasterxml.jackson.core.JsonParser._constructError(JsonParser.java:1486)
   at com.fasterxml.jackson.core.base.ParserMinimalBase._reportError(ParserMinimalBase.java:518)
   at com.fasterxml.jackson.dataformat.csv.CsvParser._handleNextEntryExpectEOL(CsvParser.java:601)
   at com.fasterxml.jackson.dataformat.csv.CsvParser._handleNextEntry(CsvParser.java:587)
   at com.fasterxml.jackson.dataformat.csv.CsvParser.nextToken(CsvParser.java:474)
   at com.fasterxml.jackson.databind.deser.std.UntypedObjectDeserializer$Vanilla.mapObject(UntypedObjectDeserializer.java:592)
   at com.fasterxml.jackson.databind.deser.std.UntypedObjectDeserializer$Vanilla.deserialize(UntypedObjectDeserializer.java:440)
   at com.fasterxml.jackson.databind.MappingIterator.nextValue(MappingIterator.java:188)
   at CSVTest.main(CSVTest.java:24)

之后,在 CSVTest.java 的第 21 行,您调用 .hasNextValue()。在这个方法的实现中,抛出一个ArrayIndexOutOfBoundsException。你抓住它,并打印堆栈跟踪。但是,您的 catch 块在循环之外,因此当您捕获到异常时,循环已经退出。

java.lang.ArrayIndexOutOfBoundsException: 3
    at com.fasterxml.jackson.dataformat.csv.CsvSchema.column(CsvSchema.java:941)
    at com.fasterxml.jackson.dataformat.csv.CsvParser._handleNamedValue(CsvParser.java:614)
    at com.fasterxml.jackson.dataformat.csv.CsvParser.nextToken(CsvParser.java:476)
    at com.fasterxml.jackson.databind.MappingIterator.hasNextValue(MappingIterator.java:158)
    at CSVTest.main(CSVTest.java:21)

如果您真的想在此处继续循环,则需要将 try-catch 结构移到循环内。大概是这样的:

while (true)
    {
    try
        {
        if (!it.hasNextValue())
            { break; }
        }
    catch (final ArrayIndexOutOfBoundsException err)
        {
        err.printStackTrace();
        continue;
        }

    Object row;
    try
        { row = it.nextValue(); }
    catch (final IOException err)
        {
        err.printStackTrace();
        continue;
        }
    }

但是,这段代码是死循环。当hasNextValue() 抛出ArrayIndexOutOfBoundsException 时,状态没有改变循环永远不会结束。我展示这个是为了展示在循环内移动 catch 块的原理,而不是作为可行的解决方案。

您在引用 jackson-dataformat-csv 中的错误处理讨论的问题中添加了评论。在跳过格式错误的行时,您似乎在库中遇到了限制(或错误)。

您的 CSV 不一定格式错误,事实上,行中列数不同的情况很常见。

univocity-parsers 处理这个没有任何问题。

最简单的方法是:

BeanListProcessor<TestBean> rowProcessor = new BeanListProcessor<TestBean>(TestBean.class);

CsvParserSettings parserSettings = new CsvParserSettings();
parserSettings.setRowProcessor(rowProcessor);
parserSettings.setHeaderExtractionEnabled(true);

CsvParser parser = new CsvParser(parserSettings);
parser.parse(new FileReader(Paths.get("list2.csv").toFile());

// The BeanListProcessor provides a list of objects extracted from the input.
List<TestBean> beans = rowProcessor.getBeans();

如果要丢弃使用列数不一致的行构建的元素,请覆盖beanProcessed方法并使用ParsingContext对象分析您的数据并决定是保留还是丢弃行。

披露:我是这个图书馆的作者。它是开源且免费的(Apache V2.0 许可)。

Jackson 2.6 对 readValues() 的处理得到了改进,可以尝试从处理错误中恢复,这样在许多情况下您可以再试一次,以读取以下有效行。所以请确保至少使用版本 2.6.2.

较早的版本也没有恢复,通常导致其余内容无法处理;这可能就是你的情况。

考虑到您的问题不是 CSV 无效,而是 CSV 不可映射(至少 POJO 的定义方式如此),另一种可能性是将内容读取为 String[] 的序列,并手动处理映射。 Jackson 的 CSV 解析器本身不介意任何数量的列,它是更高级的数据绑定,它喜欢查找它无法识别的 "extra" 内容。