非结构化数据是什么意思?在使用 ETL 工具处理数据的领域?

What is meant by unstructured data? In the field of using ETL tools to work on data?

我和一个队友在讨论我们的工作经历,他说他曾在名为 Informatica 的工具中工作过。他的工作涉及从 EDI 文件中提取所需信息并进行转换,然后将它们加载到数据库中。 他说 EDI 文件具有非结构化数据,与 .CSV 和 .SQL 等格式相反,并且在 EDI 文件中,列由“|”分隔符号。

在我看来,我认为 EDI 和 CSV 之间没有任何区别,只是 CSV 是“,”分隔的,而 EDI 是“|”分开那么为什么EDI文件会被归类为非结构化数据?

传统的 EDI 不是非结构化的。 EDI 通常遵循某种专门定义数据结构的标准(X12、EDIFACT、TRADACOMS 等)。 XML、CSV 和分隔文件也是结构化的。它们有一个定义的字段分隔符和一个记录终止符。

非结构化数据的一个示例是 Excel 文件,该文件包含专有格式的多条数据。没有记录标识符,数据解析器将无法理解数据是什么。它会显示为数据/文本流,但不会有映射器需要的任何上下文 translate/integrate。 Word 文档或 PDF 也可以视为 "unstructured"。