为什么视频是大数据背景下的非结构化数据?
Why videos are unstructured data in context of Big data?
我正在尝试深入研究大数据,我遇到的术语很少是 structured
和 unstructured data
。我理解了 structured
和非结构化数据的含义。
我很难理解为什么视频和照片属于 unstructured data
类别。
谁能帮我理解一下?
大多数 'structured' 数据的定义是指具有高度组织性的数据,通常表示预定义的数据模式。模式通常由特定顺序的多个字段组成,每个字段只包含一种类型的数据,很像经典的数据库 table:
userId,username,age,location,joinedOn
12,"Polly",20,"Washington DC","2016-02-23 13:34:01"
14,"Dan",19,"San Diego CA","2016-11-10 18:32:21"
15,"Shania",36,"","2017-01-04 10:46:39"
在本例中,您有两个字符串字段、两个整数字段和一个 Date/Time-type 字段。在大数据环境中,这允许方便的数据 querying/processing、大大改进的压缩以及高效的存储。所有这些都可能是难题,尤其是当数据量变大时。
现在考虑可以用多种不同方式表示的图像:简单位图、矢量、渐进式 JPEG、具有内置变量压缩的格式、分形、动画帧容器等。不仅如此,图像还具有不同的大小、调色板和元数据,以及所有这些变化意味着您不能真正将具有不同属性的两个图像视为一个数据模式(这意味着您无法获得面向列的存储、压缩或查询的好处) .
至于视频,以上所有内容仍然适用,除非您有容器格式,其中可以包含多种不同的视频(和音频)编解码器和压缩,进一步增加了复杂性。
我正在尝试深入研究大数据,我遇到的术语很少是 structured
和 unstructured data
。我理解了 structured
和非结构化数据的含义。
我很难理解为什么视频和照片属于 unstructured data
类别。
谁能帮我理解一下?
大多数 'structured' 数据的定义是指具有高度组织性的数据,通常表示预定义的数据模式。模式通常由特定顺序的多个字段组成,每个字段只包含一种类型的数据,很像经典的数据库 table:
userId,username,age,location,joinedOn
12,"Polly",20,"Washington DC","2016-02-23 13:34:01"
14,"Dan",19,"San Diego CA","2016-11-10 18:32:21"
15,"Shania",36,"","2017-01-04 10:46:39"
在本例中,您有两个字符串字段、两个整数字段和一个 Date/Time-type 字段。在大数据环境中,这允许方便的数据 querying/processing、大大改进的压缩以及高效的存储。所有这些都可能是难题,尤其是当数据量变大时。
现在考虑可以用多种不同方式表示的图像:简单位图、矢量、渐进式 JPEG、具有内置变量压缩的格式、分形、动画帧容器等。不仅如此,图像还具有不同的大小、调色板和元数据,以及所有这些变化意味着您不能真正将具有不同属性的两个图像视为一个数据模式(这意味着您无法获得面向列的存储、压缩或查询的好处) .
至于视频,以上所有内容仍然适用,除非您有容器格式,其中可以包含多种不同的视频(和音频)编解码器和压缩,进一步增加了复杂性。