社交媒体数据如何成为非结构化数据?

How is social media data unstructured data?

我最近开始阅读大数据,以及如何使用 hadoop 或 BigInsights 等工具来管理结构化和非结构化数据。

社交媒体分析可以在 BigInsights 上完成,它采用非结构化数据并相应地 analyzes/structures。

这让我想知道,社交媒体数据是如何非结构化的?例如,可以使用 Twitter REST API 调用您在推文上收到的信息,并以结构化 JSON 格式返回给您。

那么社交媒体数据不是已经结构化了吗?如果是这样,为什么您需要一个主要管理非结构化数据的平台?

这不仅仅是获取推文。数据的真正价值在于了解推特上发布的内容。以 Facebook 为例,我们可以在其中对任何图片或视频发表评论。我们需要一个平台来了解所有评论对视频的正面评价或有多少是雪橇它,或者有多少评论是关于它的真实反馈。有多少人对此提出了改进建议。您还需要知道视频被分享和点赞的次数。同样,所有共享的人都是不喜欢它或喜欢它的人。可以收集到这么多种类的数据,所以这些都被称为非结构化数据。

有些人也区分“半结构化”。

但重点是查询数据的能力。是的,推文等通常有一些结构。但是对分析没有帮助

给定一个难看的 SQL 架构,您确实可以 运行 一个像

这样的查询
 SELECT AVG(TweetID) FROM Twitter;

但该功能在实践中毫无用处。这可能就是为什么最好将数据视为非结构化数据的原因:将其压缩到关系模式中不会从中受益。

不过,请注意带有大数据的流行语宾果游戏。通常“支持非结构化数据”实际上意味着“不从数据结构中获益(通过使用索引)但每次都重新读取数据”