管理大数据中的数据

managing data in big data

我正在看一本关于大数据的傻瓜书。

Welcome to Big Data For Dummies. Big data is becoming one of the most important technology trends that has the potential for dramatically changing the way organizations use information to enhance the customer experience and transform their business models.

Big data enables organizations to store, manage, and manipulate vast amounts of data at the right speed and at the right time to gain the right insights. The key to understanding big data is that data has to be managed so that it can meet the business requirement a given solution is designed to support. Most companies are at an early stage with their big data journey.

我可以理解存储意味着我们必须存储在 DBMS 中

我对以上文字的问题。

  1. 作者在上述上下文中管理大量数据是什么意思?示例会有所帮助。

  2. 作者"organizations transform their business models"大数据是什么意思?再举个例子会有帮助。

  3. 作者所说的“在上述上下文中操纵大量数据”是什么意思?

  1. 海量数据意味着大文件不是 MB 或 GB,它可能以万亿字节为单位。例如一些社交网站每天产生大约 6 TB 的数据。

  2. 使用传统 RDBMS 处理数据的组织。但他们正在实施 Hadoop、Spark 来轻松管理大数据。因此,他们每天都在新技术的帮助下改变他们的商业策略。他们很容易通过洞察力分析获得客户观点。

以下是您问题的答案:

1.What 作者的意思是在上述上下文中管理大量数据吗?示例会有所帮助。

Ans. When we talk about Bigdata, its the data at scale that we mention. Vast amounts of data in the above context indicates a hint at the volume of data that we can process with bigdata platforms. It could be somewhere in the range of Terabytes to petabytes or even more. This volume of data is unmanageable for the age old relational systems.

Example : Twitter, Facebook, Google etc. handling Petabytes of data on a daily basis.

2.What作者的"organizations transform their business models"是大数据的意思吗?再举个例子会有帮助。

Ans. With the use of bigdata technologies,organizations can have huge insights into their business models and accordingly they can make future strategies that can help them to conquer more business share in the market.

Example : Online Retail giant Amazon thrives on user data that helps them know about user's online shopping pattern and hence they create more products and services that are likely to shoot up the business and take them way ahead of their competitors.

3.What 作者的意思是“在上述上下文中操纵大量数据吗?示例会有所帮助。

Ans. We can manage humongous amounts of data with big data but managing is not enough. So we use sophisticated tools that help us manipulate data in such a way that it turns into business insights and ultimately into money.

Example : Clickstream data. This data consists of user clicks on websites, how much time he/she spent on a particular site, on a particular item etc. All these things when manipulated properly results in greater business insights about the users and hence a huge profit.

你的assumption/understanding "I can understand store means we have to store in DBMS"

是很久以前的路了。我在这里的详细回答中回答了这个方面。内容详尽,因此您可以预先清楚地了解大数据概念。 (我将在另一个后续回答中提供您列出的问题的答案post。)

  1. 不再只是 DBMS/RDBMS。它是数据存储,包括文件系统到数据存储。
  2. 大数据语境中,指的是 a) 大数据(数据本身) 和 b) 存储系统——分布式文件系统(高可用、可扩展、 容错是其显着特点。高吞吐量和低延迟 是有针对性的。)处理大量(倍数)(不一定 同质或一种类型的数据)比传统的 DBMS I/O 和 (durable/consistent) 存储。 和 (延期) c) 大数据生态系统,包括处理和处理或 与以上两个交互(and/or 基于)。例子。阿帕奇火花。
  3. 它可以原样存储任何文件,包括原始文件。 大数据的 DBMS 等效数据存储系统 允许为数据提供结构或存储结构化数据。
  4. 当您在任何普通用户设备(计算机、硬盘或外部硬盘)上存储数据时,您可以将 大数据 存储视为集群(defined/configurable节点的网络集合)商品硬件和存储组件(至少具有可配置的网络 IP,因此您通常需要 mount/attach 存储设备或磁盘到计算机系统或服务器以具有 IP)以提供单个聚合分布式 (data/file) 视图存储/存储系统。
  5. 所以数据:结构化(相当于传统 DBMS)、关系结构化(相当于 RDMS)、非结构化(例如,文本文件等)和半结构化 files/data(csv、json、 xml 等)。
  6. 关于大数据,它可以是平面文件、文本文件、日志文件、图像文件、视频文件或二进制文件。
  7. 还有面向行的 and/or 面向列的数据(当结构化/半结构化数据 stored/treated 作为数据库/数据仓库数据时。示例:Hive 是一个数据仓库 of/on Hadoop 允许以原样文件格式或任何特定格式(如 parquet、avro、ORC 等)存储结构化关系数据和 csv 文件等。
  8. volume/size 方面,尽管单个文件可以是(不推荐使用 KB)MB、GB 或有时 TB 聚合为 TB 和 PB(或更多; 没有官方限制)在 store/system.
  9. 的任何时间点存储
  10. 它可以是批处理数据或离散流数据或流实时数据和提要。
  11. 宽数据在性质、大小和数量等方面超越大数据)

初学者书籍: 11. Book for Beginners,虽然《Big Data for Dummies》是个不错的选择(虽然我没有亲自读过,但知道他们 series/style 当我在我的软件工程学位学习过程中接触到背部。) 12. 我建议你去找 "Hadoop: The Definitive Guide" 本书。您应该选择最新版本,恰好是第 4 版(2015 年)。它基于 Hadoop 2.x。虽然它没有通过最新的 2.x 更新得到增强,但您会发现它真的是一本读来读去的好书。

超越:

  1. 虽然 Hadoop 3 处于 alpha 阶段,但您现在不必担心。
  2. 不过请关注 Apache Hadoop 站点和文档。 (参考:http://hadoop.apache.org/) 了解并学习 Hadoop 生态系统。
  3. (大数据和 Hadoop 现在几乎成为同义词,尽管 Hadoop 是基于大数据概念的。Hadoop 是一个开源 Apache 项目。用于生产。)
  4. 我说的文件系统是HDFS(Hadoop分布式文件系统)(and/or类似)
  5. 否则是其他云存储系统,包括 AWS S3、Google 云存储和 Azure Blob 存储(对象存储)。
  6. 大数据也可以存储在否SQLDB/s 用作非关系灵活模式数据存储 DBMS,但并未针对严格的关系数据进行优化。如果存储关系数据,关系约束默认为 removed/broken。尽管提供了接口,但它们本身并不是面向 SQL 的。没有 SQL 数据库,例如 HBase(在 HDFS 之上并基于 Big Table)、Cassandra、MongoDB 等,具体取决于数据类型(或直接文件)存储和处理的 CAP 定理的属性。