许多小 mysql table 或一大 table

Question

我有一个论坛，我有像这样的属性 - > follow、voteup、votedown、report、favorite、view 等每个主题、答案、评论。

哪种方法性能更快更好？我期待数十亿 favorite、views 等....就像 youtube

方法一

做大一个tablecounter

counter_id | user_id | object_id | object_type | property

其中 object_type = thread、comment、answer 以及来自 table 的 threads 各自的 id， comments,answers

和property = follow,voteup,votedown,report等

方法二

制作 follow、views、report 等 table 个

views

view_id | user_id | object_id | object_type
follows

follow_id | user_id | object_id | object_type

Answer 1

这个问题没有唯一的答案，它很主观。

最常见的是，最好考虑设计的用例。在将这些字段添加到任何 table 之前，请仔细考虑这些字段的用途。并且不要认为您必须向每个 table 添加数字主键 ("ID")。用于跟踪的 table 仅适用于字段 user id | object id | object type 和主键中包含的所有三个字段。

您的代码不太可能会在诸如 youtube 甚至堆栈溢出等性能限制下使用。如果是，那么您很可能已经对数据库进行了改造。

但是，为了练习起见，请考虑在何处以及如何使用数据...

我会像下面这样分开 tables

关注用户提要可能需要自己的 table，因为最常见的是它会从任何地方（有点像全球收件箱）被点击。下面还应该有一些标志或时间戳来显示更改，以便很容易评估自用户上次在线以来发生更改的时间......

这是因为用户需要查看他们作为某种提要关注的内容，而其他用户需要查看有多少人关注了。但是其他人不需要看还有谁关注了。

投赞成票，投反对票 那只是投票和一个 +- 标志。对此进行非规范化...即在 table 中存储用户的个人投票，并在 object 的 table 的字段上存储反对 object 的票数.这样一来，您只会检查单个用户（他们自己）的页面视图投票。从包含内容的同一行检索计数。

再次。用户需要查看他们 up/down 投票的内容。您需要检查他们没有投票两次。重要的是最后的计数。因此，检查 object 一百万票不应该达到一百万行 - 只需一个。

专业提示：如果您不断更新包含大量内容的行，某些数据库引擎的性能会很差。因此，为所有 object 考虑一个 "meta-data" table。哪些商店算这样。这使得元数据可以自由地频繁更新，即使内容没有。

收藏夹 再次拥有 table。 user id | object id | object type。如果您想向 public 显示收藏夹的数量，请针对 object 进行计数，不要在每次页面查看时都执行 select count(*)。

查看为什么还要存储这个？计算 object。如果您要存储历史记录，请确保为其添加时间戳并定期清除它。您不需要存储用户六个月前查看的内容。

作为一般观察，除了赞成票和反对票外，所有这些都是独立的 table。

您应该对计数进行非规范化，以减少服务器需要访问以确定页面视图的数据量。最常见的页面视图应该是最快的。任何形式的更新都可能会慢一点。

我提到 favorites 和其他人不需要额外的主键字段。我的意思是他们有一个主键，而不是一个额外的字段。例如收藏夹可以是：

CREATE TABLE favourites (
    user INT,
    object_type INT,
    object_id INT,
    PRIMARY KEY (user, object_type, object_id)
)

根本没有理由拥有 favorite_id 字段。

Answer 2

答案，第 1 部分：边走边计划重新设计。

我能给你的最好建议是为改变做计划。你为第一百万人设计的东西不会为三千万人工作。 3000万的设计活不过10亿。阅读此线程后无论您做什么，都可能会持续 30K 行。

这是为什么？好吧，部分原因是您将无法在一台机器上完成它。现在不要对数据库进行分片，但请牢记您需要对其进行分片。到那时，许多在一台机器上工作的东西要么不能在多台机器上工作，要么太慢而无法工作。所以你将不得不重新设计。

让我指出 10 亿行的另一个方面。想一想在 1 年内将 table 行增加到 1B 行需要多快。每秒超过30个。这还不错，直到你考虑到你将得到的尖峰。

如果您布置的磁盘放不下您的第二个十亿会怎样？

任何增长到十亿行的人都必须边学边学。教科书不去那里；手册不在那里；只有推销员去那里，但支票结清后他们不会留下来。看看 YouTube（等）——几乎什么都没有 "off the shelf"。

想想你需要雇佣多少聪明的设计师才能达到 10 亿。

向十亿行添加一列是很痛苦的 table，因此 (1) 提前计划，并且 (2) 设计一种在不造成重大中断的情况下进行更改的方法。

答案，第 2 部分：一些提示

以下是我对反复出现的想法的一些评论，以及来自处理过十亿行分片系统（不是 YouTube，而是类似系统）的人的一些提示。

规范化与非规范化：我的座右铭："Normalize, but don't overnormalize."你会在你完成一些之后明白我的意思。

一个 table 与多个：具有基本相同 CREATE TABLE 的两个 table 应该通常是一个 table。（当然，分片违反了这一点。）OTOH，如果您每秒需要数千 UPDATE...view_count = view_count + 1，它就无法存活到十亿。但是，它可能会存活到一百万；然后计划改变。

最小化数据类型的大小 -- 对一列使用 MEDIUMINT 而不是 INT 可以节省 1 GB。

不要使用 OFFSET 和 LIMIT 进行分页。（我有一篇关于解决方法的博客。）

尽可能批量插入。

使用 InnoDB，您不想等待数小时才能在 MyISAM 上完成修复 table。

为 'next' 项获取唯一 ID 的简单任务在分片系统中可能是一个大问题。等到您接近需要分片时再重新设计该部分。不要对十亿行使用 UUID table；他们将表现不佳。所以，现在甚至不要考虑 UUID；你会把它们扔掉。

早在你达到 10 亿之前，你就会做关于一台机器崩溃的噩梦。尽早考虑复制、HA 等。在你有大 tables 之后设置这样的东西很痛苦。

许多小 mysql table 或一大 table

Lots of small mysql table or one big table

mysql

sql

database

performance

structure

方法一

方法二