我的酒店评论数据集中的关系是什么？

Question

我有一个酒店评论数据集。数据集中的每个文件都用于不同的酒店。我被要求 "Write down the relation you identify in the dataset. Ensure you include data types and the primary key." 这是我的数据集中的示例文件：

<Overall Rating>4
<Avg. Price>3
<URL>http://...

<Author>everywhereman2
<Content>Old seattle getaway...
<Date>Jan 6, 2009
<img src="http://cdn.tripadvisor.com/img2/new.gif" alt="New"/>
<No. Reader>-1
<No. Helpful>-1
<Overall>5
<Value>5
<Rooms>5
<Location>5
<Cleanliness>5
<Check in / front desk>5
<Service>5
<Business service>5

<Author>RW53
<Content>Location! Location?       view from room of nearby freeway 
<Date>Dec 26, 2008
<No. Reader>-1
<No. Helpful>-1
<Overall>3
<Value>4
<Rooms>3
<Location>2
<Cleanliness>4
<Check in / front desk>3
<Service>-1
<Business service>-1

...new review e.t.c

Author to Business 服务部分（第 5 行到第 18 行）表示对酒店的评论。然后，该文件将继续针对该酒店重复第 5 行到第 18 行的许多评论。我希望这是有道理的。这是我认为的关系：

HotelReview(String: Author, String: Content, Date: Date, String: img src, Int: No. Reader, Int: No. Helpful, Int: Overall, Int: Value, Int: Rooms, Int: Location, Int: Cleanliness, Int: Checkin / front desk, Int: Service, Int: Business Service)

还是

HotelReview(Int: Overall Rating, Int: Avg. Price, String: URL)

由于我是新手，所以我可能会离开，感谢您的帮助。谢谢

Answer 1

也许我不是最好的答案，但我会试一试。

首先，您可能需要查找一些有关数据库架构设计的书籍或博客。这应该为您提供有关如何处理此任务的一般指导。

然后，根据显示的数据，您可能会识别出 2 个实体：

酒店（来自 header 部分）
具有以下属性：
- 综合评分
- 平均价格整数
- URL url 或文字
前两个实际上可能是从其他来源导出（计算）的值，但正如所呈现的那样，这类似于真实的属性值）
可能从这里，URL 是主键，如果没有其他更适合的值未在示例中显示。
HotelReview（来自重复部分）
具有属性：
- 酒店（来自酒店实体的 url 外键）
- 作者文本（或者可能是作者的外键 table 如果作者是 "well known"）
- 日期日期
- img url 或文字（或者这是指进一步的 table？）
- 所有使用 Int 类型的值属性
对于给定的数据，此关系没有 "good" 主键。您所拥有的只是 Author 和 Date 作为组合键。但使用它意味着作者可能每天只提供一次评论。如果这是一个合理的限制，那就继续吧。否则，您需要引入更多属性（例如 评论时间 才能通过此限制，或者简单地为评论引入唯一标识评论并可用作主键的序列号。

对于指定的类型，您当然应该遵循您的类型系统可用的类型。如果有 none，则指出最精确的类型并提供类型和语义列表。例如。您可以使用类型 score 表示这是从 -1 到 10 的整数值，其中 -1 表示 "deliberately no value"，其他是 10 的潜在分数 是最好成绩。然后将这些用于不同的类别。

我的酒店评论数据集中的关系是什么？

What is the Relation in my Dataset of Hotel Reviews?

relational-algebra

dataset

relation