我的酒店评论数据集中的关系是什么?

What is the Relation in my Dataset of Hotel Reviews?

我有一个酒店评论数据集。数据集中的每个文件都用于不同的酒店。我被要求 "Write down the relation you identify in the dataset. Ensure you include data types and the primary key." 这是我的数据集中的示例文件:

<Overall Rating>4
<Avg. Price>3
<URL>http://...

<Author>everywhereman2
<Content>Old seattle getaway...
<Date>Jan 6, 2009
<img src="http://cdn.tripadvisor.com/img2/new.gif" alt="New"/>
<No. Reader>-1
<No. Helpful>-1
<Overall>5
<Value>5
<Rooms>5
<Location>5
<Cleanliness>5
<Check in / front desk>5
<Service>5
<Business service>5

<Author>RW53
<Content>Location! Location?       view from room of nearby freeway 
<Date>Dec 26, 2008
<No. Reader>-1
<No. Helpful>-1
<Overall>3
<Value>4
<Rooms>3
<Location>2
<Cleanliness>4
<Check in / front desk>3
<Service>-1
<Business service>-1

...new review e.t.c

Author to Business 服务部分(第 5 行到第 18 行)表示对酒店的评论。然后,该文件将继续针对该酒店重复第 5 行到第 18 行的许多评论。我希望这是有道理的。这是我认为的关系:

HotelReview(String: Author, String: Content, Date: Date, String: img src, Int: No. Reader, Int: No. Helpful, Int: Overall, Int: Value, Int: Rooms, Int: Location, Int: Cleanliness, Int: Checkin / front desk, Int: Service, Int: Business Service) 

还是

HotelReview(Int: Overall Rating, Int: Avg. Price, String: URL) 

由于我是新手,所以我可能会离开,感谢您的帮助。谢谢

也许我不是最好的答案,但我会试一试。

首先,您可能需要查找一些有关数据库架构设计的书籍或博客。这应该为您提供有关如何处理此任务的一般指导。

然后,根据显示的数据,您可能会识别出 2 个实体:

  • 酒店(来自 header 部分)
    具有以下属性:

    • 综合评分
    • 平均价格整数
    • URL url 或文字

    前两个实际上可能是从其他来源导出(计算)的值,但正如所呈现的那样,这类似于真实的属性值)
    可能从这里,URL 是主键,如果没有其他更适合的值未在示例中显示。

  • HotelReview(来自重复部分)
    具有属性:

    • 酒店(来自酒店实体的 url 外键)
    • 作者文本(或者可能是作者的外键 table 如果作者是 "well known")
    • 日期日期
    • img url 或文字(或者这是指进一步的 table?)
    • 所有使用 Int 类型的值属性

    对于给定的数据,此关系没有 "good" 主键。您所拥有的只是 AuthorDate 作为组合键。但使用它意味着作者可能每天只提供一次评论。如果这是一个合理的限制,那就继续吧。否则,您需要引入更多属性(例如 评论时间 才能通过此限制,或者简单地为评论引入唯一标识评论并可用作主键的序列号。

对于指定的类型,您当然应该遵循您的类型系统可用的类型。如果有 none,则指出最精确的类型并提供类型和语义列表。例如。您可以使用类型 score 表示这是从 -1 到 10 的整数值,其中 -1 表示 "deliberately no value",其他是 10 的潜在分数 是最好成绩。然后将这些用于不同的类别。