我的酒店评论数据集中的关系是什么?
What is the Relation in my Dataset of Hotel Reviews?
我有一个酒店评论数据集。数据集中的每个文件都用于不同的酒店。我被要求 "Write down the relation you identify in the dataset. Ensure you include data types and the primary key." 这是我的数据集中的示例文件:
<Overall Rating>4
<Avg. Price>3
<URL>http://...
<Author>everywhereman2
<Content>Old seattle getaway...
<Date>Jan 6, 2009
<img src="http://cdn.tripadvisor.com/img2/new.gif" alt="New"/>
<No. Reader>-1
<No. Helpful>-1
<Overall>5
<Value>5
<Rooms>5
<Location>5
<Cleanliness>5
<Check in / front desk>5
<Service>5
<Business service>5
<Author>RW53
<Content>Location! Location? view from room of nearby freeway
<Date>Dec 26, 2008
<No. Reader>-1
<No. Helpful>-1
<Overall>3
<Value>4
<Rooms>3
<Location>2
<Cleanliness>4
<Check in / front desk>3
<Service>-1
<Business service>-1
...new review e.t.c
Author to Business 服务部分(第 5 行到第 18 行)表示对酒店的评论。然后,该文件将继续针对该酒店重复第 5 行到第 18 行的许多评论。我希望这是有道理的。这是我认为的关系:
HotelReview(String: Author, String: Content, Date: Date, String: img src, Int: No. Reader, Int: No. Helpful, Int: Overall, Int: Value, Int: Rooms, Int: Location, Int: Cleanliness, Int: Checkin / front desk, Int: Service, Int: Business Service)
还是
HotelReview(Int: Overall Rating, Int: Avg. Price, String: URL)
由于我是新手,所以我可能会离开,感谢您的帮助。谢谢
也许我不是最好的答案,但我会试一试。
首先,您可能需要查找一些有关数据库架构设计的书籍或博客。这应该为您提供有关如何处理此任务的一般指导。
然后,根据显示的数据,您可能会识别出 2 个实体:
酒店(来自 header 部分)
具有以下属性:
- 综合评分
- 平均价格整数
- URL url 或文字
前两个实际上可能是从其他来源导出(计算)的值,但正如所呈现的那样,这类似于真实的属性值)
可能从这里,URL 是主键,如果没有其他更适合的值未在示例中显示。
HotelReview(来自重复部分)
具有属性:
- 酒店(来自酒店实体的 url 外键)
- 作者文本(或者可能是作者的外键 table 如果作者是 "well known")
- 日期日期
- img url 或文字(或者这是指进一步的 table?)
- 所有使用 Int 类型的值属性
对于给定的数据,此关系没有 "good" 主键。您所拥有的只是 Author 和 Date 作为组合键。但使用它意味着作者可能每天只提供一次评论。如果这是一个合理的限制,那就继续吧。否则,您需要引入更多属性(例如 评论时间 才能通过此限制,或者简单地为评论引入唯一标识评论并可用作主键的序列号。
对于指定的类型,您当然应该遵循您的类型系统可用的类型。如果有 none,则指出最精确的类型并提供类型和语义列表。例如。您可以使用类型 score 表示这是从 -1 到 10 的整数值,其中 -1 表示 "deliberately no value",其他是 10 的潜在分数 是最好成绩。然后将这些用于不同的类别。
我有一个酒店评论数据集。数据集中的每个文件都用于不同的酒店。我被要求 "Write down the relation you identify in the dataset. Ensure you include data types and the primary key." 这是我的数据集中的示例文件:
<Overall Rating>4
<Avg. Price>3
<URL>http://...
<Author>everywhereman2
<Content>Old seattle getaway...
<Date>Jan 6, 2009
<img src="http://cdn.tripadvisor.com/img2/new.gif" alt="New"/>
<No. Reader>-1
<No. Helpful>-1
<Overall>5
<Value>5
<Rooms>5
<Location>5
<Cleanliness>5
<Check in / front desk>5
<Service>5
<Business service>5
<Author>RW53
<Content>Location! Location? view from room of nearby freeway
<Date>Dec 26, 2008
<No. Reader>-1
<No. Helpful>-1
<Overall>3
<Value>4
<Rooms>3
<Location>2
<Cleanliness>4
<Check in / front desk>3
<Service>-1
<Business service>-1
...new review e.t.c
Author to Business 服务部分(第 5 行到第 18 行)表示对酒店的评论。然后,该文件将继续针对该酒店重复第 5 行到第 18 行的许多评论。我希望这是有道理的。这是我认为的关系:
HotelReview(String: Author, String: Content, Date: Date, String: img src, Int: No. Reader, Int: No. Helpful, Int: Overall, Int: Value, Int: Rooms, Int: Location, Int: Cleanliness, Int: Checkin / front desk, Int: Service, Int: Business Service)
还是
HotelReview(Int: Overall Rating, Int: Avg. Price, String: URL)
由于我是新手,所以我可能会离开,感谢您的帮助。谢谢
也许我不是最好的答案,但我会试一试。
首先,您可能需要查找一些有关数据库架构设计的书籍或博客。这应该为您提供有关如何处理此任务的一般指导。
然后,根据显示的数据,您可能会识别出 2 个实体:
酒店(来自 header 部分)
具有以下属性:- 综合评分
- 平均价格整数
- URL url 或文字
前两个实际上可能是从其他来源导出(计算)的值,但正如所呈现的那样,这类似于真实的属性值)
可能从这里,URL 是主键,如果没有其他更适合的值未在示例中显示。HotelReview(来自重复部分)
具有属性:- 酒店(来自酒店实体的 url 外键)
- 作者文本(或者可能是作者的外键 table 如果作者是 "well known")
- 日期日期
- img url 或文字(或者这是指进一步的 table?)
- 所有使用 Int 类型的值属性
对于给定的数据,此关系没有 "good" 主键。您所拥有的只是 Author 和 Date 作为组合键。但使用它意味着作者可能每天只提供一次评论。如果这是一个合理的限制,那就继续吧。否则,您需要引入更多属性(例如 评论时间 才能通过此限制,或者简单地为评论引入唯一标识评论并可用作主键的序列号。
对于指定的类型,您当然应该遵循您的类型系统可用的类型。如果有 none,则指出最精确的类型并提供类型和语义列表。例如。您可以使用类型 score 表示这是从 -1 到 10 的整数值,其中 -1 表示 "deliberately no value",其他是 10 的潜在分数 是最好成绩。然后将这些用于不同的类别。