Spark (Scala)：来自数据帧 count() 的 println 的流氓“%”符号

Question

我正在与 Yelp Academic Dataset 合作，我从评论样本中抽取了一小部分样本，以确定小范围内不同的、经过评论的企业的数量。

val distinctReviewedBusinesses = reviewsDataFrame.select("business_id").distinct()
print("Number of distinct, reviewed businesses: " + distinctReviewedBusinesses.count())

我不是在寻求问题的解决方案，而是关于输出的一个错误，它有一个流氓百分号“%”（如下所示）。它在那里有什么生意？

Number of distinct, reviewed businesses: 6600%

在下图中，您可以看到，出于某种原因，百分号被突出显示。

Scala：v2.11.8
Spark：v2.3.2

Answer 1

我假设您使用的是 zsh。在 zsh 中，该符号表示输出的最后一行没有终止换行符。发生这种情况是因为您使用的是 print 而不是 println。参见 more on SuperUser。

Spark (Scala)：来自数据帧 count() 的 println 的流氓“%”符号

Spark (Scala): Rogue '%' sign from println of dataframe count()

scala

println

dataframe

apache-spark