过滤 IMPORTHTML 数据

Question

当我导入数据时，它采用这种格式 (image 1)，带有空格。我想知道是否有任何方法可以调整以使这些空白消失，预期的两个模型（图像 2 和 3）如果有任何方法可以到达它们将很重要我。

记住所有日期都有 / 并且所有时间都有 :

我尝试从 QUERY 过滤，但是当尝试 "Select Col1, Col2, Col4 Where Col2 is not null" 时，日期消失，只剩下时间，我尝试通过 REGEXMATCH 将日期与时间分开使用/ 和 : 但我也没有成功。

我也通过 IMPORTXML 尝试过，但有些数据最终无法正确导入网站的某些页面，因为 IMPORTHTML 这些错误不会发生。我使用的 XML's 是：

"//tr[@class='no-date-repetition-new' and ..//td[@class='team team-a']] | //tr[@class='no-date-repetition-new live-now' and ..//td[@class='team team-a']]"
"//td[@class='team team-a']/a | //td[@class='team team-a strong']/a"

当前公式如下：
=IMPORTHTML("https://int.soccerway.com/national/austria/1-liga/20192020/regular-season/r54328/","table",1)

IMPORTHTML 原文：

预期格式：
---

Answer 1

您需要的不是过滤，而是重组导入的数据。

无论如何，我认为更容易获得最终结果的解决方案是使用多个 IMPORTXML 公式。

URL
A1: https://int.soccerway.com/national/austria/1-liga/20192020/regular-season/r54328/

Headers
A2: //table[contains(@class,'matches')]/thead/tr/th

天
A3: //td[contains(@class,'date')]/parent::tr

球队和得分
A4: //td[contains(@class,'team-a')]/parent::tr

A6: =transpose(IMPORTXML($A,A2))
A7: =IMPORTXML($A,A3)
B7：=IMPORTXML(A1,A4)

您可能想用静态值替换 A6 上的公式，以便正确放置它们。

Answer 2

您可以在一个公式中将 2 个查询连接在一起（一个并排），以获得您的结果

={QUERY(IMPORTHTML("https://int.soccerway.com/national/austria/1-liga/20192020/regular-season/r54328/","table",1), 
    "select Col1 where Col2 is null and not Col1 contains '*'",1), 
QUERY(IMPORTHTML("https://int.soccerway.com/national/austria/1-liga/20192020/regular-season/r54328/","table",1), 
    "select Col1, Col2, Col3, Col4 where Col2 is not null label Col1 'Time'",1)}

公式的工作原理：

如您所见，两个查询的数据部分在两个查询中是相同的。实际上不同的是“我们从查询中要求的”
在第一个中我们使用 "select Col1 where Col2 is null and not Col1 contains '*'"
第二个"select Col1, Col2, Col3, Col4 where Col2 is not null label Col1 'Time'"
我们通过将它们连接在一起来创建一个数组，如 ={1stQUERY,2ndQUERY}

过滤 IMPORTHTML 数据

Filter IMPORTHTML data

google-sheets

google-sheets-query

google-sheets-formula

google-sheets-importxml