如何手动控制数据模式解释
How to manually control data schema interpretation
当我从 https://www1.ncdc.noaa.gov/pub/data/uscrn/products/subhourly01/2017/CRNS0101-05-2017-TX_Austin_33_NW.txt 导出 public 天气数据时,一旦太阳辐射 > 9,其余列的所有数据都会集中到一个列中,如下所示。我已尝试以 txt 和 csv 格式上传,但问题仍然存在于 excel、工作表和数据准备中。
为什么会这样?
是否有一种编程方法可以解决此问题,以便数据按预期填充,每列 1 个值?
可能是因为初始数据结构检测不正确。如果数据集的第一行与其余行的结构不同,就会发生这种情况。
要在 Dataprep 中解决此问题,您可以按照以下步骤指示数据集的结构:
- 转到流视图
- 右键单击数据集并选择 "remove structure..."
- 打开食谱
- 插入拆分行步骤:
splitrows col: column1 on: '\n'
- 使用空白正则表达式拆分列(例如,
/\s+/
)
splitpatterns col: column1 type: on on: /\s+/ limit: 22
(您可以在创建新步骤时将以下命令复制并粘贴到搜索输入中)
这是您应该得到的:
注意:也可以在导入数据集时阻止初始结构检测。参见 https://cloud.google.com/dataprep/docs/html/Remove-Initial-Structure_136154971
当我从 https://www1.ncdc.noaa.gov/pub/data/uscrn/products/subhourly01/2017/CRNS0101-05-2017-TX_Austin_33_NW.txt 导出 public 天气数据时,一旦太阳辐射 > 9,其余列的所有数据都会集中到一个列中,如下所示。我已尝试以 txt 和 csv 格式上传,但问题仍然存在于 excel、工作表和数据准备中。
为什么会这样?
是否有一种编程方法可以解决此问题,以便数据按预期填充,每列 1 个值?
可能是因为初始数据结构检测不正确。如果数据集的第一行与其余行的结构不同,就会发生这种情况。
要在 Dataprep 中解决此问题,您可以按照以下步骤指示数据集的结构:
- 转到流视图
- 右键单击数据集并选择 "remove structure..."
- 打开食谱
- 插入拆分行步骤:
splitrows col: column1 on: '\n'
- 使用空白正则表达式拆分列(例如,
/\s+/
)splitpatterns col: column1 type: on on: /\s+/ limit: 22
(您可以在创建新步骤时将以下命令复制并粘贴到搜索输入中)
这是您应该得到的:
注意:也可以在导入数据集时阻止初始结构检测。参见 https://cloud.google.com/dataprep/docs/html/Remove-Initial-Structure_136154971