数据清理:通过删除'.'从字符串数组中提取数字和 ';'人物
Data cleaning: extracting numbers out of string array by deleting '.' and ';' characters
我有一个大数据集什么乱七八糟的。我试着清理它。
数据如下所示:
data= np.array(['0,51\n0,64\n0,76\n0,84\n1,00', 1.36]) #...
我的目标是提取原始数字:
numbers= [51, 64, 76, 84, 100, 136]
我试过的方法有效,但我认为它不是那么优雅。有更好的方法吗?
import numpy as np
import re
clean= np.array([])
for i in data:
i = str(i)
if ',' in i:
without= i.replace(',', '')
clean= np.append(clean, without)
elif '.' in i:
without= i.replace('.', '')
clean= np.append(clean, without)
#detect all numbers
numbers= np.array([])
for i in clean:
if type(i) == np.str_:
a= re.findall(r'\b\d+\b', i)
numbers= np.append(numbers, a)
通常,您永远不应在循环中使用 np.append
,因为它每次都会重新创建一个新数组,从而导致二次复杂度低效。
除此之外,您还可以使用以下one-liner来解决您的问题:
result = [int(float(n.replace(',', '.'))*100) for e in data for n in e.split()]
想法是将 ,
替换为 .
,然后将字符串解析为浮点数,以便在此基础上生成正确的整数。您可以使用 np.fromiter(result, dtype=int)
.
将其转换为 numpy 数组
我有一个大数据集什么乱七八糟的。我试着清理它。 数据如下所示:
data= np.array(['0,51\n0,64\n0,76\n0,84\n1,00', 1.36]) #...
我的目标是提取原始数字:
numbers= [51, 64, 76, 84, 100, 136]
我试过的方法有效,但我认为它不是那么优雅。有更好的方法吗?
import numpy as np
import re
clean= np.array([])
for i in data:
i = str(i)
if ',' in i:
without= i.replace(',', '')
clean= np.append(clean, without)
elif '.' in i:
without= i.replace('.', '')
clean= np.append(clean, without)
#detect all numbers
numbers= np.array([])
for i in clean:
if type(i) == np.str_:
a= re.findall(r'\b\d+\b', i)
numbers= np.append(numbers, a)
通常,您永远不应在循环中使用 np.append
,因为它每次都会重新创建一个新数组,从而导致二次复杂度低效。
除此之外,您还可以使用以下one-liner来解决您的问题:
result = [int(float(n.replace(',', '.'))*100) for e in data for n in e.split()]
想法是将 ,
替换为 .
,然后将字符串解析为浮点数,以便在此基础上生成正确的整数。您可以使用 np.fromiter(result, dtype=int)
.