如何在拆分之前避免同时包含字符串和数字的行?
How to avoid lines that contain both string and numbers before splitting them?
我用的是python 3,我读取的文件都是以几行开始的,其中包含文本和数字,而从某一行开始,它只是数字列,最初它们也被读取为 str 之后拆分,我后来将它们转换为浮点数。
数据看起来像这样。我还将 link 添加到数字样本
https://gist.github.com/Farzadtb/b0457223a26704093524e55d9b46b1a8
所以问题是为了阅读我有两个条件(实际上我想增加这些条件)使用 try: except 。但这仅适用于划分拆分方法。但在开始拆分之前,我需要删除包含文本的第一行。我所知道的是我应该使用
除了值错误
但这实际上行不通!
f = io.open(file, mode="r", encoding="utf-8")
#f=open(file,"r")
lines=f.readlines()
x=[]
y=[]
z=[]
for i in lines:
try:
a=[i.strip('\n')]
a1=[float(n) for n in a[0].split(',')]
atot.append(a1)
x.append(a1[3])
y.append(a1[2])
z.append(a1[1])
except :
a=[i.split('\n')]
a1=[float(n) for n in a[0].split()]
x.append(a1[3])
y.append(a1[2])
z.append(a1[1])
问题是因为第一行也可以以数字开头,所以第一个参数可能被拆分并添加到 "x" 和 "y" 但我得到 z[=14 的错误=]
x=[float(i) for i in x]
y=[float(i) for i in y]
z=[float(i) for i in z]
我想到的一个想法是检查该行是否可以无误地转换为浮点数,然后继续拆分,但我不知道该怎么做
你应该试试这个。此代码使用正则表达式以干净的方式查找数据。
import pprint
import re
if __name__ == '__main__':
# pattern to ignore line containing alpha or :
ignore_pattern = re.compile(r'[^a-zA-Z:]*[a-zA-Z:]')
# number pattern
number_pattern = re.compile(r'[-.\d]+')
matrix = []
# open the file as readonly
with open('data.txt', 'r') as file_:
# iterator over lines
for line in file_:
# remove \n and spaces at start and end
line = line.strip()
if not ignore_pattern.match(line):
found = number_pattern.findall(line)
if found:
floats = [float(x) for x in found]
matrix.append(floats)
# print matrix in pretty format
pp = pprint.PrettyPrinter()
pp.pprint(matrix)
# access value by [row][column] starting at 0
print(matrix[0][2])
在您的示例数据上进行了测试。
这是 python 脚本的标准输出:
[[-3.1923, 0.6784, -4.6481, -0.0048, 0.3399, -0.2829, 0.0, 24.0477],
[-3.1827, 0.7048, -4.6257, 0.0017, 0.3435, -0.2855, 0.0, 24.0477],
[-3.1713, 0.7237, -4.5907, 0.0094, 0.3395, -0.2834, 0.0, 24.0477]]
-4.6481
我用的是python 3,我读取的文件都是以几行开始的,其中包含文本和数字,而从某一行开始,它只是数字列,最初它们也被读取为 str 之后拆分,我后来将它们转换为浮点数。
数据看起来像这样。我还将 link 添加到数字样本
https://gist.github.com/Farzadtb/b0457223a26704093524e55d9b46b1a8
所以问题是为了阅读我有两个条件(实际上我想增加这些条件)使用 try: except 。但这仅适用于划分拆分方法。但在开始拆分之前,我需要删除包含文本的第一行。我所知道的是我应该使用
除了值错误
但这实际上行不通!
f = io.open(file, mode="r", encoding="utf-8")
#f=open(file,"r")
lines=f.readlines()
x=[]
y=[]
z=[]
for i in lines:
try:
a=[i.strip('\n')]
a1=[float(n) for n in a[0].split(',')]
atot.append(a1)
x.append(a1[3])
y.append(a1[2])
z.append(a1[1])
except :
a=[i.split('\n')]
a1=[float(n) for n in a[0].split()]
x.append(a1[3])
y.append(a1[2])
z.append(a1[1])
问题是因为第一行也可以以数字开头,所以第一个参数可能被拆分并添加到 "x" 和 "y" 但我得到 z[=14 的错误=]
x=[float(i) for i in x]
y=[float(i) for i in y]
z=[float(i) for i in z]
我想到的一个想法是检查该行是否可以无误地转换为浮点数,然后继续拆分,但我不知道该怎么做
你应该试试这个。此代码使用正则表达式以干净的方式查找数据。
import pprint
import re
if __name__ == '__main__':
# pattern to ignore line containing alpha or :
ignore_pattern = re.compile(r'[^a-zA-Z:]*[a-zA-Z:]')
# number pattern
number_pattern = re.compile(r'[-.\d]+')
matrix = []
# open the file as readonly
with open('data.txt', 'r') as file_:
# iterator over lines
for line in file_:
# remove \n and spaces at start and end
line = line.strip()
if not ignore_pattern.match(line):
found = number_pattern.findall(line)
if found:
floats = [float(x) for x in found]
matrix.append(floats)
# print matrix in pretty format
pp = pprint.PrettyPrinter()
pp.pprint(matrix)
# access value by [row][column] starting at 0
print(matrix[0][2])
在您的示例数据上进行了测试。 这是 python 脚本的标准输出:
[[-3.1923, 0.6784, -4.6481, -0.0048, 0.3399, -0.2829, 0.0, 24.0477],
[-3.1827, 0.7048, -4.6257, 0.0017, 0.3435, -0.2855, 0.0, 24.0477],
[-3.1713, 0.7237, -4.5907, 0.0094, 0.3395, -0.2834, 0.0, 24.0477]]
-4.6481