检查字符串中的字符；如果为 True 则通过，如果为 False 则执行

Question

我正在编写代码来处理 URL 的列表，但是某些 URL 有问题，我需要将它们传递到我的 for 循环中。我试过这个：

x_data = []
y_data = []
for item in drop['URL']:
    if re.search("J", str(item)) == True:
        pass
    else:
        print(item)
        var = urllib.request.urlopen(item)
        hdul = ft.open(var)
        data = hdul[0].data
        start = hdul[0].header['WMIN']
        finish = hdul[0].header['WMAX']
        start_log = np.log10(start)
        finish_log = np.log10(finish)
        redshift = hdul[0].header['Z']
        length = len(data[0])

        xaxis = np.linspace(start, finish, length)
        #calculating emitted wavelength from observed and redshift
        x_axis_nr = [xaxis[j]/(redshift+1) for j in range(len(xaxis))]
        gauss_kernel = Gaussian1DKernel(5/3)
        flux = np.convolve(data[0], gauss_kernel)
        wavelength = np.convolve(x_axis_nr, gauss_kernel)
        x_data.append(x_axis_nr)
        y_data.append(data[0])

其中 drop 是先前定义的 pandas DataFrame。以前关于这个主题的问题建议正则表达式可能是要走的路，我试过这个来过滤掉任何包含字母 J 的 URL（这只是坏的）。

我明白了：

http://www.gama-survey.org/dr3/data/spectra/sdss/spec-0915-52443-0581.fit
http://www.gama-survey.org/dr3/data/spectra/sdss/spec-0915-52443-0582.fit
http://www.gama-survey.org/dr3/data/spectra/sdss/spec-0915-52443-0584.fit
http://www.gama-survey.org/dr3/data/spectra/sdss/spec-0915-52443-0587.fit
http://www.gama-survey.org/dr3/data/spectra/sdss/spec-0915-52443-0589.fit
http://www.gama-survey.org/dr3/data/spectra/sdss/spec-0915-52443-0592.fit
http://www.gama-survey.org/dr3/data/spectra/2qz/J113606.3+001155a.fit

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-8-2a3083a3a6d7> in <module>
     14         finish_log = np.log10(finish)
     15         redshift = hdul[0].header['Z']
---> 16         length = len(data[0])
     17
     18         xaxis = np.linspace(start, finish, length)

TypeError: object of type 'numpy.float32' has no len()

这与我在尝试删除 J 网址之前遇到的错误类型相同，很明显我的正则表达式无法正常工作。我将不胜感激关于如何过滤这些的建议，并且很乐意根据需要提供更多信息。

Answer 1

re.search 与 True 的结果无需比较。从 documentation 你可以看到 search return 是 match object 当找到匹配项时：

Scan through string looking for the first location where the regular expression pattern produces a match, and return a corresponding match object. Return None if no position in the string matches the pattern; note that this is different from finding a zero-length match at some point in the string.

因此，当将 match object 与 True 进行比较时，return 是 False 并且执行您的 else 条件。

In [35]: re.search('J', 'http://www.gama-survey.org/dr3/data/spectra/2qz/J113606.3+001155a.fit') == True
Out[35]: False

检查字符串中的字符；如果为 True 则通过，如果为 False 则执行

Check if character within string; pass if True, do stuff if False

python

regex

for-loop

numpy

pandas