python 中的数据转换

data conversion in python

我在网上爬过数据。这些数据保存在mongodb中。这一天总是在月份和年份之前。我只需要月份,year.I想去掉月份前面的数字,数据框不一样,比如:

2008 年 5 月 20-21 日, 2008 年 3 月 19 日, 2010 年 9 月 16-17 日, 2011 年 9 月 5 日,

这些数据在python中保存为字符串,请问python中有去除天数的函数吗?这些大约是3000条数据,所以我想我需要一个周期来处理这个问题。

因为您要删除的信息都是数字,白色 space,可能还有一个连字符,您可以使用以下方法轻松地为每个日期执行此操作:

month_year = days_month_year.lstrip('0123456789- \t')

这应该是相当可靠的,因为您希望字符串以月份开头,而月份总是按字母顺序排列。

当然,有许多不同的方法可以做到这一点。你也可以做正则表达式提取你想要的,但上面是最简单的。

>>> s = '20-21 May 2008'
>>> s.lstrip('0123456789- \t')
'May 2008'

你可以使用

pd.Series(['20-21 May 2008', '19 March 2008', '16-17 September 2010', '5 September 2011']).str.extract('(\w{3,}\s\d{4})', expand=False)

这将提取所需的字符串并创建一个新的 Series 对象。