如何将return数据从一种定义转换为另一种定义？

Question

我正在研究 python，我正在尝试制作一个简单的数据清理程序。我正在尝试将 title 值从 read_excel 模块传递到 output 模块。但是，它一直说 name title is not defined。这是我的代码：

import os
import pandas as pd
import math

class Item():
    __name = ""
    __cost = 0
    __gender = ""
    __prime = ""

    def has_all_properties(self):
        return bool(self.__name and not math.isnan(self.__cost) and self.__gender and self.__prime)

    def clean(self,wanted_cost,wanted_gender,wanted_prime):
        return bool(self.__name and self.__gender == wanted_gender and self.__cost <= wanted_cost and self.__prime == wanted_prime)
    
    def __init__(self, name, cost, gender, prime):
        self.__name = name
        self.__cost = cost
        self.__gender = gender
        self.__prime = prime

    def __eq__(self, other):
        return (self.__name == other.__name and self.__cost == other.__cost and self.__gender == other.__gender and self.__prime == other.__prime)   
    def __hash__(self):
        return hash((self.__name, self.__cost, self.__gender, self.__prime))

    def __repr__(self):
        return f"Item({self.__name},{self.__cost},{self.__gender},{self.__prime})"

    def tuple(self): 
        return self.__name, self.__cost, self.__gender, self.__prime

def read_excel(filetype):
    cwd = os.path.abspath('') 
    files = os.listdir(cwd)  
    df = pd.DataFrame()
    for file in files:
        if file.endswith(filetype):
            df = df.append(pd.read_excel(file), ignore_index=True)
            df = df.where(df.notnull(), None)
            df = df[['name', 'cost', 'used_by', 'prime']]
    title = list(df.columns.values)
    print(title) 
    array = df.values.tolist()
    print(array)
    return array
    return output(title)

def process(array):
    mylist = {Item(*k) for k in array}
    print(mylist)
    filtered = {obj for obj in mylist if obj.has_all_properties()}
    clean = {obj for obj in filtered if obj.clean(20,"male","yes")}
    result = list(clean)
    print(result)
    
def output(where, sort_data, title):
    t_list = [obj.tuple() for obj in sort_data]
    output = pd.DataFrame(t_list, columns = title)
    output.to_excel(where, index = False, header = True)

if __name__ == "__main__":
    inputfile = read_excel('.XLSX')
    processdata = process(inputfile)
    result = output('clean_data.xlsx', processdata, title)

你能告诉我该怎么做吗？谢谢你的帮助

Answer 1

在 return 语句执行后，函数将立即退出。这意味着 return output(title) 永远不会在您的代码中实际发生。同样，output() 不会 return 任何东西，DataFrame.to_excel() 只会写入 excel 文件。你想在 read_excel() 中做的是

def read_excel(filetype):
    cwd = os.path.abspath('') 
    files = os.listdir(cwd)  
    df = pd.DataFrame()
    for file in files:
        if file.endswith(filetype):
            df = df.append(pd.read_excel(file), ignore_index=True)
            df = df.where(df.notnull(), None)
            df = df[['name', 'cost', 'used_by', 'prime']]
    title = list(df.columns.values)
    print(title) 
    array = df.values.tolist()
    print(array)
    output(title)
    return array

Answer 2

调用 return 后，您的函数将退出，因此您不能在函数 returning 之后放置任何语句。你可以return两者都像这样

def read_excel(filetype):
cwd = os.path.abspath('') 
files = os.listdir(cwd)  
df = pd.DataFrame()
for file in files:
    if file.endswith(filetype):
        df = df.append(pd.read_excel(file), ignore_index=True)
        df = df.where(df.notnull(), None)
        df = df[['name', 'cost', 'used_by', 'prime']]
title = list(df.columns.values)
print(title) 
array = df.values.tolist()
print(array)
return array, output(title)

这将 return 您的值的一个元组

(array, output(title))

Answer 3

我找到了解决我当前问题的最容易理解的方法之一。所以，我只是分解了 read_excel 的定义，并做了一个 get_header 和 get_list 的定义。这是我的解决方案：

import os
import pandas as pd
import math

class Item():
    __name = ""
    __cost = 0
    __gender = ""
    __prime = ""

    def has_all_properties(self):
        return bool(self.__name and not math.isnan(self.__cost) and self.__gender and self.__prime)

    def clean(self,wanted_cost,wanted_gender,wanted_prime):
        return bool(self.__name and self.__gender == wanted_gender and self.__cost <= wanted_cost and self.__prime == wanted_prime)
    
    def __init__(self, name, cost, gender, prime):
        self.__name = name
        self.__cost = cost
        self.__gender = gender
        self.__prime = prime

    def __eq__(self, other):
        return (self.__name == other.__name and self.__cost == other.__cost and self.__gender == other.__gender and self.__prime == other.__prime)   
    def __hash__(self):
        return hash((self.__name, self.__cost, self.__gender, self.__prime))

    def __repr__(self):
        return f"Item({self.__name},{self.__cost},{self.__gender},{self.__prime})"

    def tuple(self): 
        return self.__name, self.__cost, self.__gender, self.__prime

def read_excel(filetype):
    cwd = os.path.abspath('') 
    files = os.listdir(cwd)  
    df = pd.DataFrame()
    for file in files:
        if file.endswith(filetype):
            df = df.append(pd.read_excel(file), ignore_index=True)
            df = df.where(df.notnull(), None)
            df = df[['name', 'cost', 'used_by', 'prime']]
    return df

def get_list(dataframe):
    array = dataframe.values.tolist()
    print(array)
    return array

def get_header(dataframe):
    title = list(dataframe.columns.values)
    print(title)
    return title

def process(array):
    mylist = {Item(*k) for k in array}
    print(mylist)
    filtered = {obj for obj in mylist if obj.has_all_properties()}
    clean = {obj for obj in filtered if obj.clean(20,"male","yes")}
    result = list(clean)
    print(result)
    t_list = [obj.tuple() for obj in result]
    return t_list

    
def output(where, sort_data, title): 
    output = pd.DataFrame(sort_data, columns = title)
    output.to_excel(where, index = False, header = True)
 
if __name__ == "__main__":
    inputfile = read_excel('.XLSX')
    array = get_list(inputfile)
    header = get_header(inputfile)
    processdata = process(array)
    result = output('clean_data.xlsx', processdata, header)

如何将return数据从一种定义转换为另一种定义？

How to return data from one definition to another one?

python

return

function

definition