如何将字典提供给 Julia 中的 Flux 模型
How to feed a dictionary to a Flux model in Julia
所以我有一个 20000x4 数据集,其中 4 列有字符串。第一个是描述,其他三个是类别,最后一个是我希望预测的类别。我对第一列的每个单词进行标记,并将其保存在字典中,并使用其各自的 Int 值,并将其他列更改为具有数值。现在我很难理解如何在 Flux 模型中提供这些数据。
根据文档,我必须使用“数据集进行训练(通常是一组输入 x 和目标输出 y)”。在示例中,它将数据 x 和 y 分开。但是我怎样才能用字典加上两个数字列呢?
编辑:
这是我现在拥有的一个最小示例:
using WordTokenizers
using DataFrames
dataframe = DataFrame(Description = ["It has pointy ears", "It has round ears"], Size = ["Big", "Small"], Color = ["Black", "Yellow"], Category = ["Dog", "Cat"])
dict_x = Dict{String, Int64}()
dict_y = Dict{String, Int64}()
function words_to_numbers(data, column, dict)
i = 1
for row in range(1, stop=size(data, 1))
array_of_words = tokenize(data[row, column])
for (index, word) in enumerate(array_of_words)
if haskey(dict, word)
continue
else
dict[word] = i
i += 1
end
end
end
end
function categories_to_numbers(data, column, dict)
i = 1
for row in range(1, stop=size(data, 1))
if haskey(dict, data[row, column])
continue
else
dict[data[row, column]] = i
i += 1
end
end
end
words_to_numbers(dataframe, 1, dict_x)
categories_to_numbers(dataframe, 4, dict_y)
我想使用 dict_x 和 dict_y 作为 Flux 模型的输入和输出
考虑这个例子:
using DataFrames
df = DataFrame()
df.food = rand(["apple", "banana", "orange"], 20)
multiplier(fruit) = (1 + (0.1 * rand())) * (fruit == "apple" ? 95 :
fruit == "orange" ? 45 : 105)
foodtoken(f) = (fruit == "apple" ? 0 : fruit == "orange" ? 2 : 3)
df.calories = multiplier.(df.food)
foodtoken(f) = (fruit == "apple" ? 0 : fruit == "orange" ? 2 : 3)
fooddict = Dict(fruit => (fruit == "apple" ? 0 : fruit == "orange" ? 2 : 3)
for fruit in df.food)
现在我们可以将令牌数值添加到数据框中:
df.token = map(x -> fooddict[x], df.food)
println(df)
现在您应该能够 运行 以 df.token 作为输入并以 df.calories 作为输出的预测。
========== 发布更多代码后的附录:===========
对于您修改后的示例,您只需要一个辅助函数:
function colvalue(s, dict)
total = 0
for (k, v) in dict
if occursin(k, s)
total += 10^v
end
end
total
end
words_to_numbers(dataframe, 1, dict_x)
categories_to_numbers(dataframe, 4, dict_y)
dataframe.descripval = map(x -> colvalue(x, dict_x), dataframe.Description)
dataframe.catval = map(x -> colvalue(x, dict_y), dataframe.Category)
println(dataframe)
所以我有一个 20000x4 数据集,其中 4 列有字符串。第一个是描述,其他三个是类别,最后一个是我希望预测的类别。我对第一列的每个单词进行标记,并将其保存在字典中,并使用其各自的 Int 值,并将其他列更改为具有数值。现在我很难理解如何在 Flux 模型中提供这些数据。
根据文档,我必须使用“数据集进行训练(通常是一组输入 x 和目标输出 y)”。在示例中,它将数据 x 和 y 分开。但是我怎样才能用字典加上两个数字列呢?
编辑:
这是我现在拥有的一个最小示例:
using WordTokenizers
using DataFrames
dataframe = DataFrame(Description = ["It has pointy ears", "It has round ears"], Size = ["Big", "Small"], Color = ["Black", "Yellow"], Category = ["Dog", "Cat"])
dict_x = Dict{String, Int64}()
dict_y = Dict{String, Int64}()
function words_to_numbers(data, column, dict)
i = 1
for row in range(1, stop=size(data, 1))
array_of_words = tokenize(data[row, column])
for (index, word) in enumerate(array_of_words)
if haskey(dict, word)
continue
else
dict[word] = i
i += 1
end
end
end
end
function categories_to_numbers(data, column, dict)
i = 1
for row in range(1, stop=size(data, 1))
if haskey(dict, data[row, column])
continue
else
dict[data[row, column]] = i
i += 1
end
end
end
words_to_numbers(dataframe, 1, dict_x)
categories_to_numbers(dataframe, 4, dict_y)
我想使用 dict_x 和 dict_y 作为 Flux 模型的输入和输出
考虑这个例子:
using DataFrames
df = DataFrame()
df.food = rand(["apple", "banana", "orange"], 20)
multiplier(fruit) = (1 + (0.1 * rand())) * (fruit == "apple" ? 95 :
fruit == "orange" ? 45 : 105)
foodtoken(f) = (fruit == "apple" ? 0 : fruit == "orange" ? 2 : 3)
df.calories = multiplier.(df.food)
foodtoken(f) = (fruit == "apple" ? 0 : fruit == "orange" ? 2 : 3)
fooddict = Dict(fruit => (fruit == "apple" ? 0 : fruit == "orange" ? 2 : 3)
for fruit in df.food)
现在我们可以将令牌数值添加到数据框中:
df.token = map(x -> fooddict[x], df.food)
println(df)
现在您应该能够 运行 以 df.token 作为输入并以 df.calories 作为输出的预测。
========== 发布更多代码后的附录:===========
对于您修改后的示例,您只需要一个辅助函数:
function colvalue(s, dict)
total = 0
for (k, v) in dict
if occursin(k, s)
total += 10^v
end
end
total
end
words_to_numbers(dataframe, 1, dict_x)
categories_to_numbers(dataframe, 4, dict_y)
dataframe.descripval = map(x -> colvalue(x, dict_x), dataframe.Description)
dataframe.catval = map(x -> colvalue(x, dict_y), dataframe.Category)
println(dataframe)