机器学习-按内容分类网页有地址和无地址
Machine Learning-Classifying web page as address and no-address by content
目前我正在使用 azure 机器学习。我用两种类型的数据集训练我的机器学习,它们只是有地址和没有地址的网页内容
训练输入:
i.e)
this is a address no 24/5 address
this is no address no-address
我正在使用两个-class贝叶斯class化来class化它们,如果我使用任何其他方法
给定输入:
i.e)
This a address 12/4
获得的输出:
i.e)
content score probability
This a address 12/4 no-address 0.54
预期输出:
i.e)
content score probability
This a address 12/4 address with higher probability
我的实验看起来像:
您需要使用特征哈希模块将文本转换为词特征。然而,这可能还不够,因为文字不是解决您的问题的好特征。您可能想要对文本进行一些处理并创建更有用的功能(也许检测邮政编码的存在、数字的位置等...)
编辑:使用原始文本列作为一项功能不会给您带来任何好处。您不希望您的模型按照地址的书写方式学习地址。相反,您需要学习文本中的模式,这些模式为地址与非地址实例提供证据。
当您使用特征散列时,文本列将转换为多个单词(或 n-gram)列,其中值表示每个文本输入中这些单词的计数。这里的问题是过度拟合。例如,这两个地址没有共同的单词:
“100 broadway st, GA”和“200 main rd, NY”,但很明显它们具有相似的结构。创建“有用特征”的一种方法是用标签替换单词:“#NUM #TXT,#STATE”并使用特征散列(二元语法)来创建“#NUM #TXT”和“,#STATE”等特征”。如您所见,这些二元语法在两个地址中都被视为证据,并表明它们之间存在某种相似性(与其他非地址实例相比)。当然,这是对问题的过度简化,但我希望你明白为什么你不能使用原始文本或纯特征哈希。
除了“执行 R”模块在训练前进行文本处理之外,您仍然可以使用 Azure ML 模块进行特征散列、训练和评分。
编辑:特征散列用法示例:http://gallery.azureml.net/Details/cf65bf129fee4190b6f48a53e599a755
目前我正在使用 azure 机器学习。我用两种类型的数据集训练我的机器学习,它们只是有地址和没有地址的网页内容
训练输入:
i.e)
this is a address no 24/5 address
this is no address no-address
我正在使用两个-class贝叶斯class化来class化它们,如果我使用任何其他方法
给定输入:
i.e)
This a address 12/4
获得的输出:
i.e)
content score probability
This a address 12/4 no-address 0.54
预期输出:
i.e)
content score probability
This a address 12/4 address with higher probability
我的实验看起来像:
您需要使用特征哈希模块将文本转换为词特征。然而,这可能还不够,因为文字不是解决您的问题的好特征。您可能想要对文本进行一些处理并创建更有用的功能(也许检测邮政编码的存在、数字的位置等...)
编辑:使用原始文本列作为一项功能不会给您带来任何好处。您不希望您的模型按照地址的书写方式学习地址。相反,您需要学习文本中的模式,这些模式为地址与非地址实例提供证据。
当您使用特征散列时,文本列将转换为多个单词(或 n-gram)列,其中值表示每个文本输入中这些单词的计数。这里的问题是过度拟合。例如,这两个地址没有共同的单词:
“100 broadway st, GA”和“200 main rd, NY”,但很明显它们具有相似的结构。创建“有用特征”的一种方法是用标签替换单词:“#NUM #TXT,#STATE”并使用特征散列(二元语法)来创建“#NUM #TXT”和“,#STATE”等特征”。如您所见,这些二元语法在两个地址中都被视为证据,并表明它们之间存在某种相似性(与其他非地址实例相比)。当然,这是对问题的过度简化,但我希望你明白为什么你不能使用原始文本或纯特征哈希。
除了“执行 R”模块在训练前进行文本处理之外,您仍然可以使用 Azure ML 模块进行特征散列、训练和评分。
编辑:特征散列用法示例:http://gallery.azureml.net/Details/cf65bf129fee4190b6f48a53e599a755