jcrfsuite训练文件格式
jcrfsuite training file format
据我在jcrfsuite的示例中给出的POS Tagging示例了解。训练文件是制表符分隔的,第一个标记是标签。但我没有得到 BigCluster|事物。有人可以帮助我如何在训练文件中指定标记。
示例如下:
O BigCluster|00 BigCluster|0000 BigCluster|000000 BigCluster|00000000 BigCluster|0000000000 BigCluster|000000000000 BigCluster|00000000000000 BigCluster|0000000000000000 NextBigCluster|0100 NextBigCluster|01000101 NextBigCluster|010001011111 POSTagDict|D POSTagDict|N POSTagDict|^ POSTagDict| $ POSTagDict|G NextPOSTag|V 1gramSuff|i 1gramPref|i prevword| prevcurr||i nextword|predict nextword|predict currnext|i|predict Word|I Lower|i Xxdshape|X charclass|1, first-shortcap prevnext||预测t=0
测试文件格式:
! BigCluster|01 BigCluster|0110 BigCluster|011011 BigCluster|01101100 BigCluster|0110110011 BigCluster|011011001100 BigCluster|01101100110000 BigCluster|0110110011000000 NextBigCluster|1000 NextBigCluster|10001000 NextBigCluster|100010000000 POSTagDict|V NextPOSTag|, metaph_POSDict|N 1gramSuff|n 2gramSuff |nn 3gramSuff|mnn 4gramSuff|mmnn 5gramSuff|mmmnn 6gramSuff|ammmnn 7gramSuff|aammmnn 8gramSuff|aaammmnn 9gramSuff|daaammmnn 1gramPref|d 2gramPref|da 3gramPref|daa 4gramPref|daaa 5gramPref|daaam 6gramPref|daaamm 7gramPref|daaammm 8gramPref|daaammmn 9gramPref|daaammmnn前言| prevcurr||daaammmnn nextword|。下一个词|。当前下一个|daaammmnn|。 Word|Daaammmnn Lower|daaammmnn Xxdshape|Xxxxxxxxx charclass|1,2,2,2,2,2,2,2,2, first-initcap prevnext||。 t=0
label后面指定的是feature-name和feature-value的列表。
它是稀疏表示而不是表格表示。
BigCluster 只是其中一项功能,仅与特定示例相关。如果您是从头开始训练,则应该创建自己的特征。
我注意到 CRFsuite 不关心标签和属性的命名约定和特征设计,因为将它们视为字符串。
CRFsuite 在不知道标签和属性的含义的情况下学习属性和标签之间的关联权重(特征权重)。换句话说,只需在数据集中编写标签和属性名称,就可以设计和使用任意特征,只需为您的示例找到最佳可能的属性,然后 运行 对不同的属性和特征集进行一些实验。你会很开心。
据我在jcrfsuite的示例中给出的POS Tagging示例了解。训练文件是制表符分隔的,第一个标记是标签。但我没有得到 BigCluster|事物。有人可以帮助我如何在训练文件中指定标记。
示例如下:
O BigCluster|00 BigCluster|0000 BigCluster|000000 BigCluster|00000000 BigCluster|0000000000 BigCluster|000000000000 BigCluster|00000000000000 BigCluster|0000000000000000 NextBigCluster|0100 NextBigCluster|01000101 NextBigCluster|010001011111 POSTagDict|D POSTagDict|N POSTagDict|^ POSTagDict| $ POSTagDict|G NextPOSTag|V 1gramSuff|i 1gramPref|i prevword| prevcurr||i nextword|predict nextword|predict currnext|i|predict Word|I Lower|i Xxdshape|X charclass|1, first-shortcap prevnext||预测t=0
测试文件格式:
! BigCluster|01 BigCluster|0110 BigCluster|011011 BigCluster|01101100 BigCluster|0110110011 BigCluster|011011001100 BigCluster|01101100110000 BigCluster|0110110011000000 NextBigCluster|1000 NextBigCluster|10001000 NextBigCluster|100010000000 POSTagDict|V NextPOSTag|, metaph_POSDict|N 1gramSuff|n 2gramSuff |nn 3gramSuff|mnn 4gramSuff|mmnn 5gramSuff|mmmnn 6gramSuff|ammmnn 7gramSuff|aammmnn 8gramSuff|aaammmnn 9gramSuff|daaammmnn 1gramPref|d 2gramPref|da 3gramPref|daa 4gramPref|daaa 5gramPref|daaam 6gramPref|daaamm 7gramPref|daaammm 8gramPref|daaammmn 9gramPref|daaammmnn前言| prevcurr||daaammmnn nextword|。下一个词|。当前下一个|daaammmnn|。 Word|Daaammmnn Lower|daaammmnn Xxdshape|Xxxxxxxxx charclass|1,2,2,2,2,2,2,2,2, first-initcap prevnext||。 t=0
label后面指定的是feature-name和feature-value的列表。 它是稀疏表示而不是表格表示。
BigCluster 只是其中一项功能,仅与特定示例相关。如果您是从头开始训练,则应该创建自己的特征。
我注意到 CRFsuite 不关心标签和属性的命名约定和特征设计,因为将它们视为字符串。
CRFsuite 在不知道标签和属性的含义的情况下学习属性和标签之间的关联权重(特征权重)。换句话说,只需在数据集中编写标签和属性名称,就可以设计和使用任意特征,只需为您的示例找到最佳可能的属性,然后 运行 对不同的属性和特征集进行一些实验。你会很开心。