我可以解释 doc2vec 组件吗?
Can I interpret doc2vec components?
我正在解决公司文件的二进制文本分类问题。将长度为 100 的 Doc2Vec 嵌入与 LightGBM 结合使用会产生很好的结果。然而,对于这个项目来说,至少对其中一个组成部分的主题意义进行近似是非常有价值的。理想情况下,这将是一个被 LightGBM 评为高度重要性的特征,并通过一些例子进行了有趣的解释。
有没有人尝试过这个,或者对于具有这种复杂程度的高维模型,是否应该解释table?
Doc2Vec
表示的各个维度不应被视为独立的、可解释的特征。它们仅在相互配合时才有用,与各个坐标轴对齐的确切方向在任何人类可描述的意义上可能都没有很强的意义。
但是,space 的 社区 可能与可描述的主题松散地吻合,并且某些 方向 (不特别平行于坐标-axes) 可能松散地适合语义主题。
但要表征这些,您可能会尝试找到相关文档组或发现的集群的质心点,并比较这些质心之间的相对 distances/directions。