确定标题/文本的意义

Deciding how meaningful title / text is

我正在尝试解决无意义的提交消息和 pr 描述的问题,结合 GitHub action.enter link description here

我想到了 TensorFlow

但是我正在努力弄清楚如何定义 tex "meaningless" 即

无意义的描述 将新文件夹添加到存储库

有意义的描述 添加资产文件夹以存放图像文件

感谢任何正确方向的指示。

嗯,显然这是一个文本分类问题,您的用例非常经典。要将 github 提交描述分类为有意义或无意义,您必须拥有大量训练数据。数据将由标记为有意义/无意义的描述字符串组成。我描绘它的方式以及使用 Tensorflow 和其他深度学习库(如 Keras)解决此类分类问题的正常方法是让您的训练数据采用 .csv 文件的形式,其中包含 2 列,

  1. description(包含提交的描述字符串)
  2. result(包含类似 meaningful / meaningless1 / 0 的判断)

然后您可以使用此数据训练文本分类器,训练后的模型可用于预测给定描述是否正确。

我建议你给 Ludwig a try. This is Uber's open source deep learning library and is extremely easy to use for tasks like text classification。它构建于 TensorFlow 之上,非常易于使用。

希望能回答您的问题。谢谢!