如何构建特定的语料库 - 算法说明

How can I build a specific corpus - Algorithmic Instructions

我正在做一个项目,我需要建立一个算法句子语料库。换句话说,我需要一个由句子组成的语料库,其中每个句子都是用自然语言英语表达的算法指令。示例:

我做了一些研究,发现了这个 Google BigQuery - Stack Overflow。我仍在探索它,我不确定它是否对我有帮助。我正在考虑网络爬行 Stack Overflow,但它作为一个来源看起来非常嘈杂。在这种情况下是否没有现成的数据集或API?你知道我可以抓取的充满算法指令的网站吗?

欢迎任何想法,请帮助我!

看起来你可以生成尽可能多的,有一组你想使用的条件和指令。可能你应该遵循在一组"variables"、"numerals"和"operators"之间随机采样的生成方法来生成这样的指令。

例如:假设您要生成指令:

  • 涉及 xyz 的变量。
  • 涉及 567 的数字。
  • 运算符涉及 addsubtractmultiply

然后您的过程将开始选择一个运算符,选择一个数字并选择一个变量,并基本上根据所涉及的运算符生成指令。或者在同一条线上的东西。关键是继续进行这种随机抽样,并根据需要生成尽可能多的指令。另外,如果你的变量和数字集足够多,你最终可以得到一个很好的指令列表。

希望对您有所帮助。