如何构建特定的语料库 - 算法说明
How can I build a specific corpus - Algorithmic Instructions
我正在做一个项目,我需要建立一个算法句子语料库。换句话说,我需要一个由句子组成的语料库,其中每个句子都是用自然语言英语表达的算法指令。示例:
- 将 5 分配给 X
- 将变量 X 乘以 5
- 声明一个名为 Z 的变量
我做了一些研究,发现了这个 Google BigQuery - Stack Overflow。我仍在探索它,我不确定它是否对我有帮助。我正在考虑网络爬行 Stack Overflow,但它作为一个来源看起来非常嘈杂。在这种情况下是否没有现成的数据集或API?你知道我可以抓取的充满算法指令的网站吗?
欢迎任何想法,请帮助我!
看起来你可以生成尽可能多的,有一组你想使用的条件和指令。可能你应该遵循在一组"variables"、"numerals"和"operators"之间随机采样的生成方法来生成这样的指令。
例如:假设您要生成指令:
- 涉及
x
、y
和 z
的变量。
- 涉及
5
、6
和 7
的数字。
- 运算符涉及
add
、subtract
、multiply
。
然后您的过程将开始选择一个运算符,选择一个数字并选择一个变量,并基本上根据所涉及的运算符生成指令。或者在同一条线上的东西。关键是继续进行这种随机抽样,并根据需要生成尽可能多的指令。另外,如果你的变量和数字集足够多,你最终可以得到一个很好的指令列表。
希望对您有所帮助。
我正在做一个项目,我需要建立一个算法句子语料库。换句话说,我需要一个由句子组成的语料库,其中每个句子都是用自然语言英语表达的算法指令。示例:
- 将 5 分配给 X
- 将变量 X 乘以 5
- 声明一个名为 Z 的变量
我做了一些研究,发现了这个 Google BigQuery - Stack Overflow。我仍在探索它,我不确定它是否对我有帮助。我正在考虑网络爬行 Stack Overflow,但它作为一个来源看起来非常嘈杂。在这种情况下是否没有现成的数据集或API?你知道我可以抓取的充满算法指令的网站吗?
欢迎任何想法,请帮助我!
看起来你可以生成尽可能多的,有一组你想使用的条件和指令。可能你应该遵循在一组"variables"、"numerals"和"operators"之间随机采样的生成方法来生成这样的指令。
例如:假设您要生成指令:
- 涉及
x
、y
和z
的变量。 - 涉及
5
、6
和7
的数字。 - 运算符涉及
add
、subtract
、multiply
。
然后您的过程将开始选择一个运算符,选择一个数字并选择一个变量,并基本上根据所涉及的运算符生成指令。或者在同一条线上的东西。关键是继续进行这种随机抽样,并根据需要生成尽可能多的指令。另外,如果你的变量和数字集足够多,你最终可以得到一个很好的指令列表。
希望对您有所帮助。