如何从包含 X 个字符的文本文件中删除单词?
How to remove word from text file containing X number of characters?
我发现这里很少有帖子建议使用 awk
和 sed
的解决方案,但其中 none 似乎可以解决问题。要么删除整行,要么什么都不删除。我也不是命令行向导,而且我的知识有限,所以我决定在这里寻求帮助。不管解决方案是 awk
、grep
、sed
...老实说,在这种情况下我无法做出任何改变,所以无论您觉得它有什么问题这个案例。
我有几个几百万行的文件,files/lines 看起来像这样:
50somethingcharactergibberish shortrword
50somethingcharactergibberish shortrword
50somethingcharactergibberish shortrword
50somethingcharactergibberish shortrword
50somethingcharactergibberish shortrword
50somethingcharactergibberish shortrword
这适用于几百万行。我需要做的是删除 50somethingcharacter 的乱码,只留下简写。问题还在于没有模式,有问题的长词有时以字母开头,有时以数字开头。所以我假设我最终必须计算字符数。
最适合您的 awk
是这样的:-
awk '!(="")' million-line-file
awk 对于这个尝试来说太过分了 cut
cut -f2 -d ' ' 2col.list > 2ndcol.list
说 cut
第二个字段 -f2
考虑 space 作为输入文件中每一行的字段分隔符 -d ' '
并将第二个字段重定向到输出文件
我发现这里很少有帖子建议使用 awk
和 sed
的解决方案,但其中 none 似乎可以解决问题。要么删除整行,要么什么都不删除。我也不是命令行向导,而且我的知识有限,所以我决定在这里寻求帮助。不管解决方案是 awk
、grep
、sed
...老实说,在这种情况下我无法做出任何改变,所以无论您觉得它有什么问题这个案例。
我有几个几百万行的文件,files/lines 看起来像这样:
50somethingcharactergibberish shortrword
50somethingcharactergibberish shortrword
50somethingcharactergibberish shortrword
50somethingcharactergibberish shortrword
50somethingcharactergibberish shortrword
50somethingcharactergibberish shortrword
这适用于几百万行。我需要做的是删除 50somethingcharacter 的乱码,只留下简写。问题还在于没有模式,有问题的长词有时以字母开头,有时以数字开头。所以我假设我最终必须计算字符数。
最适合您的 awk
是这样的:-
awk '!(="")' million-line-file
awk 对于这个尝试来说太过分了 cut
cut -f2 -d ' ' 2col.list > 2ndcol.list
说 cut
第二个字段 -f2
考虑 space 作为输入文件中每一行的字段分隔符 -d ' '
并将第二个字段重定向到输出文件