awk - 合并数据并根据匹配分配值

awk - merge data and assign values based on matches

我正在尝试通过合并一个文件的所有数据和第二个文件的部分数据以及第一个文件的部分数据来创建一个文件(根据第 1 列中的匹配分配)每个文件)。 file1 的第 1 列可能有多个条目。 file2 的第 1 列可能有零个、一个或多个与 file1 匹配的条目。 file1 中的所有记录都需要出现在输出文件中,无论 file2 中是否存在匹配项。只要存在匹配项,就需要创建一个条目,其中包括来自 file2 的第 1 列与来自 file1 的第 2 列的合并。

文件 1:

1000000001 3B413B9E9BD9E72DF10CE754F386B073
1000000001 70366A2BA2D0476FB587FBFE0904E891
1000000003 D9F5F4F8EC337F76CCE3C34AF33F5F4B
1000000004 AE160D7D81E725556FAFD105F302D51D
1000000004 18FEA2F7BEF0FB4A67D2D2DDA3560B80
1000000007 3B413B9E9BD9E72DF10CE754F386B073
1000000008 4544AE8958411CC2CF541C0054EAFCB0
1000000013 566D29AC189E1C24D0E5DE46DCA14752

文件 2:

1000000002 1000010051
1000000002 1000000006
1000000002 1000010073
1000000004 1000000879
1000000004 1000018525
1000000004 1000000595
1000000004 1000001943
1000000004 1000001772
1000000004 1000001770
1000000010 1000000167
1000000010 1000001495
1000000013 1000016156
1000000013 1000000484
1000000013 1000000454

期望的输出(此时我不关心排序 - 它可以稍后处理):

1000000001 3B413B9E9BD9E72DF10CE754F386B073
1000000001 70366A2BA2D0476FB587FBFE0904E891
1000000003 D9F5F4F8EC337F76CCE3C34AF33F5F4B
1000000004 AE160D7D81E725556FAFD105F302D51D
1000000879 AE160D7D81E725556FAFD105F302D51D
1000018525 AE160D7D81E725556FAFD105F302D51D
1000000595 AE160D7D81E725556FAFD105F302D51D
1000001943 AE160D7D81E725556FAFD105F302D51D
1000001772 AE160D7D81E725556FAFD105F302D51D
1000000004 18FEA2F7BEF0FB4A67D2D2DDA3560B80
1000000879 18FEA2F7BEF0FB4A67D2D2DDA3560B80
1000018525 18FEA2F7BEF0FB4A67D2D2DDA3560B80
1000000595 18FEA2F7BEF0FB4A67D2D2DDA3560B80
1000001943 18FEA2F7BEF0FB4A67D2D2DDA3560B80
1000001772 18FEA2F7BEF0FB4A67D2D2DDA3560B80
1000001770 18FEA2F7BEF0FB4A67D2D2DDA3560B80
1000000007 3B413B9E9BD9E72DF10CE754F386B073
1000000008 4544AE8958411CC2CF541C0054EAFCB0
1000000013 566D29AC189E1C24D0E5DE46DCA14752
1000016156 566D29AC189E1C24D0E5DE46DCA14752
1000000484 566D29AC189E1C24D0E5DE46DCA14752
1000000454 566D29AC189E1C24D0E5DE46DCA14752

我以为我有以下 awk 语句:

awk 'FNR==NR{a[]=;next} ( in a) {print ,a[]}' file1.txt file2.txt > output.txt

似乎删除了多个条目,并且在 unix 上查看时数据还包含一些非打印记录(只看到 file1 第 2 列的较长字符串),但在 windows 上用记事本打开时,每条记录有两行,每隔一行有两列。感谢您提供的任何帮助!!

我认为这会产生您想要的输出:

$ awk 'NR==FNR{a[]=;print;next}{for(i in a)if(a[i]==)print ,i}' file1 file2
1000000001 3B413B9E9BD9E72DF10CE754F386B073
1000000001 70366A2BA2D0476FB587FBFE0904E891
1000000003 D9F5F4F8EC337F76CCE3C34AF33F5F4B
1000000004 AE160D7D81E725556FAFD105F302D51D
1000000004 18FEA2F7BEF0FB4A67D2D2DDA3560B80
1000000007 3B413B9E9BD9E72DF10CE754F386B073
1000000008 4544AE8958411CC2CF541C0054EAFCB0
1000000013 566D29AC189E1C24D0E5DE46DCA14752
1000000879 18FEA2F7BEF0FB4A67D2D2DDA3560B80
1000000879 AE160D7D81E725556FAFD105F302D51D
1000018525 18FEA2F7BEF0FB4A67D2D2DDA3560B80
1000018525 AE160D7D81E725556FAFD105F302D51D
1000000595 18FEA2F7BEF0FB4A67D2D2DDA3560B80
1000000595 AE160D7D81E725556FAFD105F302D51D
1000001943 18FEA2F7BEF0FB4A67D2D2DDA3560B80
1000001943 AE160D7D81E725556FAFD105F302D51D
1000001772 18FEA2F7BEF0FB4A67D2D2DDA3560B80
1000001772 AE160D7D81E725556FAFD105F302D51D
1000001770 18FEA2F7BEF0FB4A67D2D2DDA3560B80
1000001770 AE160D7D81E725556FAFD105F302D51D
1000016156 566D29AC189E1C24D0E5DE46DCA14752
1000000484 566D29AC189E1C24D0E5DE46DCA14752
1000000454 566D29AC189E1C24D0E5DE46DCA14752

打印第一个文件中的每一行并存储键值对。对于第二个文件中的每一行,遍历数组 a 并为第一列打印第一个文件中的所有匹配项。