如何获取每个 create table 的第 n 个字段引用 linux shell 下的另一个文件?
How to get nth field of each create table refering to another file under linux shell?
我有两个文本文件:file1.txt 和 file2.txt。
file1.txt 是索引文件,例如file1.txt 的内容:
abc 1
def 2
ghi 3
其中 'abc 1' 表示 table 'abc' 中的第一个字段。
file2.txt 实际上是许多 table 的创建 table 命令的转储,例如file2.txt 的内容:
create table "def".something
(
f01 char(10),
f02 char(10),
f03 char(10),
f04 date
);
create table "abc".something
(
x01 char(10),
x02 char(1),
x03 char(10),
);
create table "ghi".something
(
z01 char(10),
z02 intr(10),
z03 double(10),
z04 char(10),
z05 char(10),
);
我想根据 file1.txt 中的每一行 'm n' 仅使用 awk 或结合使用 awk 来获取 file.txt 中 table m 的每个第 n 个字段的列表、grep、sed 或 Linux shell 下的任何文本处理命令。对于上面的例子,输出应该是:
abc,x01 char(10)
def,f02 char(10)
ghi,z03 double(10)
这可能吗?我该怎么做?
这是您的脚本:
while read line
do set $line
i=$((+1))
echo ",`grep -A$i "" file2.txt | tail -1`"
done < file1.txt
当前输出在第二列中有前导空格和尾随逗号。您可以使用我留给您作为作业的 sed
来删除它们。
脚本的工作原理如下:
- 逐行读取文件1
- 使用
set
将行拆分为字段
- 增量
</code>,这是必需的,因为在每个 <code>create
行 之后存在 (
- 在上下文由
</code></li> 定义的第二个文件中查找模式 <code>
- 将 grep 输出附加到
</code> & <code>,
你可以写一个 awk 脚本作为
awk -F'[ "]' '
FNR==NR{file1[] = ; next}
in file1{counter = file1[] + 1; table = };
!counter{print table,[=10=]}
'
测试
$ awk -F'[ \"]' 'FNR==NR{file1[] = ; next} in file1{counter = file1[] + 1; table = }; !counter--{print table,[=11=]} ' file1 file2
def f02 char(10),
abc x01 char(10),
ghi z03 double(10),
TXR 中的第一个解决方案:
此解决方案按定义文件中出现的顺序报告必填字段。这与按索引顺序排列的请求输出不同;这在第二个解决方案中有所涉及。
另一项未涵盖的要求是索引可能具有同一数据库名称的多个条目,从而提取多个字段的可能性。这在第二种解决方案中也有介绍。
运行:
$ txr reduce.txr index tbldefs
def,f02 char(10)
abc,x01 char(10)
ghi,z03 double(10)
reduce.txr
中的代码:
@(bind fnum @(hash :equal-based))
@(collect)
@table @field
@ (do (set [fnum table] (int-str field)))
@(end)
@(next)
@(collect)
create table "@name".something
(
@ (line start)
@ (skip)
@ (line @(+ start [fnum name] -1))
@line,
@(end)
@(output)
@ (repeat)
@name,@line
@ (end)
@(end)
这里获取字段号的技巧是使用 line
指令匹配数据库头之后的当前行号,将该行号捕获到 start
变量中:@(start line)
。然后 @(skip)
指令跳过零行或多行输入,直到随后的 material 匹配:并且 material 调用另一个 line
匹配,但这次使用 Lisp 的值表达式(+ start [fnum name] -1)
:从1开始的字段相对于start
.
中之前捕获的行号的行号
这种类型的TXR解决方案表达了对数据关键特征的匹配,而不是盲目地依赖固定的偏移量和最小的正则表达式。 TXR 将由于格式已更改而成为垃圾的数据成功输出的可能性降至最低。然而,与此同时,人们对 TXR 程序本身的数据是什么样子有了一些了解。很明显,@table @field
收集了 space 对,
create table "@name".something
(
匹配数据中的特定 "picture",等等。
(顺便说一句,这个文字 "something" 可能应该被一个变量替换!但是样本数据没有显示出这种差异。)
TXR 中的第二种解决方案:
在这里,我们对 select 两个字段的索引做了一个小改动 abc
:
$ cat index
abc 1
def 2
abc 2
ghi 3
现在结果的显示顺序与索引中的顺序相同,并且报告了 abc
之外的两个字段:
$ txr reduce2.txr index tbldefs
abc,x01 char(10)
def,f02 char(10)
abc,x02 char(1)
ghi,z03 double(10)
现在的代码是:
@(do
(defvarl dblist)
(defvarl dbhash (hash :equal-based))
(defstruct dbfield nil
tblname fieldno defn
(:postinit (self)
(push self dblist)
(set [dbhash self] self))
(:method equal (self) (list self.tblname self.fieldno))))
@(repeat)
@tblname @field
@ (do (new dbfield
tblname tblname
fieldno (int-str field)))
@(end)
@(next)
@(repeat)
create table "@tblname".@suffix
(
@ (bind fieldno 0)
@ (repeat)
@defn,
@ (do (whenlet ((dbrec [dbhash (list tblname (inc fieldno))]))
(set dbrec.defn defn)))
@ (until)
);
@ (end)
@(end)
@(output)
@ (repeat :vars ((dbf (keep-if (usl defn) (reverse dblist)))))
@{dbf.tblname},@{dbf.defn}
@ (end)
@(end)
一个数据结构使用了一点OOP。当扫描第一个文件时,它使用 new
宏运算符将对转换为 dbfield
类型的结构对象。这些对象有一个 table 名称和一个整数记录号。它们还有一个定义(defn
插槽),保留默认值 nil
。新创建时,它们的 :postinit
处理程序将它们添加到全局列表 dblist
,并将每个添加到全局哈希 dbhash
。 equal
方法确保出于 equal
平等的目的,将记录简化为由 table 名称和字段编号组成的双元素列表。这就是哈希 table 有效索引的内容。
当我们处理第二个文件时,我们使用数据库名称和 运行 计数器来查看 dbhash
中的那个键是否存在 dbfield
结构。如果是这样,我们用提取的定义更新该记录 defn
。
在 @(output)
部分,我们指示 repeat 遍历 dblist
,但相反(因为第一个文件的条目被推到它上面,就像堆栈一样)。我们还仅针对那些具有 defn
槽而不是 nil
的条目过滤此列表。也就是说,索引文件可以引用不存在的数据库和字段。可以扩展要求以某种方式报告这些或引发错误。
我有两个文本文件:file1.txt 和 file2.txt。 file1.txt 是索引文件,例如file1.txt 的内容:
abc 1
def 2
ghi 3
其中 'abc 1' 表示 table 'abc' 中的第一个字段。
file2.txt 实际上是许多 table 的创建 table 命令的转储,例如file2.txt 的内容:
create table "def".something
(
f01 char(10),
f02 char(10),
f03 char(10),
f04 date
);
create table "abc".something
(
x01 char(10),
x02 char(1),
x03 char(10),
);
create table "ghi".something
(
z01 char(10),
z02 intr(10),
z03 double(10),
z04 char(10),
z05 char(10),
);
我想根据 file1.txt 中的每一行 'm n' 仅使用 awk 或结合使用 awk 来获取 file.txt 中 table m 的每个第 n 个字段的列表、grep、sed 或 Linux shell 下的任何文本处理命令。对于上面的例子,输出应该是:
abc,x01 char(10)
def,f02 char(10)
ghi,z03 double(10)
这可能吗?我该怎么做?
这是您的脚本:
while read line
do set $line
i=$((+1))
echo ",`grep -A$i "" file2.txt | tail -1`"
done < file1.txt
当前输出在第二列中有前导空格和尾随逗号。您可以使用我留给您作为作业的 sed
来删除它们。
脚本的工作原理如下:
- 逐行读取文件1
- 使用
set
将行拆分为字段 - 增量
</code>,这是必需的,因为在每个 <code>create
行 之后存在 - 在上下文由
</code></li> 定义的第二个文件中查找模式 <code>
- 将 grep 输出附加到
</code> & <code>,
(
你可以写一个 awk 脚本作为
awk -F'[ "]' '
FNR==NR{file1[] = ; next}
in file1{counter = file1[] + 1; table = };
!counter{print table,[=10=]}
'
测试
$ awk -F'[ \"]' 'FNR==NR{file1[] = ; next} in file1{counter = file1[] + 1; table = }; !counter--{print table,[=11=]} ' file1 file2
def f02 char(10),
abc x01 char(10),
ghi z03 double(10),
TXR 中的第一个解决方案:
此解决方案按定义文件中出现的顺序报告必填字段。这与按索引顺序排列的请求输出不同;这在第二个解决方案中有所涉及。
另一项未涵盖的要求是索引可能具有同一数据库名称的多个条目,从而提取多个字段的可能性。这在第二种解决方案中也有介绍。
运行:
$ txr reduce.txr index tbldefs def,f02 char(10) abc,x01 char(10) ghi,z03 double(10)
reduce.txr
中的代码:
@(bind fnum @(hash :equal-based))
@(collect)
@table @field
@ (do (set [fnum table] (int-str field)))
@(end)
@(next)
@(collect)
create table "@name".something
(
@ (line start)
@ (skip)
@ (line @(+ start [fnum name] -1))
@line,
@(end)
@(output)
@ (repeat)
@name,@line
@ (end)
@(end)
这里获取字段号的技巧是使用 line
指令匹配数据库头之后的当前行号,将该行号捕获到 start
变量中:@(start line)
。然后 @(skip)
指令跳过零行或多行输入,直到随后的 material 匹配:并且 material 调用另一个 line
匹配,但这次使用 Lisp 的值表达式(+ start [fnum name] -1)
:从1开始的字段相对于start
.
这种类型的TXR解决方案表达了对数据关键特征的匹配,而不是盲目地依赖固定的偏移量和最小的正则表达式。 TXR 将由于格式已更改而成为垃圾的数据成功输出的可能性降至最低。然而,与此同时,人们对 TXR 程序本身的数据是什么样子有了一些了解。很明显,@table @field
收集了 space 对,
create table "@name".something
(
匹配数据中的特定 "picture",等等。
(顺便说一句,这个文字 "something" 可能应该被一个变量替换!但是样本数据没有显示出这种差异。)
TXR 中的第二种解决方案:
在这里,我们对 select 两个字段的索引做了一个小改动 abc
:
$ cat index abc 1 def 2 abc 2 ghi 3
现在结果的显示顺序与索引中的顺序相同,并且报告了 abc
之外的两个字段:
$ txr reduce2.txr index tbldefs abc,x01 char(10) def,f02 char(10) abc,x02 char(1) ghi,z03 double(10)
现在的代码是:
@(do
(defvarl dblist)
(defvarl dbhash (hash :equal-based))
(defstruct dbfield nil
tblname fieldno defn
(:postinit (self)
(push self dblist)
(set [dbhash self] self))
(:method equal (self) (list self.tblname self.fieldno))))
@(repeat)
@tblname @field
@ (do (new dbfield
tblname tblname
fieldno (int-str field)))
@(end)
@(next)
@(repeat)
create table "@tblname".@suffix
(
@ (bind fieldno 0)
@ (repeat)
@defn,
@ (do (whenlet ((dbrec [dbhash (list tblname (inc fieldno))]))
(set dbrec.defn defn)))
@ (until)
);
@ (end)
@(end)
@(output)
@ (repeat :vars ((dbf (keep-if (usl defn) (reverse dblist)))))
@{dbf.tblname},@{dbf.defn}
@ (end)
@(end)
一个数据结构使用了一点OOP。当扫描第一个文件时,它使用 new
宏运算符将对转换为 dbfield
类型的结构对象。这些对象有一个 table 名称和一个整数记录号。它们还有一个定义(defn
插槽),保留默认值 nil
。新创建时,它们的 :postinit
处理程序将它们添加到全局列表 dblist
,并将每个添加到全局哈希 dbhash
。 equal
方法确保出于 equal
平等的目的,将记录简化为由 table 名称和字段编号组成的双元素列表。这就是哈希 table 有效索引的内容。
当我们处理第二个文件时,我们使用数据库名称和 运行 计数器来查看 dbhash
中的那个键是否存在 dbfield
结构。如果是这样,我们用提取的定义更新该记录 defn
。
在 @(output)
部分,我们指示 repeat 遍历 dblist
,但相反(因为第一个文件的条目被推到它上面,就像堆栈一样)。我们还仅针对那些具有 defn
槽而不是 nil
的条目过滤此列表。也就是说,索引文件可以引用不存在的数据库和字段。可以扩展要求以某种方式报告这些或引发错误。