Talend - tFileInputRegex

Talend - tFileInputRegex

我的目标是使用正则表达式解析多个文本文件,并根据匹配复制文件重命名它(包括文件名本身中的正则表达式匹配字符串):

使用 tFileInputRegex 的 Talend 项目概览:

正则表达式应该找到匹配 "Invoice - xxxxx" 或 "Num.Ord - yyyyy".

的所有行

所以我可以拥有这样的文件(发票 - 10044165 注册机):

     Company XXX, LLC                                          Page Number-            1
 P.O. Box 26610                                        I N V O I C E                      Date       -     02/15/05
 Miami, MI  64196                                                                         Customer   -        20035
                                                                          Lot Potency.     50006427
                                                                                          Brn/Plt    -    100780000
                                              REMIT TO:                                   Order Nbr  -    242242 SO
                                                            .                             Invoice    -  10044165 RI

或者像这样 (Num.Ord - 50006427):

     Company XXX, LLC                                          Page Number-            1
 P.O. Box 26610                                        I N V O I C E                      Date       -     02/15/05
 Miami, MI  64196                                                                         Customer   -        20035
                                                                          Num.Ord    -     50006427
                                                                                          Brn/Plt    -    100780000
                                              REMIT TO:                                  
                                                            .                         
                                              126 Ctest
                                              Chicago, IL

我正在尝试弄清楚如何使用有效的 OR Regex 搜索包含 "Num.Ord" OR "Invoice" 的行。 我已经使用正则表达式解析器进行了在线测试,这个有效:

[\n\r].*(Invoice|Num.Ord)\s*-\s*([^\n\r]*)

当我尝试在 Talend 组件 tFileInputRegex 中导入时,使用适当的符号,它不起作用(在 OR "Num.Ord" 上不匹配):

"[\n\r].*(Invoice|Num.Ord)\s*-\s*([^\n\r]*)"

最后,我通过使用另一个 tFileInputRegex Talend 组件再次解析来解决问题,其中的文件被第一个组件拒绝:

Talend 作业模式: