替换 .docx 中的文本模板(Apache POI、Docx4j 或其他)
Replace text templates inside .docx (Apache POI, Docx4j or other)
我想使用正则表达式 (java RegEx) 在 MS Word (.docx) 文档中进行替换:
Example:
…, с одной стороны, и %SOME_TEXT% именуемое в дальнейшем «Заказчик», в
лице %SOME_TEXT% действующего на основании %SOME_TEXT% с другой стороны,
заключили настоящий Договор о нижеследующем: …
我尝试获取文本模板(如 %SOME_TEXT%)使用 Apache POI - XWPF 并替换文本,但不能保证更换,因为 POI 将 runs 分开 => 我得到这样的东西(System.out.println(run.getText(0))
):
…
, с одной стороны, и
%
SOME_TEXT
%
именуемое
в дальнейшем «Заказчик», в лице
%
SOME
_
TEXT
%
代码示例:
FileInputStream fis = new FileInputStream(new File("document.docx"));
XWPFDocument document = new XWPFDocument(fis);
List<XWPFParagraph> paragraphs = document.getParagraphs();
paragraphs.forEach(para -> {
para.getRuns().forEach(run -> {
String text = run.getText(0);
if (text != null) {
System.out.println(text);
// text replacement process
// run.setText(newText,0);
}
});
});
我发现了很多类似的问题(例如“Replacing a text in Apache POI XWPF
"),但没有找到我的问题的答案
(在这里回答“Seperated text line in Apache POI XWPFRun object”提供不方便的解决方案)。
我尝试使用 docx4j 和这个例子 => “docx4j find and replace”,但是 docx4j 工作方式类似。
For docx4j, see whosebug.com/questions/17093781/… – JasonPlutext
我尝试使用 docx4j => documentPart.variableReplace(mappings);
,但不能保证替换(plutext/docx4j)。
Did you use VariablePrepare? whosebug.com/a/17143488/1031689 – JasonPlutext
是,没有结果:
WordprocessingMLPackage wordMLPackage = WordprocessingMLPackage.load(new File("test.docx"));
HashMap<String, String> mappings = new HashMap<>();
VariablePrepare.prepare(wordMLPackage);//see notes
mappings.put("SOME_TEXT", "XXXX");
wordMLPackage.getMainDocumentPart().variableReplace(mappings);
wordMLPackage.save(new File("out.docx"));
Input\output 文字:
Input:
…, с одной стороны, и ${SOME_TEXT} именуемое в дальнейшем «Заказчик» ...
Output:
…, с одной стороны, и SOME_TEXT именуемое в дальнейшем «Заказчик» ...
To see your runs after VariablePrepare, turn on INFO level logging for VariablePrepare, or just System.out.println(wordMLPackage.getMainDocumentPart().getXML())
我知道模板被分离到不同的 Runs,但主题的主要问题是如何不将模板分离到不同的 Runs .我使用 System.out.println(wordMLPackage.getMainDocumentPart().getXML())
并看到:
<w:r>
<w:t xml:space="preserve">, с одной стороны, и </w:t>
</w:r>
<w:r><w:t>$</w:t></w:r>
<w:r><w:t>{</w:t></w:r>
<w:r>
<w:rPr>
<w:rFonts w:eastAsia="Times-Roman"/>
<w:color w:val="000000" w:themeColor="text1"/>
<w:lang w:val="en-US"/>
</w:rPr>
<w:t>SOME</w:t> <!-- First part of template: "SOME" -->
</w:r>
<w:r>
<w:rPr>
<w:rFonts w:eastAsia="Times-Roman"/>
<w:color w:val="000000" w:themeColor="text1"/>
</w:rPr>
<w:t>_</w:t> <!-- Second part of template: "_" -->
</w:r>
<w:r>
<w:rPr>
<w:rFonts w:eastAsia="Times-Roman"/>
<w:color w:val="000000" w:themeColor="text1"/>
<w:lang w:val="en-US"/>
</w:rPr>
<w:t>TEXT</w:t> <!-- Third part of template: "TEXT" -->
</w:r>
<w:r>
<w:rPr>
<w:rFonts w:eastAsia="Times-Roman"/>
<w:color w:val="000000" w:themeColor="text1"/>
</w:rPr>
<w:t>}</w:t>
</w:r>
,该模板位于不同的 xml 标签中,我不明白为什么...
请帮我找到替换文本的方便方法.....
如您所见,“使用正则表达式 (java RegEx) 在 MS Word (.docx) 文档中进行替换”的方法并不是很好,因为您永远无法确定要替换的文本将合二为一text-run。更好的方法是在 Word 中使用字段(合并字段或表单字段)或内容控件。
对于此类要求,我最喜欢的仍然是 Word
中的旧表单字段。
第一个优点是,即使没有文档保护,也不可能将表单字段内容的不同部分格式化,从而将表单字段内容分成不同的运行(但请参见注释 1)。第二个优点是,由于灰色背景,表单域在文档内容中很明显。另一个优点是可以应用文档保护,这样即使在 Word 的 GUI 中也只能填写表单字段。这对于保护此类合同文件免遭不必要的更改非常有用。
(注 1):至少 Word
可以防止格式化部分表单字段内容不同,从而将表单字段内容分成不同的运行。不过,其他 word-processing 软件(例如 Writer
)可能不遵守此限制。
所以我会有这样的 Word 模板:
灰色字段是 Word
中很好的旧形式 Textfields,名为 Text1
、Text2
和 Text3
。 Textfields 块看起来像:
<xml-fragment w:rsidR="00833656"
...
xmlns:w="http://schemas.openxmlformats.org/wordprocessingml/2006/main"
... >
<w:rPr>
<w:rFonts w:eastAsia="Times-Roman"/>
<w:color w:themeColor="text1" w:val="000000"/>
<w:lang w:val="en-US"/>
</w:rPr>
<w:fldChar w:fldCharType="begin">
<w:ffData>
<w:name w:val="Text1"/>
<w:enabled w:val="0"/>
<w:calcOnExit w:val="0"/>
<w:textInput>
<w:default w:val="<введите заказчика>"/>
</w:textInput>
</w:ffData>
</w:fldChar>
</xml-fragment>
</xml-fragment>
然后是下面的代码:
import java.io.FileOutputStream;
import java.io.FileInputStream;
import org.apache.poi.xwpf.usermodel.*;
import org.apache.xmlbeans.XmlObject;
import org.apache.xmlbeans.XmlCursor;
import org.apache.xmlbeans.SimpleValue;
import javax.xml.namespace.QName;
public class WordReplaceTextInFormFields {
private static void replaceFormFieldText(XWPFDocument document, String ffname, String text) {
boolean foundformfield = false;
for (XWPFParagraph paragraph : document.getParagraphs()) {
for (XWPFRun run : paragraph.getRuns()) {
XmlCursor cursor = run.getCTR().newCursor();
cursor.selectPath("declare namespace w='http://schemas.openxmlformats.org/wordprocessingml/2006/main' .//w:fldChar/@w:fldCharType");
while(cursor.hasNextSelection()) {
cursor.toNextSelection();
XmlObject obj = cursor.getObject();
if ("begin".equals(((SimpleValue)obj).getStringValue())) {
cursor.toParent();
obj = cursor.getObject();
obj = obj.selectPath("declare namespace w='http://schemas.openxmlformats.org/wordprocessingml/2006/main' .//w:ffData/w:name/@w:val")[0];
if (ffname.equals(((SimpleValue)obj).getStringValue())) {
foundformfield = true;
} else {
foundformfield = false;
}
} else if ("end".equals(((SimpleValue)obj).getStringValue())) {
if (foundformfield) return;
foundformfield = false;
}
}
if (foundformfield && run.getCTR().getTList().size() > 0) {
run.getCTR().getTList().get(0).setStringValue(text);
foundformfield = false;
//System.out.println(run.getCTR());
}
}
}
}
public static void main(String[] args) throws Exception {
XWPFDocument document = new XWPFDocument(new FileInputStream("WordTemplate.docx"));
replaceFormFieldText(document, "Text1", "Моя Компания");
replaceFormFieldText(document, "Text2", "Аксель Джоачимович Рихтер");
replaceFormFieldText(document, "Text3", "Доверенность");
FileOutputStream out = new FileOutputStream("WordReplaceTextInFormFields.docx");
document.write(out);
out.close();
document.close();
}
}
此代码需要 FAQ-N10025 中提到的所有模式 ooxml-schemas-1.3.jar
的完整 jar。
产生:
我想使用正则表达式 (java RegEx) 在 MS Word (.docx) 文档中进行替换:
Example:
…, с одной стороны, и %SOME_TEXT% именуемое в дальнейшем «Заказчик», в
лице %SOME_TEXT% действующего на основании %SOME_TEXT% с другой стороны,
заключили настоящий Договор о нижеследующем: …
我尝试获取文本模板(如 %SOME_TEXT%)使用 Apache POI - XWPF 并替换文本,但不能保证更换,因为 POI 将 runs 分开 => 我得到这样的东西(System.out.println(run.getText(0))
):
…
, с одной стороны, и
%
SOME_TEXT
%
именуемое
в дальнейшем «Заказчик», в лице
%
SOME
_
TEXT
%
代码示例:
FileInputStream fis = new FileInputStream(new File("document.docx"));
XWPFDocument document = new XWPFDocument(fis);
List<XWPFParagraph> paragraphs = document.getParagraphs();
paragraphs.forEach(para -> {
para.getRuns().forEach(run -> {
String text = run.getText(0);
if (text != null) {
System.out.println(text);
// text replacement process
// run.setText(newText,0);
}
});
});
我发现了很多类似的问题(例如“Replacing a text in Apache POI XWPF "),但没有找到我的问题的答案 (在这里回答“Seperated text line in Apache POI XWPFRun object”提供不方便的解决方案)。
我尝试使用 docx4j 和这个例子 => “docx4j find and replace”,但是 docx4j 工作方式类似。
For docx4j, see whosebug.com/questions/17093781/… – JasonPlutext
我尝试使用 docx4j => documentPart.variableReplace(mappings);
,但不能保证替换(plutext/docx4j)。
Did you use VariablePrepare? whosebug.com/a/17143488/1031689 – JasonPlutext
是,没有结果:
WordprocessingMLPackage wordMLPackage = WordprocessingMLPackage.load(new File("test.docx"));
HashMap<String, String> mappings = new HashMap<>();
VariablePrepare.prepare(wordMLPackage);//see notes
mappings.put("SOME_TEXT", "XXXX");
wordMLPackage.getMainDocumentPart().variableReplace(mappings);
wordMLPackage.save(new File("out.docx"));
Input\output 文字:
Input:
…, с одной стороны, и ${SOME_TEXT} именуемое в дальнейшем «Заказчик» ...
Output:
…, с одной стороны, и SOME_TEXT именуемое в дальнейшем «Заказчик» ...
To see your runs after VariablePrepare, turn on INFO level logging for VariablePrepare, or just
System.out.println(wordMLPackage.getMainDocumentPart().getXML())
我知道模板被分离到不同的 Runs,但主题的主要问题是如何不将模板分离到不同的 Runs .我使用 System.out.println(wordMLPackage.getMainDocumentPart().getXML())
并看到:
<w:r>
<w:t xml:space="preserve">, с одной стороны, и </w:t>
</w:r>
<w:r><w:t>$</w:t></w:r>
<w:r><w:t>{</w:t></w:r>
<w:r>
<w:rPr>
<w:rFonts w:eastAsia="Times-Roman"/>
<w:color w:val="000000" w:themeColor="text1"/>
<w:lang w:val="en-US"/>
</w:rPr>
<w:t>SOME</w:t> <!-- First part of template: "SOME" -->
</w:r>
<w:r>
<w:rPr>
<w:rFonts w:eastAsia="Times-Roman"/>
<w:color w:val="000000" w:themeColor="text1"/>
</w:rPr>
<w:t>_</w:t> <!-- Second part of template: "_" -->
</w:r>
<w:r>
<w:rPr>
<w:rFonts w:eastAsia="Times-Roman"/>
<w:color w:val="000000" w:themeColor="text1"/>
<w:lang w:val="en-US"/>
</w:rPr>
<w:t>TEXT</w:t> <!-- Third part of template: "TEXT" -->
</w:r>
<w:r>
<w:rPr>
<w:rFonts w:eastAsia="Times-Roman"/>
<w:color w:val="000000" w:themeColor="text1"/>
</w:rPr>
<w:t>}</w:t>
</w:r>
,该模板位于不同的 xml 标签中,我不明白为什么...
请帮我找到替换文本的方便方法.....
如您所见,“使用正则表达式 (java RegEx) 在 MS Word (.docx) 文档中进行替换”的方法并不是很好,因为您永远无法确定要替换的文本将合二为一text-run。更好的方法是在 Word 中使用字段(合并字段或表单字段)或内容控件。
对于此类要求,我最喜欢的仍然是 Word
中的旧表单字段。
第一个优点是,即使没有文档保护,也不可能将表单字段内容的不同部分格式化,从而将表单字段内容分成不同的运行(但请参见注释 1)。第二个优点是,由于灰色背景,表单域在文档内容中很明显。另一个优点是可以应用文档保护,这样即使在 Word 的 GUI 中也只能填写表单字段。这对于保护此类合同文件免遭不必要的更改非常有用。
(注 1):至少 Word
可以防止格式化部分表单字段内容不同,从而将表单字段内容分成不同的运行。不过,其他 word-processing 软件(例如 Writer
)可能不遵守此限制。
所以我会有这样的 Word 模板:
灰色字段是 Word
中很好的旧形式 Textfields,名为 Text1
、Text2
和 Text3
。 Textfields 块看起来像:
<xml-fragment w:rsidR="00833656"
...
xmlns:w="http://schemas.openxmlformats.org/wordprocessingml/2006/main"
... >
<w:rPr>
<w:rFonts w:eastAsia="Times-Roman"/>
<w:color w:themeColor="text1" w:val="000000"/>
<w:lang w:val="en-US"/>
</w:rPr>
<w:fldChar w:fldCharType="begin">
<w:ffData>
<w:name w:val="Text1"/>
<w:enabled w:val="0"/>
<w:calcOnExit w:val="0"/>
<w:textInput>
<w:default w:val="<введите заказчика>"/>
</w:textInput>
</w:ffData>
</w:fldChar>
</xml-fragment>
</xml-fragment>
然后是下面的代码:
import java.io.FileOutputStream;
import java.io.FileInputStream;
import org.apache.poi.xwpf.usermodel.*;
import org.apache.xmlbeans.XmlObject;
import org.apache.xmlbeans.XmlCursor;
import org.apache.xmlbeans.SimpleValue;
import javax.xml.namespace.QName;
public class WordReplaceTextInFormFields {
private static void replaceFormFieldText(XWPFDocument document, String ffname, String text) {
boolean foundformfield = false;
for (XWPFParagraph paragraph : document.getParagraphs()) {
for (XWPFRun run : paragraph.getRuns()) {
XmlCursor cursor = run.getCTR().newCursor();
cursor.selectPath("declare namespace w='http://schemas.openxmlformats.org/wordprocessingml/2006/main' .//w:fldChar/@w:fldCharType");
while(cursor.hasNextSelection()) {
cursor.toNextSelection();
XmlObject obj = cursor.getObject();
if ("begin".equals(((SimpleValue)obj).getStringValue())) {
cursor.toParent();
obj = cursor.getObject();
obj = obj.selectPath("declare namespace w='http://schemas.openxmlformats.org/wordprocessingml/2006/main' .//w:ffData/w:name/@w:val")[0];
if (ffname.equals(((SimpleValue)obj).getStringValue())) {
foundformfield = true;
} else {
foundformfield = false;
}
} else if ("end".equals(((SimpleValue)obj).getStringValue())) {
if (foundformfield) return;
foundformfield = false;
}
}
if (foundformfield && run.getCTR().getTList().size() > 0) {
run.getCTR().getTList().get(0).setStringValue(text);
foundformfield = false;
//System.out.println(run.getCTR());
}
}
}
}
public static void main(String[] args) throws Exception {
XWPFDocument document = new XWPFDocument(new FileInputStream("WordTemplate.docx"));
replaceFormFieldText(document, "Text1", "Моя Компания");
replaceFormFieldText(document, "Text2", "Аксель Джоачимович Рихтер");
replaceFormFieldText(document, "Text3", "Доверенность");
FileOutputStream out = new FileOutputStream("WordReplaceTextInFormFields.docx");
document.write(out);
out.close();
document.close();
}
}
此代码需要 FAQ-N10025 中提到的所有模式 ooxml-schemas-1.3.jar
的完整 jar。
产生: