DOM4J 解析 XML 之忽略转义字符

最新推荐文章于 2022-05-20 14:45:54 发布

原创

最新推荐文章于 2022-05-20 14:45:54 发布 · 3.5k 阅读

本文介绍了在项目中遇到的XML转义字符问题，以及如何使用DOM4J而非DOM来解决这个问题。通过DOM4J解析XML，避免了自动转义，实现了保留原始转义字符的功能。文章提供了DOM4J的jar包下载和使用示例，并展示了通过实现XMLFilter和SAXContentHandler的characters()方法来忽略转义字符的方法。

本文为博主原创文章，未经允许不得转载

背景

项目开发需要手动合入几十种语言的翻译到 string.xml 中，这是一件非常痛苦的事情：Copy、Paste，Copy、Paste，Copy、Paste... 人都快疯了！被逼无奈写了个自动替换翻译的工具。原理很简单：解析 Excel中的翻译，替换到 Xml 中。Excel 解析用 jxl.jar，Xml 解析与修改用 DOM，一顿操作，一天就写完了！正高兴呢，赶紧使用 git diff 查看修改对比，一看坏事了：“坑爹呢！一点也不完美啊！原字符串中的转义字符全被转义了好嘛！难道还要手动还回去嘛！像我这样优（懒）秀（惰）的人根本无法容忍好嘛！” 所以，本文记录如何使用 DOM4J（上面不是说用 DOM 解析吗？这里怎么又成 DOM4J 了？忽悠谁呢！）解析 XML 并让其忽略转义字符。

为什么不用 DOM

谁说我没用 DOM，我一上来就用的 DOM 好嘛！毕竟 JDK 自带的啊！但是用了后，用户体验贼差好嘛！稍微贴下使用方法：

package com.yuloran;

import org.w3c.dom.Document;
import org.w3c.dom.NamedNodeMap;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.xml.sax.InputSource;
import org.xml.sax.SAXException;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;
import javax.xml.transform.OutputKeys;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerException;
import javax.xml.transform.TransformerFactory;
import javax.xml.transform.dom.DOMSource;
import javax.xml.transform.stream.StreamResult;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;

public class Main {

    public static void main(String[] args) throws ParserConfigurationException, IOException, SAXException, TransformerException {

        // 1. 解析
        DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
        DocumentBuilder documentBuilder = factory.newDocumentBuilder();
        Document document = documentBuilder.parse(new InputSource(new InputStreamReader(new FileInputStream("strings.xml"), "UTF-8")));

        // 2. 遍历
        NodeList strings = document.getElementsByTagName("string");
        for (int i = 0; i < strings.getLength(); i++) {
            Node item = strings.item(i);
            System.out.print(String.format("Element:[tag:%s, content:%s] ", item.getNodeName(), item.getTextContent()));
            NamedN