Docx4J初体验

Docx4J初体验

Docx4J 作为JAVA来操作DOCX文档的工具真的非常好用。

目前也只是接触到冰山一角。

仅仅使用Docx4J来将DOCX文档解析成HTML格式。

但是还是有很多问题:

例如:

解析出来的图片会有 emf 格式,浏览器不支持渲染

解析出来文字可能是字体不存在,导致文字重叠。

简单的代码上一下吧:

引用的JAR包:


		<!-- https://mvnrepository.com/artifact/org.docx4j/docx4j -->
		<dependency>
			<groupId>org.docx4j</groupId>
			<artifactId>docx4j</artifactId>
			<version>6.1.2</version>
		</dependency>

JAVA代码:


//指定文件名称哦
docxToHtml("DOCX文档路径", "HTML文档路径");

	/**
	 * 生成文件
	 * @param filepath html文件路径
	 * @param outpath doc文件路径
	 */
	public static void docxToHtml(String filepath, String outpath) throws Docx4JException, FileNotFoundException {
		WordprocessingMLPackage wmp = WordprocessingMLPackage.load(new File(filepath));
		Docx4J.toHTML(wmp, "图片存放路径", "图片找寻的路径(HTML)", new FileOutputStream(new File(outpath)));
	}

仅仅做到了这些 仍然是自己认识不足,慢慢探索中。