您现在的位置是:课程教程文章

解析表格数据,Python与Tika对比

2023-12-18 17:04课程教程文章 人已围观

为了证明Python确实在解析表格数据上优于其他的选择,今天我们为大家进行实例对比,具体如下:


PDF文件表格样例



Python解析结果



其他样式解析,如Tika


1、TEXT格式


  Tika tika = new Tika();
        tika.setMaxStringLength(100 * 1024 * 1024);
        try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {
            return tika.parseToString(stream);
        }


Text格式解析结果


2、XHTML格式


       ContentHandler handler = new ToXMLContentHandler();
        AutoDetectParser parser = new AutoDetectParser();
        Metadata metadata = new Metadata();
        try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {
            parser.parse(stream, handler, metadata);
            return handler.toString();
        }


XHTML格式解析结果


解析PDF常用组件(PdfBox、iText、Tika等)都无法将表格数据解析成有规则的格式。解析后格式基本是TEXT、XHTML等导致处理表格数据变的非常复杂。


根据对比我们可以发现,用Python解析PDF的表格数据更为简单方便,下期我们就为大家带来Python解析PDF具体的方法。更多Python学习推荐:PyThon学习网教学中心

课程教程:解析表格数据,Python与Tika对比

上一篇:Python教程:pdfplumber提取pdf中的表格数据

下一篇:没有了

站点信息

  • 文章统计篇文章