Blabos, https://pdfbox.apache.org/
2014-09-23 7:01 GMT-03:00 Renato Santos <renato.c...@gmail.com>: > Tenta usar o PDF reuse > > On Sep 23, 2014 1:37 AM, "Blabos de Blebe" <bla...@gmail.com> wrote: >> >> Pessoas, >> >> Eu estou com um PDF periódico (a cada x tempos eu tenho uma novo pdf), de >> umas 400 páginas, e preciso separá-lo em vários documentos. >> >> Existem umas páginas que tem um texto que serve de marcador tipo, >> 'FIM_DESTA_PARTE' e eu posso usá-las como separador. >> >> O problema dessa bagaça é que o PDF é mal formado, e isso é uma premissa, >> não um pressuposto, certo maluco? >> >> Ele é assim, eu não tenho controle sobre isso e fim de papo. >> >> Ao tentar abrir com o CAM::PDF eu recebo o seguinte erro: >> >> substr outside of string at >> /home/blabos/workspace/pdf/local/lib/perl5/CAM/PDF.pm line 575. >> Use of uninitialized value in string eq at >> /home/blabos/workspace/pdf/local/lib/perl5/CAM/PDF.pm line 575. >> substr outside of string at >> /home/blabos/workspace/pdf/local/lib/perl5/CAM/PDF.pm line 717. >> Use of uninitialized value $content[0] in join or string at >> /home/blabos/workspace/pdf/local/lib/perl5/CAM/PDF.pm line 728. >> Expected object open tag >> 0 (empty) >> >> Ao tentar abrir com o PDF::API2 eu recebo o seguinte erro: >> >> Malformed xref in PDF file at >> /home/blabos/workspace/pdf/local/lib/perl5/PDF/API2/Basic/PDF/File.pm line >> 1051. >> >> *** >> >> Por fim, consegui fazer o que eu queria combinando o programa pdfgrep (que >> usa uma lib chamada poppler) com o módulo PDF::Extract. >> >> Só que basicamente a minha solução foi um "shell script com esteróides" e >> eu não estou lá muito confiante que isso vá funcionar com os próximos PDFs >> que eu vou receber. >> >> Gostaria de saber se vocês tem alguma dica de como tornar isso mais >> robusto, sem ter que escrever código em C ou C++. >> >> Confesso que até estou pensando em usar a poppler, pois com ela não só o >> arquivo zuado abre como eu consigo acesso a todo o conteúdo textual. >> >> O binding que tem no CPAN (https://metacpan.org/pod/Poppler) também não me >> deixou muito animado não. >> >> Alguma ideia? >> >> []'s >> >> >> =begin disclaimer >> Sao Paulo Perl Mongers: http://sao-paulo.pm.org/ >> SaoPaulo-pm mailing list: SaoPaulo-pm@pm.org >> L<http://mail.pm.org/mailman/listinfo/saopaulo-pm> >> =end disclaimer >> > > =begin disclaimer > Sao Paulo Perl Mongers: http://sao-paulo.pm.org/ > SaoPaulo-pm mailing list: SaoPaulo-pm@pm.org > L<http://mail.pm.org/mailman/listinfo/saopaulo-pm> > =end disclaimer > -- -dom -- Daniel de Oliveira Mantovani Business Analytic Specialist Perl Evangelist /Astrophysics hobbyist. +55 11 9 8538-9897 XOXO =begin disclaimer Sao Paulo Perl Mongers: http://sao-paulo.pm.org/ SaoPaulo-pm mailing list: SaoPaulo-pm@pm.org L<http://mail.pm.org/mailman/listinfo/saopaulo-pm> =end disclaimer