[jira] [Commented] (TIKA-2208) Catch missing libraires

Tim Allison (JIRA) Fri, 16 Dec 2016 06:15:13 -0800

    [ 
https://issues.apache.org/jira/browse/TIKA-2208?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=15754523#comment-15754523
 ]


Tim Allison commented on TIKA-2208:
-----------------------------------

With the linked triggering document _and_ with a regular .vsdx (not embedded) 
file, I found that we could turn off .vsdx parsing with our 
{{ParserDecorator.withoutTypes}}:

{noformat}
    private static final Set<MediaType> EXCLUDES =
            Collections.unmodifiableSet(new HashSet<>(Arrays.asList(
                    MediaType.application("x-tika-ooxml")
            )));
    
    private static final Parser PARSERS[] = new Parser[] {
            // documents
            ParserDecorator.withoutTypes(new 
org.apache.tika.parser.microsoft.ooxml.OOXMLParser(),
                    EXCLUDES),
            new org.apache.tika.parser.html.HtmlParser(),
{noformat}

This _should_ be equivalent to: 
{noformat}
<parser class="org.apache.tika.parser.DefaultParser">
      <mime-exclude>application/x-tika-ooxml</mime-exclude>
...
{noformat}

> Catch missing libraires
> -----------------------
>
>                 Key: TIKA-2208
>                 URL: https://issues.apache.org/jira/browse/TIKA-2208
>             Project: Tika
>          Issue Type: Improvement
>          Components: parser
>            Reporter: David Pilato
>
> Hi there
> We have decided to remove support for some formats when using Tika to extract 
> text and metadata.
> We defined our list of Parsers:
> {code:java}
>     private static final Parser PARSERS[] = new Parser[] {
>         // documents
>         new org.apache.tika.parser.html.HtmlParser(),
>         new org.apache.tika.parser.rtf.RTFParser(),
>         new org.apache.tika.parser.pdf.PDFParser(),
>         new org.apache.tika.parser.txt.TXTParser(),
>         new org.apache.tika.parser.microsoft.OfficeParser(),
>         new org.apache.tika.parser.microsoft.OldExcelParser(),
>         new org.apache.tika.parser.microsoft.ooxml.OOXMLParser(),
>         new org.apache.tika.parser.odf.OpenDocumentParser(),
>         new org.apache.tika.parser.iwork.IWorkPackageParser(),
>         new org.apache.tika.parser.xml.DcXMLParser(),
>         new org.apache.tika.parser.epub.EpubParser(),
>     };
>     private static final AutoDetectParser PARSER_INSTANCE = new 
> AutoDetectParser(PARSERS);
>     private static final Tika TIKA_INSTANCE = new 
> Tika(PARSER_INSTANCE.getDetector(), PARSER_INSTANCE);
> {code}
> But when a MS Office Word document embeds another non supported document 
> (Like a Visio Schema) an {{NoClassDefFoundError}} is raised.
> Would it be possible to catch such a case and throw in that case a 
> {{TikaException}} so it behaves as an Exception and not as a Throwable?



--
This message was sent by Atlassian JIRA
(v6.3.4#6332)

[jira] [Commented] (TIKA-2208) Catch missing libraires

Reply via email to