Text Only Extraction Using Solr and Tika

Emyr James Thu, 05 May 2011 06:37:25 -0700

Hi All,

I have solr and tika installed and am happily extracting and indexingvarious files.Unfortunately on some word documents it blows up since it tries toauto-generate a 'title' field but my title field in the schema is singlevalued.


Here is my config for the extract handler...

<requestHandler name="/update/extract"class="org.apache.solr.handler.extraction.ExtractingRequestHandler">

<lst name="defaults">
<str name="uprefix">ignored_</str>
</lst>
</requestHandler>

Is there a config option to make it only extract text, or ideally toallow me to specify which metadata fields to accept ?

E.g. I'd like to use any author metadata it finds but to not use anytitle metadata it finds as I want title to be single valued and setexplicitly using a literal.title in the post request.

I did look around for some docs but all i can find are very basicexamples. there's no comprehensive configuration documentation out thereas far as I can tell.



ALSO...

I get some other bad responses coming back such as...

<html><head><title>Apache Tomcat/6.0.28 - Errorreport</title><style></style></head><body><h1>HTTP Status 500 - org.ap

ache.poi.poifs.filesystem.DirectoryNode.iterator()Ljava/util/Iterator;

java.lang.NoSuchMethodError:org.apache.poi.poifs.filesystem.DirectoryNode.iterator()Ljava/util/Iterator;atorg.apache.tika.parser.microsoft.OfficeParser.parse(OfficeParser.java:168)atorg.apache.tika.parser.CompositeParser.parse(CompositeParser.java:197)atorg.apache.tika.parser.CompositeParser.parse(CompositeParser.java:197)atorg.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:135)atorg.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:148)atorg.apache.solr.handler.extraction.ExtractingDocumentLoader.load(ExtractingDocumentLoader.java:190)atorg.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:54)atorg.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:131)atorg.apache.solr.core.RequestHandlers$LazyRequestHandlerWrapper.handleRequest(RequestHandlers.java:233)

    at org.apache.solr.core.SolrCore.execute(SolrCore.java:1316)

atorg.apache.solr.servlet.SolrDispatchFilter.execute(SolrDispatchFilter.java:338)atorg.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:241)atorg.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:235)atorg.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:206)atorg.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:233)atorg.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:191)atorg.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:127)atorg.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:102)atorg.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:109)atorg.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:298)atorg.apache.coyote.http11.Http11Processor.process(Http11Processor.java:857)atorg.apache.coyote.http11.Http11Protocol$Http11ConnectionHandler.process(Http11Protocol.java:588)atorg.apache.tomcat.util.net.JIoEndpoint$Worker.run(JIoEndpoint.java:489)

    at java.lang.Thread.run(Thread.java:636)

</h1><HR size="1" noshade="noshade"><p><b>type</b> Statusreport</p><p><b>message</b><u>org.apache.poi.poifs.filesystem.DirectoryNode.iterator()Ljava/util/Iterator;


For the above my url was...

 
http://localhost:8080/solr/update/extract?literal.id=3922&defaultField=content&fmap.content=content&uprefix=ignored_&stream.contentType=application%2Fvnd.ms-powerpoint&commit=true&literal.title=Reactor+cycle+141&literal.not
es=&literal.tag=UCN_production&literal.author=Maurits+van+der+Grinten

I guess there's something special I need to be able to process powerpoint files ? Maybe I need to get the latest apache POI ? Anysuggestions welcome...



Regards,

Emyr

Text Only Extraction Using Solr and Tika

Reply via email to