[jira] Commented: (LUCENE-848) Add supported for Wikipedia English as a corpus in the benchmarker stuff

Grant Ingersoll (JIRA) Thu, 28 Jun 2007 06:33:52 -0700

    [ 
https://issues.apache.org/jira/browse/LUCENE-848?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel#action_12508830
 ]


Grant Ingersoll commented on LUCENE-848:
----------------------------------------

I take back my promise to commit, I am getting (after processing 189500 docs):
 [java] Error: cannot execute the algorithm! term out of order 
("docid:disrs".compareTo("docname:disregardle
                                                                                
                                &*Ar") <= 0)
     [java] org.apache.lucene.index.CorruptIndexException: term out of order 
("docid:disrs".compareTo("docname:disregardle
                                                                                
                                          &*Ar") <= 0)
     [java]     at 
org.apache.lucene.index.TermInfosWriter.add(TermInfosWriter.java:102)
     [java]     at 
org.apache.lucene.index.SegmentMerger.mergeTermInfo(SegmentMerger.java:332)
     [java]     at 
org.apache.lucene.index.SegmentMerger.mergeTermInfos(SegmentMerger.java:297)
     [java]     at 
org.apache.lucene.index.SegmentMerger.mergeTerms(SegmentMerger.java:261)
     [java]     at 
org.apache.lucene.index.SegmentMerger.merge(SegmentMerger.java:98)
     [java]     at 
org.apache.lucene.index.IndexWriter.mergeSegments(IndexWriter.java:1883)
     [java]     at 
org.apache.lucene.index.IndexWriter.maybeMergeSegments(IndexWriter.java:1811)
     [java]     at 
org.apache.lucene.index.IndexWriter.flushRamSegments(IndexWriter.java:1742)
     [java]     at 
org.apache.lucene.index.IndexWriter.flushRamSegments(IndexWriter.java:1733)
     [java]     at 
org.apache.lucene.index.IndexWriter.maybeFlushRamSegments(IndexWriter.java:1727)
     [java]     at 
org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1004)
     [java]     at 
org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:983)
     [java]     at 
org.apache.lucene.benchmark.byTask.tasks.AddDocTask.doLogic(AddDocTask.java:74)
     [java]     at 
org.apache.lucene.benchmark.byTask.tasks.PerfTask.runAndMaybeStats(PerfTask.java:83)
     [java]     at 
org.apache.lucene.benchmark.byTask.tasks.TaskSequence.doSerialTasks(TaskSequence.java:107)
     [java]     at 
org.apache.lucene.benchmark.byTask.tasks.TaskSequence.doLogic(TaskSequence.java:93)
     [java]     at 
org.apache.lucene.benchmark.byTask.tasks.PerfTask.runAndMaybeStats(PerfTask.java:90)
     [java]     at 
org.apache.lucene.benchmark.byTask.tasks.TaskSequence.doSerialTasks(TaskSequence.java:107)
     [java]     at 
org.apache.lucene.benchmark.byTask.tasks.TaskSequence.doLogic(TaskSequence.java:93)
     [java]     at 
org.apache.lucene.benchmark.byTask.tasks.PerfTask.runAndMaybeStats(PerfTask.java:90)
     [java]     at 
org.apache.lucene.benchmark.byTask.tasks.TaskSequence.doSerialTasks(TaskSequence.java:107)
     [java]     at 
org.apache.lucene.benchmark.byTask.tasks.TaskSequence.doLogic(TaskSequence.java:93)
     [java]     at 
org.apache.lucene.benchmark.byTask.tasks.PerfTask.runAndMaybeStats(PerfTask.java:90)
     [java]     at 
org.apache.lucene.benchmark.byTask.tasks.TaskSequence.doSerialTasks(TaskSequence.java:107)
     [java]     at 
org.apache.lucene.benchmark.byTask.tasks.TaskSequence.doLogic(TaskSequence.java:93)
     [java]     at 
org.apache.lucene.benchmark.byTask.utils.Algorithm.execute(Algorithm.java:228)
     [java]     at 
org.apache.lucene.benchmark.byTask.Benchmark.execute(Benchmark.java:72)
     [java]     at 
org.apache.lucene.benchmark.byTask.Benchmark.main(Benchmark.java:108)
     [java] ####################
     [java] ###  D O N E !!! ###
     [java] ####################


Can you reproduce this?  It seems like an actual issue with core.

> Add supported for Wikipedia English as a corpus in the benchmarker stuff
> ------------------------------------------------------------------------
>
>                 Key: LUCENE-848
>                 URL: https://issues.apache.org/jira/browse/LUCENE-848
>             Project: Lucene - Java
>          Issue Type: New Feature
>          Components: contrib/benchmark
>            Reporter: Steven Parkes
>            Assignee: Grant Ingersoll
>            Priority: Minor
>         Attachments: LUCENE-848.txt, LUCENE-848.txt, LUCENE-848.txt, 
> LUCENE-848.txt, LUCENE-848.txt, LUCENE-848.txt, LUCENE-848.txt, 
> WikipediaHarvester.java, xerces.jar, xerces.jar, xml-apis.jar
>
>
> Add support for using Wikipedia for benchmarking.

-- 
This message is automatically generated by JIRA.
-
You can reply to this email to add a comment to the issue online.


---------------------------------------------------------------------
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]

[jira] Commented: (LUCENE-848) Add supported for Wikipedia English as a corpus in the benchmarker stuff

Reply via email to