• Jeder User im Forum verpflichtet sich zur Akzeptanz und zur Einhaltung dieser Regeln:
    1. Umgangston
      Ein angemessener höflicher Umgangston, ohne Beleidigungen, Beschimpfungen und aggressive Postings ist für jedes Mitglied Pflicht.
    2. Beiträge
      Jedes Mitglied sollte sich bemühen nur sinnvolle Beiträge zum Thema zu posten. Dabei ist unbedingt vorher zu prüfen, ob das Thema vorher schon einmal diskutiert wurde und daher fortgesetzt werden kann
      • Suchfunktion benutzen!
      • offizielle Doku lesen!
    3. Haftung
      Jeder Beitragsersteller übernimmt die alleinige Verantwortung seiner Inhalte.
    4. Werbung
      Wir erlauben keine Beiträge, Signaturen, Private Nachrichten oder eMails an Benutzer, die Werbung enthalten. Ausgenommen
      sind Stellengesuche /-angebote, welche ausschließlich im Forum "Stellengesuche" veröffentlicht werden dürfen.
    5. Verstöße
      Regelwidrige Beiträge sollten dem Team gemeldet werden. Nach deren Überprüfung werden wir schnellstmöglich
      entsprechend handeln.
    6. Authorität
      Den Anweisungen der Team-Mitglieder (Administratoren und Moderatoren) sind in diesem Forum Folge zu leisten.
      Bei Fragen oder Beschwerden bitte an diese wenden.
    Wir möchten Euch darauf aufmerksam machen, dass es bei Verstößen gegen einen oder mehreren der oben genannten
    Punkte dem Team frei steht entsprechend zu handeln. Dies kann z.B. das Löschen eines Beitrags, das Ausschliessen bzw.
    Sperren von Mitgliedern oder aber lediglich eine Verwarnung sein.

    In diesem Zusammenhang sollte erwähnt werden, dass das Forum automatisch die IP-Adresse jedes Beitrag-Erstellers
    speichert. Bei schweren Vergehen, behalten wir es uns vor, die IP-Adresse zur Strafverfolgung weiterzugeben.
  • Willkommen im Zend Framework Forum

    ZF1 Zend Framework 1 + ZF2 Zend Framework 2

    Das Zend Framework Forum ist seit 2006 die erste Anlaufstelle für Zend Framework Entwickler in Deutschland. Mit über 70.000 Beiträgen und einer steigenden Nutzerzahl bietet das Forum hilfreiche Themen und ZF-Tutorials für professionelle Entwickler, fortgeschrittene Programmierer sowie Zend Framework Einsteiger.
    Wenn dies Dein erster Besuch in der Zend Framework Community ist, lies bitte zuerst die Hilfe - FAQ durch. Du musst Dich registrieren, bevor Du Beiträge verfassen kannst. Klicke oben auf 'Registrieren', um die Registrierung zu starten. Du kannst auch jetzt schon Beiträge lesen. Hier im Forum findest Du die Zend Framework Hilfe, die Du suchst!

    Grüße an alle Zend Framework Entwickler. Das Team vom Zend Framework Forum!

    Drupal Agentur

Lucene kennt nach einem optimize nur noch wenig Hits

Niteflight

New member
Hallo,
ich habe einen Lucene Index aufgebaut mit ca. ~30 MB Grösse.

Ich mache mit unoptimierten Index 3 Testabfragen.
1) suchwort1
2) suchwort2
3) suchwort1 AND suchwort2

Code:
PHP:
function search($strTerms)
{
    global $index;
    
    $query = new Zend_Search_Lucene_Search_Query_MultiTerm();

    foreach ( explode('-', utf8_encode($strTerms)) as $strTerm ) {
           $term = new Zend_Search_Lucene_Index_Term($strTerm);
           $query->addTerm($term, true);
    }
    
    $t1 = microtime(true);
    $hits = $index->find($query);
    $t2 = microtime(true);
    //echo $strTerms." ".count($hits)."\n";
    return array(
        'hits' => count($hits),
        'time' => round($t2 - $t1, 3)
    );
}
Ich erhalte folgende Ergebnisse:
1) suchwort1 > ~2500 Hits
2) suchwort2 > ~1200 Hits
3) suchwort1 AND suchwort2 > 11 Hits ( schon etwas zu wenig )

im nächsten Schritt mache ich nur ein
PHP:
$index->optimize()
und erhalte diese Ergebnisse:
1) suchwort1 > ~2500 Hits
2) suchwort2 > ~1200 Hits
3) suchwort1 AND suchwort2 > 1 Hit

Bäng. Warum zum Geier erhalte ich nur noch 1 Hit mit optimiertem Index?

Ich vermute, daß im Index irgendwie schadhafte Stellen sind und Lucene beim Erreichen einer solchen Stelle einfach abbricht.
Ein möglicher Indiz hierfür könnte diese Fehlermeldung sein, die sehr sehr häufig beim
PHP:
$index->find()
kommt, die mir aber leider nicht viel sagt:
Notice: Undefined offset: 148363 (Zahl variiert) in /var/www/[...]/www/library/Zend/Search/Lucene/Search/Query/MultiTerm.php on line 480

Diesen Teil hier habe ich als Fehlerursache in MultiTerm.php Zeile 480 herausfinden können:
$this->_termsFreqs[$termId][$docId]

Meine Vermutung ist, daß im Index irgendwo steht, daß es ne $docId 148363 gibt, die aber aus irgendeinem Grund nicht gefunden werden kann.

Es wird Zend 1.10.6 verwendet.
 

Niteflight

New member
PHP:
$aryIndexData = array(
                $aryAdOff['Title'],
                $aryAdOff['Location'],
                $aryAdOff['Street'],
                $aryAdOff['Zipcode']
            );
                
$objModelLucene->newDoc()
     ->addFieldToDoc('UnIndexed', 'eId', '2-' . $aryAdOff['EntryID'], false)
     ->addFieldToDoc('UnStored', 'eData', implode(' ', $aryIndexData))
     ->addDoc();




public function newDoc()
    {
        $this->_doc = new Zend_Search_Lucene_Document();
        
        return $this;
    }
    
    public function addFieldToDoc($strFieldType, $strFieldName, $strFieldData, $blnSanitize = true)
    {
        if ( is_null($this->_doc) ) {
            $this->newDoc();
        }
        
        if ( $blnSanitize ) {
            $strFieldData = self::_sanitizeLuceneData($strFieldData);
        }
        
        $field = Zend_Search_Lucene_Field::$strFieldType($strFieldName, $strFieldData, 'iso-8859-1');            
        $this->_doc->addField($field);
        
        return $this;
    }
    
    public function addDoc()
    {
        $this->_index->addDocument($this->_doc);
        $this->_index->commit();
        $this->_doc = null;
        
        return $this;
    }

private static function _sanitizeLuceneData($input)
    {    
        return strip_tags($input);
        
        $arySearch  = array('ä', 'ö', 'ü', 'ß', '?*','á','â','ã','ç','è','é','ê','ë','ì','?*','î','ï','ñ','ò','ó','ô','õ','ù','ú','û','ý','ÿ','À','Á','Â','Ã','Ä','Ç','È','É','Ê','Ë','Ì','Í','Î','Ï','Ñ','Ò','Ó','Ô','Õ','Ö','Ù','Ú','Û','Ü','Ý', '*', '\\');
        $aryReplace = array('ae','oe','ue','ss','a','a','a','a','c','e','e','e','e','i','i','i','i','n','o','o','o','o','u','u','u','y','y','A','A','Ae','A','A','C','E','E','E','E','I','I','I','I','N','O','O','O','O','Oe','U','U','U','Ue','Y', '', '');        
        $input = str_replace($arySearch, $aryReplace, $input);
        
        $input = strtolower($input);
        $input = preg_replace('/[^a-z0-9 ]/', ' ', $input);
        
        $input = iconv('ISO-8859-1', 'UTF-8//TRANSLIT//IGNORE', $input);
                        
        return $input;
    }
in sanitizeLuceneData habe ich jede Menge ausprobiert, da ich als Input-Charset kein UTF-8 habe. Das sind so die übrig gebliebenen Fragmente.
 

mahok

New member
Versuch mal den Index mit Luke http://www.getopt.org/luke/ zu öffnen. Ich hatte eine Zeit lang arge Probleme wegen Kodierung UTF-8 <> Latin-1 und das resultierte in einem defekten Index, der zwar noch innerhalb von Zend_Search_Lucene zwar verwendet werden konnte, aber die fehlerhaften Einträge natürlich nicht gefunden wurden. Wenn es ein Problem mit dem Index ist, wird Luke ihn vermutlich gar nicht erst öffnen können.
 
Zuletzt bearbeitet:

Niteflight

New member
Ich bin jetzt

umgestiegen auf Solr. Die Geschwindigkeit ist jetzt gefühlt 10 mal schneller und es werden nun auch alle Dokumente gefunden.
 
Oben