• Willkommen im Zend Framework Forum

    ZF1 Zend Framework 1 + ZF2 Zend Framework 2

    Das Zend Framework Forum ist seit 2006 die erste Anlaufstelle für Zend Framework Entwickler in Deutschland. Mit über 70.000 Beiträgen und einer steigenden Nutzerzahl bietet das Forum hilfreiche Themen und ZF-Tutorials für professionelle Entwickler, fortgeschrittene Programmierer sowie Zend Framework Einsteiger.
    Wenn dies Dein erster Besuch in der Zend Framework Community ist, lies bitte zuerst die Hilfe - FAQ durch. Du musst Dich registrieren, bevor Du Beiträge verfassen kannst. Klicke oben auf 'Registrieren', um die Registrierung zu starten. Du kannst auch jetzt schon Beiträge lesen. Hier im Forum findest Du die Zend Framework Hilfe, die Du suchst!

    Grüße an alle Zend Framework Entwickler. Das Team vom Zend Framework Forum!

    Drupal Agentur

Lucene kennt nach einem optimize nur noch wenig Hits

Niteflight

New member
Hallo,
ich habe einen Lucene Index aufgebaut mit ca. ~30 MB Grösse.

Ich mache mit unoptimierten Index 3 Testabfragen.
1) suchwort1
2) suchwort2
3) suchwort1 AND suchwort2

Code:
PHP:
function search($strTerms)
{
    global $index;
    
    $query = new Zend_Search_Lucene_Search_Query_MultiTerm();

    foreach ( explode('-', utf8_encode($strTerms)) as $strTerm ) {
           $term = new Zend_Search_Lucene_Index_Term($strTerm);
           $query->addTerm($term, true);
    }
    
    $t1 = microtime(true);
    $hits = $index->find($query);
    $t2 = microtime(true);
    //echo $strTerms." ".count($hits)."\n";
    return array(
        'hits' => count($hits),
        'time' => round($t2 - $t1, 3)
    );
}
Ich erhalte folgende Ergebnisse:
1) suchwort1 > ~2500 Hits
2) suchwort2 > ~1200 Hits
3) suchwort1 AND suchwort2 > 11 Hits ( schon etwas zu wenig )

im nächsten Schritt mache ich nur ein
PHP:
$index->optimize()
und erhalte diese Ergebnisse:
1) suchwort1 > ~2500 Hits
2) suchwort2 > ~1200 Hits
3) suchwort1 AND suchwort2 > 1 Hit

Bäng. Warum zum Geier erhalte ich nur noch 1 Hit mit optimiertem Index?

Ich vermute, daß im Index irgendwie schadhafte Stellen sind und Lucene beim Erreichen einer solchen Stelle einfach abbricht.
Ein möglicher Indiz hierfür könnte diese Fehlermeldung sein, die sehr sehr häufig beim
PHP:
$index->find()
kommt, die mir aber leider nicht viel sagt:
Notice: Undefined offset: 148363 (Zahl variiert) in /var/www/[...]/www/library/Zend/Search/Lucene/Search/Query/MultiTerm.php on line 480

Diesen Teil hier habe ich als Fehlerursache in MultiTerm.php Zeile 480 herausfinden können:
$this->_termsFreqs[$termId][$docId]

Meine Vermutung ist, daß im Index irgendwo steht, daß es ne $docId 148363 gibt, die aber aus irgendeinem Grund nicht gefunden werden kann.

Es wird Zend 1.10.6 verwendet.
 

Niteflight

New member
PHP:
$aryIndexData = array(
                $aryAdOff['Title'],
                $aryAdOff['Location'],
                $aryAdOff['Street'],
                $aryAdOff['Zipcode']
            );
                
$objModelLucene->newDoc()
     ->addFieldToDoc('UnIndexed', 'eId', '2-' . $aryAdOff['EntryID'], false)
     ->addFieldToDoc('UnStored', 'eData', implode(' ', $aryIndexData))
     ->addDoc();




public function newDoc()
    {
        $this->_doc = new Zend_Search_Lucene_Document();
        
        return $this;
    }
    
    public function addFieldToDoc($strFieldType, $strFieldName, $strFieldData, $blnSanitize = true)
    {
        if ( is_null($this->_doc) ) {
            $this->newDoc();
        }
        
        if ( $blnSanitize ) {
            $strFieldData = self::_sanitizeLuceneData($strFieldData);
        }
        
        $field = Zend_Search_Lucene_Field::$strFieldType($strFieldName, $strFieldData, 'iso-8859-1');            
        $this->_doc->addField($field);
        
        return $this;
    }
    
    public function addDoc()
    {
        $this->_index->addDocument($this->_doc);
        $this->_index->commit();
        $this->_doc = null;
        
        return $this;
    }

private static function _sanitizeLuceneData($input)
    {    
        return strip_tags($input);
        
        $arySearch  = array('ä', 'ö', 'ü', 'ß', '?*','á','â','ã','ç','è','é','ê','ë','ì','?*','î','ï','ñ','ò','ó','ô','õ','ù','ú','û','ý','ÿ','À','Á','Â','Ã','Ä','Ç','È','É','Ê','Ë','Ì','Í','Î','Ï','Ñ','Ò','Ó','Ô','Õ','Ö','Ù','Ú','Û','Ü','Ý', '*', '\\');
        $aryReplace = array('ae','oe','ue','ss','a','a','a','a','c','e','e','e','e','i','i','i','i','n','o','o','o','o','u','u','u','y','y','A','A','Ae','A','A','C','E','E','E','E','I','I','I','I','N','O','O','O','O','Oe','U','U','U','Ue','Y', '', '');        
        $input = str_replace($arySearch, $aryReplace, $input);
        
        $input = strtolower($input);
        $input = preg_replace('/[^a-z0-9 ]/', ' ', $input);
        
        $input = iconv('ISO-8859-1', 'UTF-8//TRANSLIT//IGNORE', $input);
                        
        return $input;
    }
in sanitizeLuceneData habe ich jede Menge ausprobiert, da ich als Input-Charset kein UTF-8 habe. Das sind so die übrig gebliebenen Fragmente.
 

mahok

New member
Versuch mal den Index mit Luke http://www.getopt.org/luke/ zu öffnen. Ich hatte eine Zeit lang arge Probleme wegen Kodierung UTF-8 <> Latin-1 und das resultierte in einem defekten Index, der zwar noch innerhalb von Zend_Search_Lucene zwar verwendet werden konnte, aber die fehlerhaften Einträge natürlich nicht gefunden wurden. Wenn es ein Problem mit dem Index ist, wird Luke ihn vermutlich gar nicht erst öffnen können.
 
Zuletzt bearbeitet:

Niteflight

New member
Ich bin jetzt

umgestiegen auf Solr. Die Geschwindigkeit ist jetzt gefühlt 10 mal schneller und es werden nun auch alle Dokumente gefunden.
 
Oben