• Willkommen im Zend Framework Forum

    ZF1 Zend Framework 1 + ZF2 Zend Framework 2

    Das Zend Framework Forum ist seit 2006 die erste Anlaufstelle für Zend Framework Entwickler in Deutschland. Mit über 70.000 Beiträgen und einer steigenden Nutzerzahl bietet das Forum hilfreiche Themen und ZF-Tutorials für professionelle Entwickler, fortgeschrittene Programmierer sowie Zend Framework Einsteiger.
    Wenn dies Dein erster Besuch in der Zend Framework Community ist, lies bitte zuerst die Hilfe - FAQ durch. Du musst Dich registrieren, bevor Du Beiträge verfassen kannst. Klicke oben auf 'Registrieren', um die Registrierung zu starten. Du kannst auch jetzt schon Beiträge lesen. Hier im Forum findest Du die Zend Framework Hilfe, die Du suchst!

    Grüße an alle Zend Framework Entwickler. Das Team vom Zend Framework Forum!

    Drupal Agentur

Zend_Search_Lucene: Umlaute bei Suche nicht erkannt

mahok

New member
Hi,

ich habe irgendwo ein Kodierungsproblem (vermutlich bei der Suche auf dem Index), finde es aber nicht. Es gibt zwar schon ähnliche Threads, aber keiner hat mich auf die richtige Fährte gebracht...

Mein Index wird ebenfalls mit Zend_Search_Lucene erstellt. Dabei verwende ich den Common_TextNum_CaseInsensitive-Analyzer. PHPs default_charset ist auf iso-8859-1 gesetzt, selbiges wird auch als Argument an Zend_Search_Lucene_Document::addField() übergeben.

Es kommt zwar vereinzelt eine NOTICE von iconv, von wegen "Detected an illegal character", aber eine Überprüfung mit luke zeigt, dass Umlaute korrekt erkannt wurden.

Meine Anwendung, die auf dem Index sucht, verwendet UTF8-Kodierung. In meiner Bootstrap.php habe ich eine Methode _initLucene(), in der Zend_Search_Lucene_Search_QueryParser::setDefaultEncoding('utf-8'); gesetzt wird. Die Suche selbst parst einen eingegeben String mit Zend_Search_Lucene_Search_QueryParser:: parse() und gibt das Ergebnis an Lucene's find()-Methode weiter.

Soweit scheint das auch zu funktionieren, außer bei Umlauten. Ich kann z.B. nach me?er suchen und finde Ergebnisse mit meyer und meier. Ich kann Boolesche Suche machen, kann auf bestimmten Feldern suchen und auch nach Ziffern, aber sobald ich Umlaute verwende tauchen merkwürdige Ergebnisse auf. Es scheint jeweils nur der Teil vor dem Umlaut betrachtet zu werden und der Rest dahinter völlig ignoriert zu werden. Wenn ich das Query-Objekt auf String caste und ausgebe, werden die Umlaute aber korrekt angezeigt.

Folgendes habe ich bereits erfolglos probiert:
  • QueryParser auf iso-8859-1 einstellen und dann bei parse utf8_decode() bzw. Kodierung als Argument übergeben
  • Index mit UTF-8 erzeugen (Common_Utf8_CaseInsensitive)
Weiß jemand wo das Problem liegen könnte und/oder hat einen brauchbaren Workaround?

edit: Bei Umlauten wird sowohl der Teil vor, als auch nach dem Umlaut gefunden. Eine Suche nach enthält lieferte z.B. Ergebnisse wie: lt., enth., aber auch Enthüllung. Eine Phrasensuche nach "enthält" bringt jedoch keine Ergebnisse.

2. edit: Beim Erzeugen des Index mit UTF-8-Kodierung werden keine iconv-Notices ausgegeben, aber ansonsten ist das Ergebnis dasselbe.
 
Zuletzt bearbeitet:
Oben