• Jeder User im Forum verpflichtet sich zur Akzeptanz und zur Einhaltung dieser Regeln:
    1. Umgangston
      Ein angemessener höflicher Umgangston, ohne Beleidigungen, Beschimpfungen und aggressive Postings ist für jedes Mitglied Pflicht.
    2. Beiträge
      Jedes Mitglied sollte sich bemühen nur sinnvolle Beiträge zum Thema zu posten. Dabei ist unbedingt vorher zu prüfen, ob das Thema vorher schon einmal diskutiert wurde und daher fortgesetzt werden kann
      • Suchfunktion benutzen!
      • offizielle Doku lesen!
    3. Haftung
      Jeder Beitragsersteller übernimmt die alleinige Verantwortung seiner Inhalte.
    4. Werbung
      Wir erlauben keine Beiträge, Signaturen, Private Nachrichten oder eMails an Benutzer, die Werbung enthalten. Ausgenommen
      sind Stellengesuche /-angebote, welche ausschließlich im Forum "Stellengesuche" veröffentlicht werden dürfen.
    5. Verstöße
      Regelwidrige Beiträge sollten dem Team gemeldet werden. Nach deren Überprüfung werden wir schnellstmöglich
      entsprechend handeln.
    6. Authorität
      Den Anweisungen der Team-Mitglieder (Administratoren und Moderatoren) sind in diesem Forum Folge zu leisten.
      Bei Fragen oder Beschwerden bitte an diese wenden.
    Wir möchten Euch darauf aufmerksam machen, dass es bei Verstößen gegen einen oder mehreren der oben genannten
    Punkte dem Team frei steht entsprechend zu handeln. Dies kann z.B. das Löschen eines Beitrags, das Ausschliessen bzw.
    Sperren von Mitgliedern oder aber lediglich eine Verwarnung sein.

    In diesem Zusammenhang sollte erwähnt werden, dass das Forum automatisch die IP-Adresse jedes Beitrag-Erstellers
    speichert. Bei schweren Vergehen, behalten wir es uns vor, die IP-Adresse zur Strafverfolgung weiterzugeben.
  • Willkommen im Zend Framework Forum

    ZF1 Zend Framework 1 + ZF2 Zend Framework 2

    Das Zend Framework Forum ist seit 2006 die erste Anlaufstelle für Zend Framework Entwickler in Deutschland. Mit über 70.000 Beiträgen und einer steigenden Nutzerzahl bietet das Forum hilfreiche Themen und ZF-Tutorials für professionelle Entwickler, fortgeschrittene Programmierer sowie Zend Framework Einsteiger.
    Wenn dies Dein erster Besuch in der Zend Framework Community ist, lies bitte zuerst die Hilfe - FAQ durch. Du musst Dich registrieren, bevor Du Beiträge verfassen kannst. Klicke oben auf 'Registrieren', um die Registrierung zu starten. Du kannst auch jetzt schon Beiträge lesen. Hier im Forum findest Du die Zend Framework Hilfe, die Du suchst!

    Grüße an alle Zend Framework Entwickler. Das Team vom Zend Framework Forum!

    Drupal Agentur

Zend_Search_Lucene: Umlaute bei Suche nicht erkannt

mahok

New member
Hi,

ich habe irgendwo ein Kodierungsproblem (vermutlich bei der Suche auf dem Index), finde es aber nicht. Es gibt zwar schon ähnliche Threads, aber keiner hat mich auf die richtige Fährte gebracht...

Mein Index wird ebenfalls mit Zend_Search_Lucene erstellt. Dabei verwende ich den Common_TextNum_CaseInsensitive-Analyzer. PHPs default_charset ist auf iso-8859-1 gesetzt, selbiges wird auch als Argument an Zend_Search_Lucene_Document::addField() übergeben.

Es kommt zwar vereinzelt eine NOTICE von iconv, von wegen "Detected an illegal character", aber eine Überprüfung mit luke zeigt, dass Umlaute korrekt erkannt wurden.

Meine Anwendung, die auf dem Index sucht, verwendet UTF8-Kodierung. In meiner Bootstrap.php habe ich eine Methode _initLucene(), in der Zend_Search_Lucene_Search_QueryParser::setDefaultEncoding('utf-8'); gesetzt wird. Die Suche selbst parst einen eingegeben String mit Zend_Search_Lucene_Search_QueryParser:: parse() und gibt das Ergebnis an Lucene's find()-Methode weiter.

Soweit scheint das auch zu funktionieren, außer bei Umlauten. Ich kann z.B. nach me?er suchen und finde Ergebnisse mit meyer und meier. Ich kann Boolesche Suche machen, kann auf bestimmten Feldern suchen und auch nach Ziffern, aber sobald ich Umlaute verwende tauchen merkwürdige Ergebnisse auf. Es scheint jeweils nur der Teil vor dem Umlaut betrachtet zu werden und der Rest dahinter völlig ignoriert zu werden. Wenn ich das Query-Objekt auf String caste und ausgebe, werden die Umlaute aber korrekt angezeigt.

Folgendes habe ich bereits erfolglos probiert:
  • QueryParser auf iso-8859-1 einstellen und dann bei parse utf8_decode() bzw. Kodierung als Argument übergeben
  • Index mit UTF-8 erzeugen (Common_Utf8_CaseInsensitive)
Weiß jemand wo das Problem liegen könnte und/oder hat einen brauchbaren Workaround?

edit: Bei Umlauten wird sowohl der Teil vor, als auch nach dem Umlaut gefunden. Eine Suche nach enthält lieferte z.B. Ergebnisse wie: lt., enth., aber auch Enthüllung. Eine Phrasensuche nach "enthält" bringt jedoch keine Ergebnisse.

2. edit: Beim Erzeugen des Index mit UTF-8-Kodierung werden keine iconv-Notices ausgegeben, aber ansonsten ist das Ergebnis dasselbe.
 
Zuletzt bearbeitet:
Oben