• Willkommen im Zend Framework Forum

    ZF1 Zend Framework 1 + ZF2 Zend Framework 2

    Das Zend Framework Forum ist seit 2006 die erste Anlaufstelle für Zend Framework Entwickler in Deutschland. Mit über 70.000 Beiträgen und einer steigenden Nutzerzahl bietet das Forum hilfreiche Themen und ZF-Tutorials für professionelle Entwickler, fortgeschrittene Programmierer sowie Zend Framework Einsteiger.
    Wenn dies Dein erster Besuch in der Zend Framework Community ist, lies bitte zuerst die Hilfe - FAQ durch. Du musst Dich registrieren, bevor Du Beiträge verfassen kannst. Klicke oben auf 'Registrieren', um die Registrierung zu starten. Du kannst auch jetzt schon Beiträge lesen. Hier im Forum findest Du die Zend Framework Hilfe, die Du suchst!

    Grüße an alle Zend Framework Entwickler. Das Team vom Zend Framework Forum!

    Drupal Agentur

[Zend Lucene] Indizierungs Reihenfolge

julianwa

New member
Moin Moin,

ich beschäftige mich jetzt schon ne Weile mit Zend Lucene und mir ist eins aufgefallen und würde gerne Wissen ob ich richtig liege und ob man das umgehen kann.

Werden die Dokumente( samt Document-ID ) neu sortiert mit einem index commit/optimize?

Mein Problem ist, dass ich die Reihenfolge in der ich die Dokumente indiziere auch beibehalten möchte. Denn beim späteren Suchen kann ich das Array, dass aus Matcheddocs() kommt einfach nach den IDs sortieren und erhalte so immer die Reihenfolge, in der ich auch indiziert habe.

Leider stimmt die Reihenfolge der IDs nicht.
Z.B. Müsste Dokument mit der ID 1 im Feld "date" das neuste Datum haben. Dem ist leider nicht so.

Gibt es einen weg auch nach commit/optimize die Reihenfolge beizubehalten?
 

SeKrebs

New member
Geh bei sowas nie davon aus, dass irgendetwas sortiert ist, ausser es steht explizit dabei, dass es sortiert ist und nach welchem Kriterium. Das gilt so ganz nebenbei auch für Datenbanken, auch wenn diese gemeinhein eine Ordnung beibehalten.

Leider stimmt die Reihenfolge der IDs nicht.
Z.B. Müsste Dokument mit der ID 1 im Feld "date" das neuste Datum haben. Dem ist leider nicht so.
Was meinst du mit "ID"? Lucene ändert von sich aus keine Felder, ergo bleibt das Datum auch immer gleich. Das würde anders herum bedeuten, dass das erste Dokument eben nicht mehr ID 1 ist, wenn es nicht das ist, was du erwartest.

Sortiert Lucene standardämssig nich eh nach Relevanz?
 

julianwa

New member
Bei der Indiezierung erhält jedes Dokument ja eine ID.(Wird von Lucene selbst vergeben). Da ich meinen Index via SQL-Abfrage( mit Orderby ) befülle, sollte das Dokument mit der ID 1, im Feld "date" auch das Datum enthalten, dass aus der Datenbank als erstes geliefert wird.

Und dem ist nicht so. Deswegen liegt es nahe dass Lucene die Dokumente intern neu anordnet nach einem commit/optimize.

Die Sortierung nach Relevanz macht Lucene das stimmt. Aber nur wenn man auch die Methode "find" nutzt. Da die Methode für mich nicht "optimal" ( zewcks Limits, etc ) ist, suche ich selber mit der methode matcheddocs(). Diese liefert ein Array mit den Dokumenten Ids in den Keys.
 

julianwa

New member
Bin mit meinem Latein am Ende.

Wenn ich den Index via for Schleife komplett durchlaufe. Ist nichts von meiner Reihenfolge zu sehn.

Wieso bleibt das erste Dokument dass ich im Index anlege nicht auch an erster Stelle im Index???
 

julianwa

New member
Ja man kann bei find auch sortieren.

Lucene sortiert dann mittels array_multisort und läd dabei jedes Dokument was zu performanceeinbußung führt.

Deswegen nutze ich nicht die find methode.

Naja die Sortierung ist ohne performanceeinbußung wohl nicht möglich. Werde entweder auf Solr umsatteln oder es so hinnehmen
 
Oben