• Jeder User im Forum verpflichtet sich zur Akzeptanz und zur Einhaltung dieser Regeln:
    1. Umgangston
      Ein angemessener höflicher Umgangston, ohne Beleidigungen, Beschimpfungen und aggressive Postings ist für jedes Mitglied Pflicht.
    2. Beiträge
      Jedes Mitglied sollte sich bemühen nur sinnvolle Beiträge zum Thema zu posten. Dabei ist unbedingt vorher zu prüfen, ob das Thema vorher schon einmal diskutiert wurde und daher fortgesetzt werden kann
      • Suchfunktion benutzen!
      • offizielle Doku lesen!
    3. Haftung
      Jeder Beitragsersteller übernimmt die alleinige Verantwortung seiner Inhalte.
    4. Werbung
      Wir erlauben keine Beiträge, Signaturen, Private Nachrichten oder eMails an Benutzer, die Werbung enthalten. Ausgenommen
      sind Stellengesuche /-angebote, welche ausschließlich im Forum "Stellengesuche" veröffentlicht werden dürfen.
    5. Verstöße
      Regelwidrige Beiträge sollten dem Team gemeldet werden. Nach deren Überprüfung werden wir schnellstmöglich
      entsprechend handeln.
    6. Authorität
      Den Anweisungen der Team-Mitglieder (Administratoren und Moderatoren) sind in diesem Forum Folge zu leisten.
      Bei Fragen oder Beschwerden bitte an diese wenden.
    Wir möchten Euch darauf aufmerksam machen, dass es bei Verstößen gegen einen oder mehreren der oben genannten
    Punkte dem Team frei steht entsprechend zu handeln. Dies kann z.B. das Löschen eines Beitrags, das Ausschliessen bzw.
    Sperren von Mitgliedern oder aber lediglich eine Verwarnung sein.

    In diesem Zusammenhang sollte erwähnt werden, dass das Forum automatisch die IP-Adresse jedes Beitrag-Erstellers
    speichert. Bei schweren Vergehen, behalten wir es uns vor, die IP-Adresse zur Strafverfolgung weiterzugeben.
  • Willkommen im Zend Framework Forum

    ZF1 Zend Framework 1 + ZF2 Zend Framework 2

    Das Zend Framework Forum ist seit 2006 die erste Anlaufstelle für Zend Framework Entwickler in Deutschland. Mit über 70.000 Beiträgen und einer steigenden Nutzerzahl bietet das Forum hilfreiche Themen und ZF-Tutorials für professionelle Entwickler, fortgeschrittene Programmierer sowie Zend Framework Einsteiger.
    Wenn dies Dein erster Besuch in der Zend Framework Community ist, lies bitte zuerst die Hilfe - FAQ durch. Du musst Dich registrieren, bevor Du Beiträge verfassen kannst. Klicke oben auf 'Registrieren', um die Registrierung zu starten. Du kannst auch jetzt schon Beiträge lesen. Hier im Forum findest Du die Zend Framework Hilfe, die Du suchst!

    Grüße an alle Zend Framework Entwickler. Das Team vom Zend Framework Forum!

    Drupal Agentur

Zend_Search_Lucene - http:// wird als index erkannt

ethan_hunt

New member
Hallo,

ich habe einen Crawler nach diesem Schema gebaut: http://files.zend.com/webinar/zflucene/Webinar-zflucene-20071107.html


Er funktioniert ganz gut bis auf eine Sache, er findet die internen URLs nicht, die mit http:// anfangen.


PHP:
// see, if doc exists and needs re-indexing
$logger->info('Search in index: url:' . $targets[$i]));
$hits = $index->find('url:' . $targets[$i]);
$matched = false;

speichern tue ich die URL wie gehabt (das funktioniert auch)

PHP:
// create zsl doc
$doc = Zend_Search_Lucene_Document_Html::loadHTML($body);
$doc->addField(Zend_Search_Lucene_Field::unIndexed('url', $targets[$i])); // hier immer http:// dran
$doc->addField(Zend_Search_Lucene_Field::unIndexed('md5', $body_checksum));


nun ersetzt die find() Methode url: mit http:// und findet kein Ergebnis.


Ich wäre danke für einen kleinen Denkanstoss!
 
Zuletzt bearbeitet:

KingCrunch

New member
Woher kommt überhaupt $targets? :confused: Und du bist dir auch wirklich sicher, dass dort das Schema nicht schon mit drin steht?
 
Zuletzt bearbeitet:

itsame69

New member
Das wird jetzt hier das Problem nicht lösen, aber nachdem hier in letzter Zeit einige Fragen zum Thema Lucene aufgetaucht sind: ich arbeite im Moment an einem Projekt welches u.a. exzessiv auf Frei-Text-Suche aufbaut. Dementsprechend habe ich mir zuerst unterschiedlichste Verfahren (Suche in der DB - hier PostgreSQL, Lucene, Sphinx, ...) angesehen.

Prinzipiell kann ich nur jedem SphinxSearch ans Herz legen. Pfeilschnell (siehe z.B. http://www.mysqlperformanceblog.com/files/presentations/EuroOSCON2006-High-Performance-FullText-Search.pdf) und sehr einfach einsetzbar.

lg
Christian
 

ethan_hunt

New member
Kompletter Crawler

@KingCrunch

hier mal der komplette Crawler (hatte ich NICHT gepostet, weil es in dem Link ersichtlich ist)

PHP:
$targets
wird automatisch gefüllt anhand der Links auf der Seite.

PHP:
<?php
/**
 * Created by JetBrains PhpStorm.
 * User: chuenniger
 * Date: 03.01.11
 * Time: 22:39
 * To change this template use File | Settings | File Templates.
 */
// some constants
define('ROOT_PATH', realpath(dirname(dirname(__FILE__))));
define('APPLICATION_PATH', ROOT_PATH . DIRECTORY_SEPARATOR . 'application');
define('START_URI', 'http://ttc.myserver');
define('MATCH_URI', 'http://ttc.myserver');

// Ensure library/ is on include_path
set_include_path(get_include_path() . PATH_SEPARATOR . realpath(APPLICATION_PATH . '/../library'));

// requires
require_once 'Zend/Search/Lucene.php';
require_once 'Zend/Http/Client.php';
require_once 'Zend/Log.php';
require_once 'Zend/Log/Writer/Stream.php';


// logger
$logger = new Zend_Log();
$writer = new Zend_Log_Writer_Stream('php://output');
$logger->addWriter($writer);

$logger->info('Crawler initializing ...');


// set up HTTP Client
$client = new Zend_Http_Client();
$client->setConfig(
    array(
        'timeout' => 30
    )
);


$indexPath = APPLICATION_PATH
        . DIRECTORY_SEPARATOR . 'data'
        . DIRECTORY_SEPARATOR . 'cache'
        . DIRECTORY_SEPARATOR . 'index';

/**
 * @var Zend_Search_Lucene_Interface
 */
$index = null;


Zend_Search_Lucene_Search_QueryParser::setDefaultEncoding('utf-8');

try {
    $index = Zend_Search_Lucene::open($indexPath);
    $logger->info('Open existing index in ' . $indexPath);
} catch (Zend_Search_Lucene_Exception $e) {
    try {
        $index = Zend_Search_Lucene::create($indexPath);
        $logger->info('Created new index in ' . $indexPath);
    } catch (Zend_Search_Lucene_Exception $e2) {
        $logger->error('Failed opening or creating index in ' . $indexPath);
        $logger->error($e2->getMessage());
        exit(1);
    }
}

// scan site
$targets = array(START_URI);

for ($i = 0; $i < count($targets); $i++) {

    $client->setUri($targets[$i]);
    $response = $client->request();

    if ($response->isSuccessful()) {
        $body = $response->getBody();
        $body_checksum = md5($body);
        $logger->info('Fetched ' . strlen($body) . ' bytes from ' . $targets[$i]);

        // see, if doc exists and needs re-indexing
        $term  = new Zend_Search_Lucene_Index_Term($targets[$i], 'url');
        $query = new Zend_Search_Lucene_Search_Query_Term($term);

        
        $logger->info('Search in index: ' . $query->__toString());
        $hits  = $index->find($query);
        $matched = false;

        $logger->info('Found ' . count($hits) . ' hits');

        foreach ($hits as $hit) {
            if ($hit->md5 == $body_checksum) {
                if ($matched == true) {
                    $index->delete($hit->id);
                }
                $matched = true;
            } else {
                $logger->info($targets[$i] . ' is out of date and needs re-indexing');
                $index->delete($hit);
            }
        }

        // skip 
        if ($matched) {
            $logger->info($targets[$i] . ' is up to date, skipping!');
            continue;
        }

        // create zsl doc
        $doc = Zend_Search_Lucene_Document_Html::loadHTML($body);
        $doc->addField(Zend_Search_Lucene_Field::unIndexed('url', $targets[$i]));
        $doc->addField(Zend_Search_Lucene_Field::unIndexed('md5', $body_checksum));

        // index
        $index->addDocument($doc);
        $logger->info('Indexed ' . $targets[$i]);

        // fetch new links
        $links = $doc->getLinks();

        foreach ($links as $link) {

            if (strpos($link, '/') === 0) {
                $link = MATCH_URI . $link;
            }

            if (strpos($link, MATCH_URI) !== false
                    && !in_array($link, $targets)) {
                #$logger->info('Add Link ' . $link);
                $targets[] = $link;
            }
        }

    } else {
        $logger->warning('Requesting ' . $targets[$i] . ' returned HTTP ' . $response->getStatus());
    }
}

// 
$logger->info('Iterator over ' . count($targets) . ' documents (HTML)');
$logger->info('Optimizing index');
$index->optimize();

//
$logger->info('Done. Index now contains ' . $index->numDocs() . ' documents');
$logger->info('Crawling complete');
 
Zuletzt bearbeitet:
Oben