Thema:
Re:Fragen an die Entwickler ... flat
Autor: johnjohnson
Datum:15.05.11 10:19
Antwort auf:Re:Fragen an die Entwickler ... von K!M

>>>Immerhin ist das Auslesen dank jsdom und jquery einfacher als gedacht.
>>
>>Ja, aber vertraue nicht 100%ig auf den Client. Ganz ohne serverseitigem  Scripting wird's wohl nicht ausgehen.
>
>Tatsächlcih läuft das Screen Scraping komplett serverseitig mit jsdom und jquery ;-)


Achso, du bastelst dir einen kleinen node.js crawler, der dir Stats baut. Sehr interessantes Projekt! Ich frage mich nur, was für einen Nutzen das für dich/andere bringt.

Mal abgesehen von der Tatsache, dass node.js sehr interessant ist. Habe mir kürzlich mal ein paar Gedanken darüber gemacht, was ich sinnvoll damit anstellen könnte. Bis jetzt bin ich aber noch nicht schlüssig geworden. Vor allem deshalb, weil die Serveranforderungen doch ziemlich groß sind. Nicht unbedingt, was die Hardware angeht, aber es bedarf dann schon ziemlich tiefen Eingriff ins System. Das non-blocking Konzept dahinter ist aber sehr faszinierend und 100 concurrent requests ohne spürbare Verzögerung und ohne nennenswerte CPU Spitzen ist schon sehr beeindruckend.

Zu jsdom hätte ich da noch eine Frage: hat das keine Probleme mit dem ziemlich unsauberen Code, den das Forum ausliefert? Ursprünglich wollte ich nämlich mit SimpeXML das HTML der Seite parsen. Das war leider nicht möglich, da das Theme schon seine Ecken und Katen hat. Somit war ich schlussendlich gezwungen mit Regulären Ausdrücken rum zu wursteln. Das ist freilich ein ziemlich wackeliges Konstrukt.

>
>>Aber ganz was anderes: wieso wählst du einen Ansatz, den schon andere vor dir versucht haben und bei dem immer an den selben Grenzen angeeckt wird. Bau doch ein Theme für das PXMboard. Dann löst du mit einem Schlag alle Probleme auf dieser Welt und bist der Hero von hier bis Texas!
>
>Ich will ja gar keine alternative Ansicht zum Ansehen und Posten hier im Forum bauen, ich will nur Forumsdaten.


Was hast du damit vor? Willst du dann die User erpressen? ;-)

>
>>Obendrein hast du dann tatsächlich Zugriff auf alle erdenklichen Daten und musst nicht den mühevollen Weg des Parsens gehen.
>
>Nee, die Daten habe ich eben nicht. Es gibt z.B. nämlich keine Erkennung ob ein Post eine Thread-Wurzel ist.


Über den Ich-mache-einen-HTTP-Request-und-Parse-mir-die-Daten-Raus Weg geht das nicht, wärst du allerdings ein Theme, dann hättest du Zugriff auf die DB und da drinnen sollte das schon rausfindbar sein. Nur glaube ich nicht, dass ein reines Datensammel-Theme einen Sinn hätte und von irgendeinem Admin aktiviert werden würde.

Womit wir wieder bei der Response Parserei wären.


< antworten >