Perl: Tipps und Tricks
Das Comprehensive Perl Archive Network
- Aktualisiert: Freitag, 25. März 2022 10:07
- Geschrieben von Mazin Shanyoor
CPAN (engl. Comprehensive Perl Archive Network) ist ein weltweit gespiegeltes Online-Repository für Perl-Module, -Anwendungen und Dokumentationen, das am 25. Oktober 1995 in Anlehnung an die TeX-Library CTAN ins Leben gerufen wurde und sich schnell zum Perl-de-facto-Standard entwickelt hat. Es bietet die Möglichkeit einer komfortablen Installation und Verwaltung von Perl-Modulen. Heute umfasst das CPAN circa 230 Server auf fünf Kontinenten und enthält über 17.000 Distributionen von über 7.200 Autoren, was einem Volumen von annähernd 4,9 GB entspricht.
Libraries for WWW Access in Perl (LWP)
- Aktualisiert: Freitag, 25. März 2022 10:11
- Geschrieben von Mazin Shanyoor
Unter dem Synonym LWP (Libraries for WWW Access in Perl, libwww-perl) versteckt sich eine mächtige Bibliothek von Perl-Modulen, die verschiedene Schnittstellen, Funktionen und Objekte zum Ansprechen von Web-Diensten und Internet-Protokollen zur Verfügung stellt. LWP besitzt insgesamt acht separate Modulgruppen: File, Font, HTML, HTTP, LWP, MIME, URI und WWW.
Die Stärke der LWP-Bibliothek liegt dabei in der Request-/ Response-Interaktion zwischen Client und Server. Typischerweise wird LWP bei der Programmierung von Web-Bots, Crawlern, Spidern, Browsern, oder allgemeiner ausgedrückt beim automatisierten Webseitenaufruf eingesetzt.
HTML::TreeBuilder
- Aktualisiert: Freitag, 25. März 2022 10:12
- Geschrieben von Mazin Shanyoor
HTML::TreeBuilder ist eine Sub-Klasse zu HTML::Parser (und HTML::Element), die es ermöglicht, ein HTML-Dokument in eine aus HTML::Element-Objekten und Strings bestehende Baum-Struktur zu zerlegen, die sodann mit verschiedensten Methoden bequem durchsucht, ggf. verändert und z.B. wieder als HTML-Dokument ausgegeben werden kann.
Das Perl-Modul HTML::TreeBuilder erzeugt aus einem Webdokument einen Baum von HTML-Elementen.
HTML::Parser
- Aktualisiert: Freitag, 25. März 2022 10:08
- Geschrieben von Mazin Shanyoor
Das Parsen von HTML-Seiten mit Regulären Ausdrücken besitzt seine Tücken und ist für Programme mit einem generischen, umfassenden Ansatz nicht zu empfehlen. Das Hauptproblem bei den Regulären Ausdrücken ist, dass sich komplexe Strukturen nur sehr schwer und umständlich abbilden lassen. Diese Ausdrücke sind zudem nicht sehr robust gegenüber kleinsten Veränderungen in der Zieldatei. Auf den Punkt gebracht kann man sagen, dass HTML-Code in Webseiten nicht regulär genug ist, um mit Regulären Ausdrücken flexible und effektive Perl-Scripte zu entwicklen.
Ein wesentlich eleganterer und deutlich robusterer Ansatz zum parsen von HTML-Seiten lässt sich mit dem CPAN-Modul HTML::Parser realisieren.