HTML::Parser
- Aktualisiert: Freitag, 25. März 2022 10:08
- Geschrieben von Mazin Shanyoor
Das Parsen von HTML-Seiten mit Regulären Ausdrücken besitzt seine Tücken und ist für Programme mit einem generischen, umfassenden Ansatz nicht zu empfehlen. Das Hauptproblem bei den Regulären Ausdrücken ist, dass sich komplexe Strukturen nur sehr schwer und umständlich abbilden lassen. Diese Ausdrücke sind zudem nicht sehr robust gegenüber kleinsten Veränderungen in der Zieldatei. Auf den Punkt gebracht kann man sagen, dass HTML-Code in Webseiten nicht regulär genug ist, um mit Regulären Ausdrücken flexible und effektive Perl-Scripte zu entwicklen.
Ein wesentlich eleganterer und deutlich robusterer Ansatz zum parsen von HTML-Seiten lässt sich mit dem CPAN-Modul HTML::Parser realisieren.
In der Praxis stellt sich sehr häufig das Problem, dass man gezielt auf einzelne Bereiche einer HTML-Seite (z.B. News) zugreifen muss.