Parseur HTML |
htmllib.py
:
module de la bibliothèque standard pour parser du HTML (parseur événementiel).
import sys, htmllib, formatter class MyParser(htmllib.HTMLParser): def __init__(self): f = formatter.NullFormatter() htmllib.HTMLParser.__init__(self, f) self.h1 = '' self.headings = [] def start_h1(self, attrs): self.save_bgn() def end_h1(self): self.headings.append(self.save_end()) p = MyParser() p.feed(open(sys.argv[1]).read()) print p.headings
Transparent n. 16 |