|
Parseur HTML |
htmllib.py:
module de la bibliothèque standard pour parser du HTML (parseur événementiel).
import sys, htmllib, formatter
class MyParser(htmllib.HTMLParser):
def __init__(self):
f = formatter.NullFormatter()
htmllib.HTMLParser.__init__(self, f)
self.h1 = ''
self.headings = []
def start_h1(self, attrs):
self.save_bgn()
def end_h1(self):
self.headings.append(self.save_end())
p = MyParser()
p.feed(open(sys.argv[1]).read())
print p.headings
![]() |
Transparent n. 16 |

