# Script hier import urllib import string from urllib import FancyURLopener class MyOpener(FancyURLopener): version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11' urlopen = MyOpener().open urlretrieve = MyOpener().retrieve # [ naam die je geeft - zo slaat hij zijn files op, url strip, unieke tekst in de regel om de stripregel te herkennen, wat staat voor het plaatje, wat na het plaatje (de extensie!) comics = ( ['dilbert','http://dilbert.com','src="http://dilbert.com/dyn/','src="','.gif'], ) writecomics = [] for i in comics: urlretrieve(i[1],i[0]+".html") indextext = file(i[0]+".html") for line in indextext: if i[2] in line: plaatje = line lpos = len(i[3]) startplaatje = string.find(plaatje,i[3])+ lpos rpos = len(i[4]) eindplaatje = string.find(plaatje,i[4])+rpos startcaption = string.find(plaatje,'alt="',startplaatje) if startcaption <> -1: startcaption = startcaption + 5 eindcaption = string.find(plaatje,'"',startcaption) else: startcaption = 1 eindcaption = 1 starttitle = string.find(plaatje,'title="',startplaatje) if starttitle <> -1: starttitle = starttitle + 7 eindtitle = string.find(plaatje,'"',starttitle) else: starttitle = 1 eindtitle = 1 urlplaatje=plaatje[startplaatje:eindplaatje] if urlplaatje[0] == "/": urlplaatje = i[1] + urlplaatje urlretrieve(urlplaatje,i[0]+"today"+i[4][0:4]) writecomics.append([i[0]+"today"+i[4][0:4],plaatje[startcaption:eindcaption],plaatje[starttitle:eindtitle],i[1]]) f = open('index.html','w') f.write('\n\n') for i in writecomics: f.write('

\n'+i[3]+'
\n'+i[1]+'
'+i[1]+'\n
\n'+i[2]+'
\n


\n') f.write('\n') f.close()