af Joachim Cohn Jacobsen, HTML.dk
Sidst opdateret 21. maj 2003
Dokumenter gemt som HTML i tekstbehandlingsprogrammer som f.eks. MS Word indeholder ofte en helt utrolig mængde overflødig kode. I denne artikel viser vi dig, hvordan du kan få renset grundigt ud i HTML-koden.
Programmer som f.eks. Microsoft Word giver dig mulighed for at gemme dit dokument som HTML, men problemet er ofte, at dit dokument kommer til at indeholde en masse overflødig kode.
Den overflødige kode kan dog nemt "barberes væk", så du kan få et rent HTML-dokument. Dit dokument skal jo helst oveholde W3C-standarderne ved at adskille struktur og layout ;-)
MS Words' evne til at gemme som HTML er til at tude over. Selvom vores testdokument til denne artikel ikke er layoutet, men blot har fået overskriftniveauer og punktlister, er resultatet forfærdeligt når det gemmes som HTML.
Start med at tage et kig på testdokumentet (27 KB, MS Word)
MS Word kan som nævnt gemme et dokument som HTML, og i de nyeste udgaver også som "filtreret HTML". Ingen af disse formater er dog helt renset for overflødig kode.
Prøv at gemme vores testdokument som HTML i MS Word, som vist på billedet.

Når du har gemt dokumentet som HTML, så prøv at åbne det i Notesblok, eller din foretrukne teksteditor.
Resultatet bliver ikke meget bedre, hvis du gemmer dokumentet som "filtreret HTML". Bemærk at dette kun er muligt i de nyeste versioner af MS Word.
Selvfølgelig kan det gøres bedre, ellers var denne artikel ikke skrevet ;-)
Der findes mange værktøjer på internettet, der kan hjælpe med at rense HTML-kode. Vi nøjes med at kigge på et enkelt, men ganske fortræffeligt værktøj. Web Page Purifier (DSWPP) fra Delorie Software
For at bruge DSWPP, skal dit dokument først gemmes som HTML i MS Word og derefter lægges på internettet. Hvis du er i tvivl om hvordan du lægger et dokument på internettet, kan du finde hjælp i HTML-tutorialens lektion 14.
Når dit dokument ligger på internettet, skal du gå ind på Web Page Purifier:

Følg disse tre trin:
Den opmærksomme læser undrer sig sikkert over, at vi i eksemplet vælger HTML 3.2. Det skyldes, at HTML 3.2 slet ikke kan genkende MS Words kodesnask, og derfor giver et renere resultat end hvis vi vælger HTML 4.0 Transitional.
Det resultat DSWPP spytter ud, har et reklamebanner placeret foroven. Det er nemt at slippe af med.
Vælg "Vis kilde" på det dokument DSWPP har genereret, og fjern alle koder ned til <html>-elementet.
Du har forhåbentlig fået en idé om hvordan du kan rense HTML-koden i et dokument ganske effektivt.
Robotter som DSWPP kan dog ikke løse alt. Testdokumentet er et mønstereksempel på, hvordan man skal lave et Word-dokument - uden layout før romanen er skrevet. Sådan er det ikke i den virkelige verden, og der vil derfor ofte være brug for en grundig bearbejdning af det resultat DSWPP leverer.
God fornøjelse :-)