Selv har jeg i flere år brukt HTTrack til å lagre hele nettsider og aldri hatt problemer med dette så lenge lagringen utføres i moderat hastighet, men én ting er å lagre en mindre webside eller en blogg, og noe helt annet å lagre en enorm debattside som VGD - med HTTrack ville dette ta en evighet.tomi skrev: ↑tir nov 29, 2022 11:57 pm Hele nettsiden på så kort tid er nok litt i meste laget. Slike "dumme" rippere er også ofte så brutale i sin fremgangsmåte at de fort blir blokkert, eller gjør at sikringstiltak kommer på plass, og det vil også ødelegge for langt mer skånsomme måter å scrape innhold på.
Men nettopp derfor lagde jeg denne tråden. Som sagt, jeg kan ikke lagre hele VGD (på så kort tid), men jeg kan ta vare på det viktigste og morsomste! Så fyll på med forslag her! Kanskje flere enn meg kan lagre også!
Lurer også på om @6347 kanskje har en backup av innlegg? Litt usikker på om han bare hentet ned statistikk, eller om han har speilet alle innlegg på hele forumet. Hadde vært veldig interessant å få innsikt i datagrunnlaget han har.
Så skulle man ta en kopi av hele nettstedet for bevaring, ville den mest fornuftige og raskeste måten antagelig være å lagre den komplette databasen i råformat og bearbeide materialet senere, men den direkte tilgangen til databasen er det bare de som styrer forumet som har. En annen løsning - som jeg selv har valgt på hjemmesiden min med et lite forum som ikke lenger kan brukes som følge av utdatert programvare - kunne være å lagre alt med HTTrack, for å så legge dette ut på nett; da blir forumet et eksakt speilbilde av den opprinnelige websiden, samtidig som man ikke lenger kan skrive der.
Men hva VGD angår, er dette noe som som sagt ville ta svært mye tid, og er derfor noe man burde ha begynt med for lenge siden.
På den annen side tror jeg ikke det ville være problemer å lagre enkelte innlegg med denne metoden, men for det første ville også dette ta sin tid, og for det andre ville det ha vært en fordel å bruke det langt mer brukervennlige utseendet VGD hadde frem til ifjor sommer.
Ser man på lagringsprosedyrene hos VG-ledelsen, som da man slettet alle innlegg på VGD på bakgrunn av visse ord og historien med Nettby, burde det være all grunn til å være skeptisk; i tillegg til archive.org, har jeg lest at også Nasjonalbiblioteket arkiverer deler av websider, så det er håp om at de har tatt vare på noe, men hvis ikke VG aktivt går inn for bevaring, er jeg redd mye kan gå tapt - mens utgivere av bøker er forpliktet til å avlevere dette til Nasjonalbiblioteket for bevaring, er det synd at man ikke har det samme forholdet til ting på nett, der private aktører etter eget ønske sletter innhold i hytt og pine, uten å være forpliktet til noe som helst med tanke på langsiktig arkivering.
Samme problem har man forresten i forhold til gamle radioopptak; NRK slettet uerstattelig materiale fra radio i 1960-årene ved å spille over båndene og eksempelvis har opptaket av månelandingen gått tapt, og bevaring av norsk nærradiohistorie er en tragedie - det finnes så vidt jeg vet intet offentlig arkiv som har tatt vare på sendinger fra de mindre radiostasjonene, i motsetning til utstrakt arkivering av bøker, aviser og TV.