Jeg har nå lastet ned og sikret samtlige VGD-tråder som er lenket til i denne tråden. Unntaket er de mange trådene til
mancitypower, siden det var uklart for meg hvilke av disse som egentlig var verneverdige og ikke. Si gjerne fra hvis jeg skal ta vare på noen av dem også. Formodentlig fikser Arkivverket backup av hele VGD, men just in case, så har jeg i alle fall tatt vare på alle som er nevnt her i tråden.
Det betyr at følgende tråder i alle fall er sikret for ettertiden:
Kode: Velg alt
ABB_som_FrPuer_på_VGD_i_2002.json
And_the_winner_is.....json
Baneheia-dømt_ikke_skyldig_likevel.json
Bismillah_-_Queens_konsertanmeldelse.json
Bjørndalen_på_toppen.json
Det_lønner_seg_ikke_å_spille_hardt_på_roulette.json
Dårlig_nivå_her_nå.json
Endre_Olav_Osnes_-_Gullkorntråd.json
Fakta_fra_verden.json
Florø_Klubbtråd.json
Fredrik_Fasting_Torgersen_er_død.json
Fri_energi_-_Nå_ute_på_markedet.json
Generell_diskusjon_rundt_coronaviruset.json
Gjerdalen_og_Johnsrud_Sundby.json
Ikke_barber_rumpene_deres.json
Imies³ów_przymiotnikowy_przesz³y_niedokonany.json
Modern_Talking.json
Orderudsaken.no.json
Passer_virkelig_Berbatov_inn.json
Pinnekjøtt.json
Puma.json
Sporting_-_Arsenal.json
Stort_smell_i_Oslo.json
Til_alle_dere_som_tvilte.json
Trump-administrasjonen.json
Tråden_om_bakmålsord.json
Tv2_skylder_med_1500_krone.json
Vademecum_i_nesen.json
VGD_-_AWARDS_RESULTATER_2010.json
Vi_følger_dramaet_i_Kongo.json
Vurderer_1_år_i_skogen_alene.json
Værste_one_night_stand_opplevelse.json
Wesley_Brown.json
Årsrapport_VGD_2020.json
Disclaimer:
1. Jeg har ikke hentet ned bilder (avatarer, m.m.)
2. Nye VGDs funksjon med svar på innlegg har jeg ikke tatt høyde for, så slike svar er ikke kommet med. Men vi er vel alle enige om at innlegg etter juli 2021 ikke teller uansett? Det er uansett snakk om et mikroskopisk mindretall:
Coronatråden har fått med 133 644 av 133 647 innlegg (mangler altså
tre moderne svar), og Baneheia-tråden har 11 997 av 11 999 (mangle altså bare
to svar). For kompletthets skyld, her er de hhv. tre og to svarene som ikke kom med i oppsamlingen:
Ut over dette har samtlige innlegg fra samtlige tråder over kommet med.
For spesielt interesserte, så ser dere at trådene er lagret i JSON-format. Dette er et hendig dataformat som gjør det lett å konvertere til forskjellige formater på et senere tidspunkt. Slik ser det ut (tilfeldig eksempel fra Kongo-tråden):
Kode: Velg alt
{
"thread_id": "1506779",
"url": "https://vgd.no/t/Backstage/1506779-vi-foelger-dramaet-i-kongo",
"forum": "Backstage",
"title": "Vi følger dramaet i Kongo",
"author": "vidar",
"timestamp": "2009-09-08T09:11:46.000000Z",
"post": "<p><strong>Kl. 11:01</strong> De spiller Celine Dion i rettssalen mens vi venter.</p>",
"karma": "3",
"number_of_replies": 778,
"number_of_pages": 30,
"replies": [
{
"post_id": "25320075",
"author": "vidar",
"timestamp": "2009-09-08T09:39:03.000000Z",
"reply_to": null,
"quote": null,
"post": "<p><strong>Kl. 11:33</strong> Dommeren starter med å lese de tiltaltes personalia, og ber om å ikke
bli avbryt av andre. Begge presenteres som militære.</p>",
"karma": "1"
},
{
"post_id": "25320416",
"author": "Andropov",
"timestamp": "2009-09-08T10:30:13.000000Z",
"reply_to": "25320075",
"quote": null,
"post": "<p><strong>Kl. 12.29</strong> Dommeren snakker om gårsdagens rekemåltid. \"Ja, jeg var for sen i mor
ges, men det skyldes rekene,\" hevder han.</p>",
"karma": "1"
},
{
"post_id": "25320423",
"author": "Andropov",
"timestamp": "2009-09-08T10:31:26.000000Z",
"reply_to": "25320075",
"quote": null,
"post": "<p><strong>Kl. 12.30</strong> En mann i salen reiser seg og spør dommeren om han spiser dårlige reker hver kveld. Mannen dømmes til døden.</p>",
"karma": "8"
},
...
...
{
"post_id": "40584948",
"author": "Nr-11",
"timestamp": "2014-01-08T11:46:25.000000Z",
"reply_to": "40584910",
"quote": "<p>Du skriver jo 19. november 2011 at \"har eid en RS4 for noen år siden, for en bil\"</p>",
"post": "<p>Ja, jeg skulle brukt ordet lånte som var det korrekte. Jeg smurte litt på der, det er helt sant.</p>",
"karma": "1"
},
{
"post_id": "40584963",
"author": "Andropov",
"timestamp": "2014-01-08T11:48:32.000000Z",
"reply_to": "40584948",
"quote": null,
"post": "<p>Anyway: Det er denne bilen du har brukt når du har kjørt runder på Nürburgring?</p>",
"karma": "1"
},
{
"post_id": "40584969",
"author": "Nr-11",
"timestamp": "2014-01-08T11:49:46.000000Z",
"reply_to": "40584963",
"quote": "<p>Det er denne bilen du har brukt når du har kjørt runder på Nürburgring?</p>",
"post": "<p>Jeg har kjørt flere biler på Nurburgring.</p>",
"karma": "1",
...
...
{
"post_id": "50362867",
"author": "Nødutgang",
"timestamp": "2021-04-25T15:16:47.000000Z",
"reply_to": null,
"quote": null,
"post": "<p>Ifølge fakenews.com er Kongo oppløst. Nå heter det Hyylistan.</p>",
"karma": "1"
},
{
"post_id": "50365431",
"author": "Justice 96",
"timestamp": "2021-04-26T19:24:22.000000Z",
"reply_to": null,
"quote": null,
"post": "<p>Det tror jeg ikke paa.</p>",
"karma": "1"
}
]
}
Mer info for nerder:
Startet først veldig skånsomt, med å hente én og én side i sakte tempo (2 sekunders forsinkelse mellom hver side), og siden jeg aldri støtte på noe problemer, og større tråder ville tatt en evighet å hente, så dristet jeg meg etterhvert til å skru på alle turboene. Koronatråden på over 5000 sider gikk plutselig på et minutt eller to, men det var selvfølgelig for godt til å være sant. Omtrent 90% av tråden hadde VG sperret pga for mange forespørsler på for kort tid. Heldigvis var ikke VG langsur, og jeg fikk ganske snart lov til å fortsette å eksperimentere igjen, og landet på et sweetspot som var sånn omtrentlig 2 sider per sekund, for å ikke bli sperret ute igjen. Det betyr at Kongo-tråden (30 sider) kom ned på ca 15-20 sek, og Koronatråden (den største, over 5000 sider) tok omtrent 40 minutter å laste ned.
Hvis jeg skal lagre noe mer, så trenger jeg flere tips!
Nå har jeg som sagt allerede prosessert alle lenkene som var her i tråden.
Husk at VGD er meldt å bli tatt helt av nett
i morgen(!).