Detektivarbejde på internettet

Over 100 danske værker er blevet brugt til at træne, eller udvikle, kunstig intelligens. Det er ulovligt og en krænkelse af ophavsrettighederne, og det var foreningen RettighedsAlliancen, der opsporede datasættet og fik det taget ned. Den vigtigste lære af sagen er, at techvirksomheder pålægges at oplyse, hvor de får data fra, siger Maria Fredenslund, alliancens direktør.

Af Lene Møller Jørgensen

I sommer stod det klart, at flere danske oversættere og forfatteres værker er blevet brugt til at udvikle – eller træne – kunstig intelligens. Det er en krænkelse af deres ophavsrettigheder, og brug af kreativt indhold som bøger, musik, billeder og film til at udvikle og finpudse AI-tjenester vækker opsigt og bekymring hos rettighedshavere verden over. I USA har en gruppe forfattere lagt sag an mod OpenAI og Meta, der står bag Facebook og Instagram, for at bruge deres bøger.

For danske forfattere, og rettighedshavere generelt, var det en god, men også ubehagelig, nyhed, da organisationen RettighedsAlliancen fik opsporet og identificeret et kæmpe datasæt på ca. 200.000 e-bøger, kaldet Books3, på en tysk fildelingsside. Alliancen dokumenterede, at Books3-datasættet indeholdt lidt over 100 danske værker, og fik efterfølgende datasættet fjernet fra forskellige kilder. Den gode nyhed var, at udnyttelsen blev stoppet og Books3 taget ned – den ubehagelige, at der blandt Books3’s enorme mængde e-bøger bl.a. lå adskillige danske bøger skrevet eller oversat af danske forfattere og oversættere.

En sejr

Det seneste år har RettighedsAlliancen holdt sig opdaterede på krydsfeltet mellem ophavsret og træningen af kunstig intelligens. Efter sagen med Books3-datasættet blev det klart, at e-bøger hentet fra ulovlige fildelingstjenester var kommet i høj kurs blandt udviklerne af AI-træningsdata, fortæller Maria Fredenslund, der er advokat med speciale i ophavsret og alliancens direktør og grundlægger.

”Fundet af Books3 gav os anledning til at kikke nærmere på det enorme datasæt. For at kunne søge ned i det måtte vi dog først udvikle nyt software, og da det lykkedes, fandt vi hele e-bøger af danske forfattere og oversættere.. Det drejede sig om ret mange, 25 til 30 danske forfattere og oversættere, som havde bøger liggende der.”

En af forfatterne var Elsebeth Egholm, og hun, de øvrige forfattere og oversættere samt deres forlag har fået besked.

Det er noget af en sejr for RettighedsAlliancen – og for danske forfattere og oversættere – at finde frem til nogle af de kilder, der bliver brugt til at træne techgiganternes kunstige intelligensmaskiner. Det er første gang, at rettighedshavere har fået fjernet et datasæt, der bruges til at træne kunstig intelligens, da det er et område præget af uigennemsigtighed, hemmelighedskræmmeri og konkurrence. Og ulovlighed. Der er enorme indtjeningsmuligheder på spil.

Techgiganterne kæmper om pengene og indflydelsen, men det er tilsyneladende ikke dét, der har drevet personen bag Books3. Det er den amerikanske aktivist, Shawn Presser, der har indsamlet data og gjort dem tilgængelige – han er klar over, at hans høst er ulovlig, men siger selv, at han gør det af ideologiske grunde.

”Han er tilsyneladende af den overbevisning, at techvirksomheder ikke skal være alene om muligheden for at udvikle og bruge kunstig intelligens. Han ønsker, at alle skal have samme mulighed, og vil derfor gøre data tilgængelige for alle. Det klinger hult, mener jeg, både fordi det jo er andres ophavsret, der bliver krænket, ved at han samler og konverterer e-bøger fra en fildelingstjeneste til datasæt, og fordi datasættet netop bruges af selvsamme ressourcestærke techvirksomheder til at udvikle deres AI-modeller,” siger Maria Fredenslund.

Books3 er i dag taget ned, og efterfølgende rakte RettighedsAlliancen ud til de store techvirksomheder såsom Meta, Facebook og Bloomberg.

”Det, vi gerne ville, var at dæmme op for distribution af data, så de ikke bruges til træning, men den eneste virksomhed, vi hørte tilbage fra, var Bloomberg. De oplyste, at de fremover ikke ville bruge Books3-datasættet til at træne nye versioner af deres GPT. De øvrige virksomheder svarede indirekte – de fjernede nemlig alle oplysninger om, hvilke kilder de bruger.”

Og dermed er det ikke muligt at spore, hvilke data de bruger. Den helt store læring af historien om Books3 er, hvor vigtigt transparens er, hvor vigtigt det er, at techvirksomheder pålægges at oplyse, hvor de får data fra, understreger RettighedsAlliancens direktør.

Det gælder viden om, hvilket indhold der er er brugt til at udvikle og træne kunstig intelligens, men det gælder også indsigt i, hvor på internettet data er høstet.

”I EU-regi er der et lovgivningsarbejde i gang på området. Der er et behov for at slå fast, at der er ophavsrettigheder på værker, og at det er ulovligt og uordentligt at bruge dem som træning i AI,” siger Maria Fredenslund. ※

Læs også Morten Visbys leder om AI og Det kolossale danske korpus.

RettighedsAlliancen arbejder med ophavsret på internettet og blev grundlagt i 2014. RettighedsAlliancen er en forening, der består af store og små virksomheder, producenter, foreninger og organisationer inden for de kreative brancher. Dansk Forfatterforening, Danske Forlag, Danske Dramatikere og Dansk Journalistforbund er blandt medlemmerne.

Lene Møller Jørgensen

En sejr

Del på:

Relaterede indlæg

En tekst til NATO

Internationale samtaler

AI: Det bagageløse sprog findes ikke

Nye regler i ophavsretsloven har direkte betydning for dig