Bron: Technological
Aspects of Generative AI in the Context of Copyright https://www.europarl.europa.eu/RegData/etudes/BRIE/2025/776529/IUST_BRI(2025)776529_EN.pdf#:~:text=This%20in-depth%20analysis%20explains%20the%20statistical%20nature%20of,functional%20dependencies%20with%20respect%20to%20the%20used%20data.
Inleiding tot het document
Dit document is een uitgebreide analyse die is
aangevraagd door de Commissie Juridische Zaken van het Europees Parlement. Het
doel is om de statistische aard van generatieve AI (GenAI) te
verduidelijken en te laten zien hoe het trainen met auteursrechtelijk
beschermde gegevens leidt tot voortdurende functionele afhankelijkheden van die
data. De studie benadrukt de uitdagingen op het gebied van attributie
(toeschrijving) en nieuwigheidsdetectie in deze complexe modellen en biedt technische
aanbevelingen voor traceerbaarheid en beoordeling van output.
V1: Wat is Generatieve AI (GenAI) en hoe werkt het technisch gezien?
- Fundamentele
verschuiving: GenAI-systemen vormen een fundamentele verschuiving
in de manier waarop digitale inhoud wordt geproduceerd. In tegenstelling
tot traditionele AI, die voorspellingen doet, zijn GenAI-modellen
ontworpen om mensachtige inhoud te genereren zoals tekst,
afbeeldingen en muziek.
- Statistische
benadering: GenAI opereert niet door middel van menselijk begrip, maar
door statistische benadering. Het leert regelmatigheden en
statistische patronen uit grote datasets. Het model codeert
hoogdimensionale relaties tussen voorbeelden, waardoor het die patronen
probabilistisch kan reproduceren of uitbreiden.
- De
'Hypersurface Metafoor': Technisch kan een GenAI-model worden
voorgesteld als een hoogdimensionaal 'oppervlak' of 'rubberen vel' (een
hypersurface).
- Tijdens
de training wordt dit oppervlak geleidelijk vervormd om de
datapunten in de dataset te benaderen, idealiter door er dichtbij of
zelfs precies doorheen te gaan. Deze vervorming stelt het model in staat
om te generaliseren buiten de trainingsdata.
- Het
oppervlak van de hypersurface wordt gevormd door de cumulatieve
statistische invloed van de trainingsdata. Elk datapunt oefent een
kleine, gelokaliseerde invloed uit die bijdraagt aan de algehele
geometrie van het oppervlak.
- Content
genereren: Wanneer GenAI inhoud genereert, 'samplet' (of kiest) het
een punt op dit oppervlak. De output kan dan volledig nieuw lijken of
juist niet te onderscheiden zijn van, of identiek zijn aan, de originele
trainingsdata. Elk gegenereerd punt is een gevolg van de cumulatieve
statistische invloed van de trainingsdata die het oppervlak hebben
gevormd.
V2: Wat zijn de belangrijkste auteursrechtelijke
uitdagingen die voortvloeien uit de werking van GenAI?
De functionele afhankelijkheid van GenAI-modellen van hun
trainingsdata creëert twee belangrijke auteursrechtelijke problemen:
- Attributie
(Toeschrijving):
- Het
probleem: Hoe kunnen we bepalen of een gegenereerde output
(gedeeltelijk of substantieel) is afgeleid van een of meer
trainingsvoorbeelden?. Huidige modellen hebben geen betrouwbaar
mechanisme om deze invloed te kwantificeren of te traceren.
- Dit
ondermijnt het vermogen van rechthebbenden om te bewijzen dat hun werk is
gebruikt, maakt het moeilijk om afgeleid gebruik vast te stellen, en
bemoeilijkt eerlijke vergoeding.
- Nieuwigheid
(Originaliteit):
- Het
probleem: Hoe beoordelen we of een output een echt nieuwe creatie is,
of dat het een resultaat is van "stochastische nabootsing"
(statistisch reproduceren van patronen met bijna woordelijke gelijkenis
onder het mom van nieuwigheid)?.
- Outputs
kunnen op het oppervlak verschillen, maar zijn statistisch
verstrengeld met de trainingsdata. De scheidslijn tussen een echt
nieuwe creatie en een statistisch gereproduceerd artefact is probabilistisch,
niet binair.
V3: Waarom is attributie zo moeilijk in GenAI-systemen?
De kernuitdaging ligt in een 'traceerbaarheidskloof':
een structurele ontkoppeling tussen trainingsinputs en gegenereerde outputs.
Dit heeft drie belangrijke technische oorzaken:
- Stochastische
trainingsregimes: Het leerproces is pad-afhankelijk en niet
gemakkelijk omkeerbaar, vanwege het willekeurig samplen van mini-batches
en het gebruik van stochastische gradiëntdaling.
- Parameterverstrengeling:
In grootschalige modellen zijn miljarden parameters gezamenlijk
geoptimaliseerd. Elke parameter weerspiegelt de geaggregeerde invloed
van veel datapunten, waardoor geen enkele output gemakkelijk kan worden
herleid tot een specifieke subset van deze punten.
- Gebrek
aan attributielagen: GenAI-systemen missen mechanismen (zoals
bibliografische citaten) voor het toekennen van "credits" of
invloedsscores aan specifieke trainingsinputs.
Bovendien is de probabilistische invloed van individuele
datapunten niet direct observeerbaar. De invloed van een enkel datapunt is
diffuus en verspreid. Hoewel onderzoeksmethoden zoals 'influence functions' of
'membership inference' bestaan, schalen deze momenteel niet gemakkelijk naar
modellen met honderden miljarden parameters en terabytes aan heterogene data.
Deze methoden geven geen definitieve antwoorden over de rol van specifieke
auteursrechtelijk beschermde werken in het vormgeven van een bepaalde output.
Dit onvermogen om invloed te traceren ondermijnt de
mogelijkheid van rechthebbenden om te bewijzen dat hun werk is gebruikt, maakt
het moeilijk om afgeleid gebruik vast te stellen, en bemoeilijkt eerlijke
vergoeding. Met name bij de uitzondering voor Tekst- en Data Mining (TDM) onder
de Digital Single Market Directive, wordt handhaving praktisch onuitvoerbaar
als modellen output genereren die op beschermde werken lijkt, maar attributie
niet kan worden vastgesteld.
V4: Waarom is de detectie van nieuwigheid (originaliteit)
zo complex in GenAI-output?
GenAI-modellen opereren in extreem hoogdimensionale
ruimtes. In deze omgevingen introduceren verschillende tegenintuïtieve
verschijnselen problemen bij het beoordelen van nieuwigheid:
- De
'vloek van dimensionaliteit': Naarmate het aantal dimensies toeneemt,
groeit het volume van de ruimte exponentieel, waardoor de meeste punten in
de ruimte ongeveer even ver van elkaar verwijderd raken.
Traditionele geometrische intuïties, zoals lokale nabijheid of dichtheid,
verliezen hun betekenis. Een kleine verstoring in één dimensie kan leiden
tot een grote verandering in de algehele vectordistanie, of omgekeerd. Dit
maakt het uiterst moeilijk om te beoordelen hoe "dichtbij"
een gegenereerde output bij zijn dichtstbijzijnde trainingsdatapunten ligt.
- Statistische
reproductie en 'stochastic parroting': Outputs kunnen op het oppervlak
verschillen (bijvoorbeeld in hun zichtbare vorm of bewoording), maar zijn statistisch
verstrengeld met de trainingsdata die werden gebruikt om de
generatieve hypersurface te construeren. Het model kan fragmenten,
patronen of hele structuren statistisch reproduceren die zeer
vergelijkbaar of identiek zijn aan die in de trainingsset, onder het mom
van nieuwigheid. Dit fenomeen wordt 'stochastic parroting' genoemd.
- Beperkingen
van huidige methoden: Bestaande methoden voor gelijkenisbeoordeling,
zoals 'cosine distance' in embedding-ruimte of 'perceptual hashes' voor
afbeeldingen, schieten tekort. Ze bieden geen robuuste drempels voor
originaliteit, vooral omdat generatieve modellen complexe oppervlakken
bouwen die patronen uit alle trainingsdata combineren.
- Probabilistische
nieuwigheid: Nieuwigheid moet worden geherinterpreteerd als een
probabilistische eigenschap. De scheidslijn tussen een echt nieuwe
creatie en een statistisch gereproduceerd artefact is niet binair maar
probabilistisch.
V5: Welke technische aanbevelingen worden gedaan om
transparantie en juridische compliance in GenAI te verbeteren?
De studie stelt dat de technische beperkingen niet
onoplosbaar zijn, maar gerichte investeringen, methodologische innovatie en
proactieve regelgeving vereisen. Belangrijke aanbevelingen zijn:
- Verantwoordelijkheid
bij alle belanghebbenden:
- Ontwikkelaars
van GenAI-systemen, vooral die op industriële schaal opereren, moeten investeren
in mechanismen die de modellen auditbaar, traceerbaar en
beoordeelbaar maken wat betreft hun statistische afhankelijkheden van
auteursrechtelijk beschermde gegevens.
- Dit
omvat het implementeren van systemen voor het beoordelen en documenteren
van auteursrechtelijk beschermde inhoud in datasets, het ontwikkelen van
interne attributiemechanismen en het leveren van technische documentatie
voor auditing.
- Heroverweging
van vergoedingsmodellen:
- Vergoedingsregelingen
moeten niet beperkt blijven tot letterlijke kopieën, maar ook statistisch
gebruik en distributionele invloed omvatten.
- Er
moet gekeken worden naar mechanismen zoals pool-gebaseerde royalty's
op basis van dataset-inclusie of bijdrage-gewogen compensatiemodellen
afgeleid van invloedsschattingshulpmiddelen.
- Prioriteit
voor traceerbaarheidsinfrastructuur:
- Er
moet publiek worden geïnvesteerd en gestandaardiseerd in:
- Open-source
frameworks voor het auditen van GenAI-trainingspijplijnen.
- Tools
voor het meten van de waarschijnlijkheid dat een specifiek datapunt
een gegenereerde output heeft beïnvloed.
- Standaardprotocollen
voor datasetdocumentatie en herkomstetikettering.
- De
ontwikkeling van onafhankelijke testsuites voor het evalueren van
traceerbaarheid en nieuwigheid.
- Standaardisatie,
auditing en samenwerking:
- Er
moeten technische standaarden komen die definiëren wat voldoende
documentatie van trainingsbronnen inhoudt, specificaties voor model-level
attributierapportering, en auditmechanismen die bruikbaar zijn voor
rechthebbenden.
- Actieve
samenwerking tussen rechthebbenden, academische onderzoekers en
regelgevers is cruciaal om het delen van geannoteerde datasets te
faciliteren en ervoor te zorgen dat makers toegang hebben tot bruikbare
tools om hun rechten te beschermen.
V6: Wat is de algemene conclusie van het document?
- GenAI-systemen
zijn gebaseerd op statistische benadering en hoogdimensionaal
functieleren. Hoewel hun interne representaties (hypersurfaces) niet
direct interpreteerbaar zijn, zijn ze uiteindelijk governed by
mathematical principles en daardoor vatbaar voor systematische
evaluatie, verfijning en regulering.
- De
technische beperkingen met betrekking tot memorisatie, nieuwigheid en
traceerbaarheid zijn niet onoverkomelijk en vereisen gerichte
investeringen, methodologische innovatie en proactieve governance. Het
negeren van deze kwesties riskeert het ondermijnen van het intellectuele
eigendomsecosysteem en het publieke vertrouwen in verantwoorde
AI-ontwikkeling.
- Traditionele
noties van auteurschap, invloed en originaliteit moeten worden
geherinterpreteerd in het licht van stochastische generatie en
hoogdimensionale modellering.
- GenAI-systemen
bieden transformatieve mogelijkheden, maar zijn inherent verstrengeld
met eerder menselijk werk omdat ze statistische structuren leren en
remixen uit bestaande inhoud. Dit maakt ze zowel enorm waardevol als
onvermijdelijk afhankelijk van eerder gecreëerde content.
- De Europese
Unie is uniek gepositioneerd om het voortouw te nemen bij het
vaststellen van normen voor transparantie, attributie en
verantwoordelijkheid in GenAI. Dit zal niet alleen rechthebbenden en
democratische waarden beschermen, maar ook innovatie bevorderen die
geworteld is in legitimiteit, verantwoording en maatschappelijk
vertrouwen.