donderdag 31 juli 2025

Technological Aspects of Generative AI in the Context of Copyright

Bron: Technological Aspects of Generative AI in the Context of Copyright https://www.europarl.europa.eu/RegData/etudes/BRIE/2025/776529/IUST_BRI(2025)776529_EN.pdf#:~:text=This%20in-depth%20analysis%20explains%20the%20statistical%20nature%20of,functional%20dependencies%20with%20respect%20to%20the%20used%20data.

Inleiding tot het document

Dit document is een uitgebreide analyse die is aangevraagd door de Commissie Juridische Zaken van het Europees Parlement. Het doel is om de statistische aard van generatieve AI (GenAI) te verduidelijken en te laten zien hoe het trainen met auteursrechtelijk beschermde gegevens leidt tot voortdurende functionele afhankelijkheden van die data. De studie benadrukt de uitdagingen op het gebied van attributie (toeschrijving) en nieuwigheidsdetectie in deze complexe modellen en biedt technische aanbevelingen voor traceerbaarheid en beoordeling van output.



V1: Wat is Generatieve AI (GenAI) en hoe werkt het technisch gezien?

  • Fundamentele verschuiving: GenAI-systemen vormen een fundamentele verschuiving in de manier waarop digitale inhoud wordt geproduceerd. In tegenstelling tot traditionele AI, die voorspellingen doet, zijn GenAI-modellen ontworpen om mensachtige inhoud te genereren zoals tekst, afbeeldingen en muziek.
  • Statistische benadering: GenAI opereert niet door middel van menselijk begrip, maar door statistische benadering. Het leert regelmatigheden en statistische patronen uit grote datasets. Het model codeert hoogdimensionale relaties tussen voorbeelden, waardoor het die patronen probabilistisch kan reproduceren of uitbreiden.
  • De 'Hypersurface Metafoor': Technisch kan een GenAI-model worden voorgesteld als een hoogdimensionaal 'oppervlak' of 'rubberen vel' (een hypersurface).
    • Tijdens de training wordt dit oppervlak geleidelijk vervormd om de datapunten in de dataset te benaderen, idealiter door er dichtbij of zelfs precies doorheen te gaan. Deze vervorming stelt het model in staat om te generaliseren buiten de trainingsdata.
    • Het oppervlak van de hypersurface wordt gevormd door de cumulatieve statistische invloed van de trainingsdata. Elk datapunt oefent een kleine, gelokaliseerde invloed uit die bijdraagt aan de algehele geometrie van het oppervlak.
  • Content genereren: Wanneer GenAI inhoud genereert, 'samplet' (of kiest) het een punt op dit oppervlak. De output kan dan volledig nieuw lijken of juist niet te onderscheiden zijn van, of identiek zijn aan, de originele trainingsdata. Elk gegenereerd punt is een gevolg van de cumulatieve statistische invloed van de trainingsdata die het oppervlak hebben gevormd.

V2: Wat zijn de belangrijkste auteursrechtelijke uitdagingen die voortvloeien uit de werking van GenAI?

De functionele afhankelijkheid van GenAI-modellen van hun trainingsdata creëert twee belangrijke auteursrechtelijke problemen:

  1. Attributie (Toeschrijving):
    • Het probleem: Hoe kunnen we bepalen of een gegenereerde output (gedeeltelijk of substantieel) is afgeleid van een of meer trainingsvoorbeelden?. Huidige modellen hebben geen betrouwbaar mechanisme om deze invloed te kwantificeren of te traceren.
    • Dit ondermijnt het vermogen van rechthebbenden om te bewijzen dat hun werk is gebruikt, maakt het moeilijk om afgeleid gebruik vast te stellen, en bemoeilijkt eerlijke vergoeding.
  2. Nieuwigheid (Originaliteit):
    • Het probleem: Hoe beoordelen we of een output een echt nieuwe creatie is, of dat het een resultaat is van "stochastische nabootsing" (statistisch reproduceren van patronen met bijna woordelijke gelijkenis onder het mom van nieuwigheid)?.
    • Outputs kunnen op het oppervlak verschillen, maar zijn statistisch verstrengeld met de trainingsdata. De scheidslijn tussen een echt nieuwe creatie en een statistisch gereproduceerd artefact is probabilistisch, niet binair.

V3: Waarom is attributie zo moeilijk in GenAI-systemen?

De kernuitdaging ligt in een 'traceerbaarheidskloof': een structurele ontkoppeling tussen trainingsinputs en gegenereerde outputs. Dit heeft drie belangrijke technische oorzaken:

  • Stochastische trainingsregimes: Het leerproces is pad-afhankelijk en niet gemakkelijk omkeerbaar, vanwege het willekeurig samplen van mini-batches en het gebruik van stochastische gradiëntdaling.
  • Parameterverstrengeling: In grootschalige modellen zijn miljarden parameters gezamenlijk geoptimaliseerd. Elke parameter weerspiegelt de geaggregeerde invloed van veel datapunten, waardoor geen enkele output gemakkelijk kan worden herleid tot een specifieke subset van deze punten.
  • Gebrek aan attributielagen: GenAI-systemen missen mechanismen (zoals bibliografische citaten) voor het toekennen van "credits" of invloedsscores aan specifieke trainingsinputs.

Bovendien is de probabilistische invloed van individuele datapunten niet direct observeerbaar. De invloed van een enkel datapunt is diffuus en verspreid. Hoewel onderzoeksmethoden zoals 'influence functions' of 'membership inference' bestaan, schalen deze momenteel niet gemakkelijk naar modellen met honderden miljarden parameters en terabytes aan heterogene data. Deze methoden geven geen definitieve antwoorden over de rol van specifieke auteursrechtelijk beschermde werken in het vormgeven van een bepaalde output.

Dit onvermogen om invloed te traceren ondermijnt de mogelijkheid van rechthebbenden om te bewijzen dat hun werk is gebruikt, maakt het moeilijk om afgeleid gebruik vast te stellen, en bemoeilijkt eerlijke vergoeding. Met name bij de uitzondering voor Tekst- en Data Mining (TDM) onder de Digital Single Market Directive, wordt handhaving praktisch onuitvoerbaar als modellen output genereren die op beschermde werken lijkt, maar attributie niet kan worden vastgesteld.

V4: Waarom is de detectie van nieuwigheid (originaliteit) zo complex in GenAI-output?

GenAI-modellen opereren in extreem hoogdimensionale ruimtes. In deze omgevingen introduceren verschillende tegenintuïtieve verschijnselen problemen bij het beoordelen van nieuwigheid:

  • De 'vloek van dimensionaliteit': Naarmate het aantal dimensies toeneemt, groeit het volume van de ruimte exponentieel, waardoor de meeste punten in de ruimte ongeveer even ver van elkaar verwijderd raken. Traditionele geometrische intuïties, zoals lokale nabijheid of dichtheid, verliezen hun betekenis. Een kleine verstoring in één dimensie kan leiden tot een grote verandering in de algehele vectordistanie, of omgekeerd. Dit maakt het uiterst moeilijk om te beoordelen hoe "dichtbij" een gegenereerde output bij zijn dichtstbijzijnde trainingsdatapunten ligt.
  • Statistische reproductie en 'stochastic parroting': Outputs kunnen op het oppervlak verschillen (bijvoorbeeld in hun zichtbare vorm of bewoording), maar zijn statistisch verstrengeld met de trainingsdata die werden gebruikt om de generatieve hypersurface te construeren. Het model kan fragmenten, patronen of hele structuren statistisch reproduceren die zeer vergelijkbaar of identiek zijn aan die in de trainingsset, onder het mom van nieuwigheid. Dit fenomeen wordt 'stochastic parroting' genoemd.
  • Beperkingen van huidige methoden: Bestaande methoden voor gelijkenisbeoordeling, zoals 'cosine distance' in embedding-ruimte of 'perceptual hashes' voor afbeeldingen, schieten tekort. Ze bieden geen robuuste drempels voor originaliteit, vooral omdat generatieve modellen complexe oppervlakken bouwen die patronen uit alle trainingsdata combineren.
  • Probabilistische nieuwigheid: Nieuwigheid moet worden geherinterpreteerd als een probabilistische eigenschap. De scheidslijn tussen een echt nieuwe creatie en een statistisch gereproduceerd artefact is niet binair maar probabilistisch.

V5: Welke technische aanbevelingen worden gedaan om transparantie en juridische compliance in GenAI te verbeteren?

De studie stelt dat de technische beperkingen niet onoplosbaar zijn, maar gerichte investeringen, methodologische innovatie en proactieve regelgeving vereisen. Belangrijke aanbevelingen zijn:

  • Verantwoordelijkheid bij alle belanghebbenden:
    • Ontwikkelaars van GenAI-systemen, vooral die op industriële schaal opereren, moeten investeren in mechanismen die de modellen auditbaar, traceerbaar en beoordeelbaar maken wat betreft hun statistische afhankelijkheden van auteursrechtelijk beschermde gegevens.
    • Dit omvat het implementeren van systemen voor het beoordelen en documenteren van auteursrechtelijk beschermde inhoud in datasets, het ontwikkelen van interne attributiemechanismen en het leveren van technische documentatie voor auditing.
  • Heroverweging van vergoedingsmodellen:
    • Vergoedingsregelingen moeten niet beperkt blijven tot letterlijke kopieën, maar ook statistisch gebruik en distributionele invloed omvatten.
    • Er moet gekeken worden naar mechanismen zoals pool-gebaseerde royalty's op basis van dataset-inclusie of bijdrage-gewogen compensatiemodellen afgeleid van invloedsschattingshulpmiddelen.
  • Prioriteit voor traceerbaarheidsinfrastructuur:
    • Er moet publiek worden geïnvesteerd en gestandaardiseerd in:
      • Open-source frameworks voor het auditen van GenAI-trainingspijplijnen.
      • Tools voor het meten van de waarschijnlijkheid dat een specifiek datapunt een gegenereerde output heeft beïnvloed.
      • Standaardprotocollen voor datasetdocumentatie en herkomstetikettering.
      • De ontwikkeling van onafhankelijke testsuites voor het evalueren van traceerbaarheid en nieuwigheid.
  • Standaardisatie, auditing en samenwerking:
    • Er moeten technische standaarden komen die definiëren wat voldoende documentatie van trainingsbronnen inhoudt, specificaties voor model-level attributierapportering, en auditmechanismen die bruikbaar zijn voor rechthebbenden.
    • Actieve samenwerking tussen rechthebbenden, academische onderzoekers en regelgevers is cruciaal om het delen van geannoteerde datasets te faciliteren en ervoor te zorgen dat makers toegang hebben tot bruikbare tools om hun rechten te beschermen.

V6: Wat is de algemene conclusie van het document?

  • GenAI-systemen zijn gebaseerd op statistische benadering en hoogdimensionaal functieleren. Hoewel hun interne representaties (hypersurfaces) niet direct interpreteerbaar zijn, zijn ze uiteindelijk governed by mathematical principles en daardoor vatbaar voor systematische evaluatie, verfijning en regulering.
  • De technische beperkingen met betrekking tot memorisatie, nieuwigheid en traceerbaarheid zijn niet onoverkomelijk en vereisen gerichte investeringen, methodologische innovatie en proactieve governance. Het negeren van deze kwesties riskeert het ondermijnen van het intellectuele eigendomsecosysteem en het publieke vertrouwen in verantwoorde AI-ontwikkeling.
  • Traditionele noties van auteurschap, invloed en originaliteit moeten worden geherinterpreteerd in het licht van stochastische generatie en hoogdimensionale modellering.
  • GenAI-systemen bieden transformatieve mogelijkheden, maar zijn inherent verstrengeld met eerder menselijk werk omdat ze statistische structuren leren en remixen uit bestaande inhoud. Dit maakt ze zowel enorm waardevol als onvermijdelijk afhankelijk van eerder gecreëerde content.
  • De Europese Unie is uniek gepositioneerd om het voortouw te nemen bij het vaststellen van normen voor transparantie, attributie en verantwoordelijkheid in GenAI. Dit zal niet alleen rechthebbenden en democratische waarden beschermen, maar ook innovatie bevorderen die geworteld is in legitimiteit, verantwoording en maatschappelijk vertrouwen.