Text- och datautvinning, EU och licensavtal: Hur kan juridiken underlätta? (2/2)

☛ Detta är den andra delen av en text som börjar här.


Bra licensvillkor för TDM

Då kommer vi till en annan frågeställning: vad är bra licensvillkor för att forskarna optimalt ska kunna utföra TDM? För den som förhandlar licensavtal med förlagen kan det ibland vara svårt att veta om ett specifikt villkor som förlagen vill föra in är acceptabelt eller inte. En bra formulering som man kan få in i avtalet är ”TDM är tillåtet och forskaren äger rättigheter till resultatet”, utan att specificera ytterligare. På så sätt blir tillåtelsen helt öppen och forskaren behöver inte anpassa sig till eventuella regler.

Det är dock sällan som förlagen går med på sådana breda formuleringar. Här är några begränsningar som vi har noterat att förlagen ofta vill föra in i avtalen och hur man kan tänka kring dem, med utgångspunkten att man alltid ska ha som princip att ju mindre specifika villkor desto smidigare för forskarna att utföra TDM.

"Lens - Maison syndicale des mineurs" av Jérémy Jännick (PD)

”Lens – Maison syndicale des mineurs” av Jérémy Jännick (PD)

Materialet som kan utvinnas: man ska vara uppmärksam på hur avtalet definierar vilket material som ska kunna utvinnas. Text, siffror, tabeller, bilder och mer generellt all data är intressanta för TDM. Av denna anledning pratar man ibland om content mining istället för text and data mining. Hur materialet presenteras (artiklar eller böcker) borde inte spela någon roll och bör därför inte specificeras.

Informera förlaget inför varje TDM: vissa förlag vill kunna se hur deras material används och kräver att forskarna i förhand fyller i ett formulär eller meddelar dem innan TDM utförs. Detta innebär ett oönskat administrativt jobb för forskarna. Andra förlag skriver in i sina TDM-klausuler att man ska be om tillstånd för att kunna utföra TDM, vilket förstås är oacceptabelt. Hela poängen är att inte behöva be om tillstånd, utan att TDM ska vara tillåtet som standard.

Beskrivning av TDM-projekten: i samband med att vissa förlag kräver att bli informerade inför varje TDM-sökning vill de ibland att forskaren också ska beskriva vad projekten handlar om. Sådana formuleringar bör undvikas eftersom forskarna ska kunna välja att hemlighålla vad de arbetar med. Om förlaget insisterar kan man skriva i licensavtalet att förlaget endast får använda denna information i den utsträckning som krävs för att tekniskt möjliggöra TDM-sökningen.

Kommersiellt syfte med själva TDM-processen: ofta samarbetar aktörer som drivs av olika syften kring forskningsprojekt, t.ex. ett universitet och ett privat företag. Det är dock komplicerat att tydligt reda ut om syftet är kommersiellt eller icke-kommersiellt och vilka kriterier man ska använda. Ska organisationsformen vara styrande? En privat aktör kan ju agera ideellt och ett universitet ibland kommersiellt. Eller ska andelen finansiering som kommer från den aktör som agerar kommersiellt vara ett kriterium? Frågan är var gränsen ska gå i så fall (10 %? 50 %?). Forskning kan också börja som icke-kommersiell och senare utvecklas till ett kommersiellt projekt. Ur ett större perspektiv skulle en begränsning till icke-kommersiellt syfte kunna avskräcka TDM-investeringar och den samhälleliga potentialen skulle inte utnyttjas. Så länge man har laglig tillgång till materialet borde man kunna utföra TDM, oavsett syfte. Därför bör avtalet antingen inte specificera för vilket syfte TDM får göras, alternativt tydligt tillåta både kommersiellt och icke-kommersiellt syfte.

"Pays noir – Borinage" av Constantin Meunier

”Pays noir – Borinage” av Constantin Meunier (PD)

Belastning av förlagets servrar: en formulering som begränsar med en viss siffra hur många artiklar man får utvinna under t.ex. en timme ska undvikas eftersom vissa forskningsprojekt kan behöva söka i miljontals artiklar. Avtalet ska bara nämna att TDM ska belasta servrarna på ett rimligt sätt och inte störa deras normala drift.

API: ett sätt för förlagen att behålla kontroll på hur mycket TDM belastar deras servrar (och mer generellt att se hur deras material används) är att tvinga forskarna att använda ett specifikt gränssnitt, en så kallade API. Problemet är att dessa API:er är av mer eller mindre god kvalitet och forskaren måste anpassa sin TDM till API:ens möjligheter.

Lokal kopiering av materialet som ska utvinnas: istället för att använda förlagets API som ibland kan begränsa dem vill många forskare kunna spara ner materialet lokalt, i valfritt format (pdf, xml, etc.). Förutom att man undviker problemet med API (se ovan) innebär denna lösning att själva TDM inte belastar förlagets servrar. Och när forskaren utför sin TDM lokalt behöver hen inte avslöja för förlaget vilka algoritmer som används. Det är därför en fördel om avtalet tillåter lokal kopiering.

Lagringen av materialet efter TDM-utförandet: förlagen kräver ibland att materialet ska raderas så fort TDM-projektet är klart. Detta kan dock vara ett problem för forskningens reproducerbarhet. Istället bör materialet kunna lagras i ett säkert stängt repositorium.

Publicering och användning av TDM-resultatet: har förlaget någon form av upphovsrätt på det bearbetade verket, dvs resultatet av TDM? Eller handlar det bara om att presentera och tolka råa fakta? Detta är en komplex fråga som inte är föremål för denna artikel. Däremot kan man komma runt den och avtala i licensen att forskaren får göra resultatet offentligt och använda det som hen vill, även i kommersiellt syfte. Annars kan TDM-resultatet potentiellt få mindre spridning och återanvändning och samhället kan inte nyttja investeringarna av den offentliga forskningen.

"Miner with helmet and hydraulic drill in Sulitjelma" av ökänd fotograf (CC-By-SA)

”Miner with helmet and hydraulic drill in Sulitjelma” av okänd fotograf (CC-By-SA)

Max X bokstäver, Y ord eller Z meningar från materialet får reproduceras i TDM-resultatet: sådana siffror är bara godtyckliga. Rätten att citera som ingår i svensk lag och i många EU-medlemsländers lagstiftning gör att licensen inte borde behöva reglera detta. Däremot är det rimligt att förlaget kräver att TDM-resultatet inte inkluderar upphovsrättskyddat material (fulltext av artiklar eller bilder t.ex.).

Källhänvisa i TDM-resultatet: generellt borde forskaren hänvisa till vilket material som har använts för att komma fram till TDM-resultatet. Detta blir dock praktiskt omöjligt om utvinningen baseras på tusentals enskilda artiklar. Ett alternativ kan vara att källhänvisa till själva förlagets namn.

Ett sista råd till de som förhandlar med förlagen är att inkludera en klausul som föreskriver att de användarrätter som erbjuds av lagen inte kan uteslutas av licensavtalet. Mot bakgrund av det nya EU-direktivet (se första delen av texten) har vi i det följande exemplet lagt till en formulering med tanke på förekommande undantag i upphovsrätten som sannolikt kommer att implementeras nationellt:

Nothing in this Agreement shall be taken to restrict, limit or curtail any acts done or authorised by Licensee or Authorised Users in relation to the Licensed Materials or any part thereof which are or will be permitted under Swedish law during the Term. In the event of any conflict between the provisions of this Agreement and the provisions of Swedish law, the provisions of Swedish law shall prevail.

Laurent Fournier, licenshandläggare och juridiskt stöd för Bibsamkonsortiet, Kungliga biblioteket, och Jonas Holm, jurist, Stockholms universitetsbibliotek

Denna text är publicerad under licensen Creative Commons Erkännande 4.0 (CC-By).


Förutom de länkar som finns i texten har vi använt följande källor:

Cocoru, Diana och Boehm, Mirko, An analytical review of text and data mining practices and approaches in Europe – Policy recommendations in view of the upcoming copyright legislative proposal (May 1, 2016). Finns på http://www.openforumeurope.org/wp-content/uploads/2016/05/TDM-Paper-Diana-Cocoru-and-Mirko-Boehm.pdf
Independent expert group commissioned by the European Commission, Standardisation in the area of innovation and technological development, notably in the field of Text and Data Mining (April 2014). ISBN 978-92-79-36743-4; doi:10.2777/71122. Finns på http://ec.europa.eu/research/innovation-union/pdf/TDM-report_from_the_expert_group-042014.pdf
Filippov, Sergey, Mapping text and data mining in academic and research communities in Europe, The Lisbon Council (May 27, 2014). Finns på http://www.lisboncouncil.net/publication/publication/109.html
Det här inlägget postades i EU, Licenser, TDM. Bokmärk permalänken.

En kommentar till Text- och datautvinning, EU och licensavtal: Hur kan juridiken underlätta? (2/2)

  1. Pingback: Text- och datautvinning, EU och licensavtal: Hur kan juridiken underlätta? (1/2) | Open access i Sverige