Tekoälyn kouluttaminen mahdollista ilman tekijänoikeudella suojattua materiaalia

4.4.2024

Tekoäly-yhtiö OpenAI totesi viime vuonna, että kehittyneen tekoälymallin kouluttaminen ilman tekijänoikeudella suojattua materiaalia on mahdotonta. Nyt on kuitenkin julkaistu tekijänoikeusystävällinen vaihtoehto nimeltä Common Corpus, joka haastaa alalla vallitsevan näkemyksen.

Common Corpus on kansainvälisen yhteistyön tulos, joka julkaistiin 20. maaliskuuta 2024. Kyse on maailman suurimmasta avoimesta tietoaineistosta (public dataset) suurten kielimallien kouluttamiseen (large language models, LLMs). Common Corpuksen julkaisua koskevassa kirjoituksessa kerrotaan, että se koostuu 500 miljardista sanasta pitäen sisällään miljoonia kirjoja ja muita julkaisuja, kuten sanomalehtiä, jotka soveltuvat hyvin tekoälyn kouluttamiseen. Se on tällä hetkellä maailman suurin englanninkielinen avoin tietoaineisto 180 miljardilla sanalla, minkä lisäksi sen kerrotaan olevan suurin myös ranskaksi, saksaksi, espanjaksi, hollanniksi ja italiaksi.

Hankkeen vetäjänä toimii ranskalainen startup-yritys Pleias, mutta siinä on mukana myös muita avoimen tieteen tekoäly-yrityksiä ja tutkijoita. Lisäksi hanketta tukee Ranskan kulttuuriministeriön tukema startup. Common Corpuksella pyritään osoittamaan, että suurten kielimallien kouluttaminen on mahdollista myös täysin avoimella datalla. Kirjoituksessa kerrotaan, että nyt julkaistu versio on vain alkua sille, mitä on tulossa.

Pierre-Carl Langlais, toinen Pleiaksen perustajista, on kertonut Euronews Nextille, että Common Corpus on hänen mielestään hyvin tärkeä, jotta voimme luoda kannustimen kilpailulle OpenAI:n kaltaisten yritysten kanssa. Langlais uskoo, että Common Corpus voi lopulta johtaa tekijänoikeudella suojatun aineiston arvon laskuun tekoälyn kouluttamisessa. Tämä on hyvä, sillä hänen mielestään mediatalojen OpenAI:n kanssa tekemät sopimukset tekijänoikeudella suojatun materiaalin käytöstä voivat johtaa yhdysvaltalaisten yritysten valta-asemaan ja olla siten haitallisia.

On kuitenkin selvää, että avoimen datan käytössä on omat haasteensa koskien erityisesti datan ajantasaisuutta. Langlais on todennut, että yksi vastaus tähän haasteeseen on avoimet hallinnolliset tiedot (open administrative data), sillä Eurooppa on sitoutunut avoimeen tieteeseen ja datan jakamiseen. Lisäksi Langlais on huomioinut synteettisen datan yhtenä koulutusmateriaalina.

Kuva: Unsplash / CHUTTERSNAP

Kirjoittajat

Share: