Tekoäly asiantuntijatyöpaikoilla -hankkeen uutinen 10.12.2025
Tekoälykuume kuplii kuumana. Maailman arvokkaimman yhtiön, Nvidian toimitusjohtaja Jensen Huang totesi kolmannen vuosineljänneksen katsauksessaan, että vaikka AI-kuplasta on puhuttu paljon, Nvidia onnistui kasvattamaan tulostaan 62 % vuoden takaisesta.
Samalla kiihtyy keskustelu siitä, vastaako tekoälyn suorituskyky sille asetettuja odotuksia ja tekoäly-yritysten keräämiä valtavia rahoituksia.
Huipputekoälymallit ohittavat ihmisen monissa tehtävissä
Vuoden lähestyessä loppuaan uusia tekoälymalleja ilmestyy tiuhaan.
Claude Opus 4.5 jatkaa Anthropicin menestystä ohjelmistokehityksen parissa, OpenAI:n GPT-5.1 pärjää matematiikassa ja on entistä miellyttävämpi keskustelukumppani ja xAI:n Grok 4.1 parantaa erityisesti tunneälyä vaativissa tehtävissä. Googlen Gemini 3 -malli puolestaan nostaa kuvankäsittelyn täysin uudelle tasolle.
Huippumallit (state-of-the-art) ovat ohittaneet ihmisen suoriutumisen monissa pistemäisissä suorituskykymittauksissa ja saavat täysiä pisteitä niin koodin, kuvien kuin erityylisten tekstienkin tuottamisessa.
– Herää kysymys, ovatko mallit tarkoituksellisesti opetettu suoriutumaan juuri tietyissä mittauksissa ja miten mallit suoriutuvat todellisissa tehtävissä, sanoo kehittämispäällikkö Teppo Valtonen Työterveyslaitoksesta.
Tutkimus selvittää tekoälymallien hyödyt oikeissa töissä
Center for AI Safety -tutkimuskeskuksen ja Scale AI -yrityksen tutkijoiden lokakuussa julkistama etätyöindeksi (Remote Labor Index, RLI) arvioi tekoälymallien kykyä suorittaa työtehtäviä.
Tutkimus perustui 240 todelliseen eri alojen työprojektiin, jotka oli kerätty Upwork-freelance-alustalta. Ihmisiltä oli kulunut näissä projekteissa työaikaa keskimäärin 28,9 tuntia, ja heille maksettiin niistä keskimäärin 632,6 dollaria.
Tutkimuksessa projektien tehtävänannot ja materiaalit annettiin sellaisinaan tekoälymalleille ja arvioitiin, kuinka eri mallit suoriutuvat niistä. Keskeinen indeksi oli automaatioaste, eli prosenttiosuus projekteista, joissa tekoälyn tuottama tulos on ihmistuomarin arvioimana yhtä hyvä tai parempi kuin ihmisen tuottama lopputulos.
Parhaiten pärjäsi singaporelaisen Butterfly Effect -yrityksen rakentama Manus. Se sai suoritettua hyväksytysti 2,5 % projekteista. Myös xAI:n Grok 4 ja Anthropicin Sonnet 4.5 saivat suoritettua yli 2 % projekteista.
Edellinen tekoälymallien sukupolvi ei hallitse kokonaisuuksia – entä viimeisin?
– Tulokset osoittavat, että vaikka tekoälymallit suoriutuvat monesta pistemäisestä tehtävästä ihmistä paremmin, suurempien kokonaisuuksien ja pitkäkestoisempien tehtävien kanssa ne eivät vielä pärjää, kertoo Valtonen.
Vaikka testatut mallit eivät vielä hallitse monimutkaisempia tehtäviä, uudet versiot kehittyvät nopeasti. Tutkimuksen julkaisusta on vasta vajaa kaksi kuukautta, ja jokaisesta testatusta mallista on ilmestynyt sen jälkeen uusi versio.
– Jatkuvasti päivittyvät tekoälyjärjestelmät, niiden saama huomio ja Nvidian menestys viittaavat siihen, että tekoälystä on monelle hyötyä jo tänään. Ja mikä tänään ei vielä ole mahdollista, saattaa huomenna olla, summaa Valtonen.
Lisätiedot
- Teppo Valtonen, kehittämispäällikkö, Työterveyslaitos, +358 30 474 2625, teppo.valtonen [at] ttl.fi
Tekoäly nyt! -uutiset
- Tekoäly nyt! -uutiset ovat osa Työterveyslaitoksen Tekoäly asiantuntijatyöpaikoilla -hanketta, jossa tutkitaan, miten generatiivinen tekoäly vaikuttaa työpaikkojen käytäntöihin ja asiantuntijoiden työhön.
- Yhdeksänosainen Tekoäly nyt! -uutissarja nostaa esille tekoälyn kehitykseen liittyviä ajankohtaisia aiheita ja tapahtumia.
- Tämän uutisen kuvitus on luotu tekoälypohjaisella kielimallilla Ideogram Upscale 1.0.
Tutustu myös
- Seuraa hankkeen tuloksia ja Tekoäly nyt! -uutisia tutkimuksen verkkosivuilla: Tekoäly asiantuntijatyöpaikoilla – tietoa, ratkaisuja ja visioita | Työterveyslaitos (ttl.fi). Hanketta rahoittaa Työsuojelurahasto.