Tietojen merkitseminen voi olla työlästä. Se on tietokonenäkömallien pääasiallinen ravinnonlähde; ilman sitä heillä olisi suuria vaikeuksia tunnistaa esineitä, ihmisiä ja muita tärkeitä kuvan ominaisuuksia. Kuitenkin vain tunnin tunnistetun ja merkittyjen tietojen tuottaminen voi viedä huimat 800 tuntia ihmisaikaa. Korkealaatuinen ymmärryksemme maailmasta kehittyy, kun koneet pystyvät paremmin havaitsemaan ympäristömme ja olemaan vuorovaikutuksessa sen kanssa. Mutta he tarvitsevat enemmän apua.
MIT:n tietojenkäsittelytieteen ja tekoälyn laboratorion (CSAIL), Microsoftin ja Cornellin yliopiston tutkijat ovat yrittäneet ratkaista tämän näkömalleja vaivaavan ongelman luomalla STEGO-algoritmin, joka voi yhdessä löytää ja segmentoida esineitä ilman ihmismerkintöjä. kaikki, pikseliä myöten.
STEGO oppii jotain, jota kutsutaan "semanttiseksi segmentoinniksi" – hienoa puhetta prosessista, jossa kuvan jokaiselle pikselille määritetään tunniste. Semanttinen segmentointi on tärkeä taito nykypäivän tietokonenäköjärjestelmille, koska kuvat voivat olla täynnä esineitä. Vielä haastavampaa on, että nämä esineet eivät aina mahdu kirjaimellisiin laatikoihin; Algoritmit toimivat yleensä paremmin erillisiin "asioihin", kuten ihmisiin ja autoihin, verrattuna "tavaroihin", kuten kasvillisuus, taivas ja perunamuusi. Aiempi järjestelmä saattoi yksinkertaisesti havaita vivahteikkaan kohtauksen puistossa leikkivästä koirasta pelkkänä koirana, mutta antamalla jokaiselle kuvan pikselille tunnisteen STEGO voi jakaa kuvan tärkeimpiin osiin: koira, taivas, ruoho ja sen omistaja.