Етикетирането на данни може да бъде скучна работа. Това е основният източник на препитание за модели с компютърно зрение; без него те биха имали много трудности при идентифицирането на обекти, хора и други важни характеристики на изображението. И все пак производството на само един час маркирани и етикетирани данни може да отнеме цели 800 часа човешко време. Нашето висококачествено разбиране за света се развива, тъй като машините могат по-добре да възприемат и взаимодействат със заобикалящата ни среда. Но те се нуждаят от повече помощ.
Учени от Лабораторията за компютърни науки и изкуствен интелект (CSAIL) на Масачузетския технологичен институт (MIT), Microsoft и университета Корнел се опитаха да разрешат този проблем, тормозещ зрителните модели, като създадоха „STEGO“, алгоритъм, който може съвместно да открива и сегментира обекти без човешки етикети на всичко, до пиксела.
STEGO научава нещо, наречено „семантично сегментиране“ — фантазия за процеса на присвояване на етикет на всеки пиксел в изображение. Семантичното сегментиране е важно умение за днешните системи за компютърно зрение, тъй като изображенията могат да бъдат претрупани с обекти. Още по-голямо предизвикателство е, че тези обекти не винаги се побират в буквални кутии; Алгоритмите обикновено работят по-добре за отделни „неща“ като хора и коли, за разлика от „неща“ като растителност, небе и картофено пюре. Предишна система може просто да възприеме нюансирана сцена на куче, играещо в парка, просто като куче, но като присвои етикет на всеки пиксел от изображението, STEGO може да раздели изображението на основните му съставки: куче, небе, трева и неговия собственик.