Обсъждането на обучението на рояк – какво е то и какво прави – винаги извежда изображения от природата. И има защо. Това е мястото, където концепцията черпи своето вдъхновение. Помислете за рояци скорци, бръмчащи наоколо в небето, или риби, плуващи по същия начин във водата. Думата "рояк" е вдъхновена от факта, че различни същества, често за собствена защита, проявяват вид децентрализирано поведение, което не е свързано с движенията на техния водач на стадото. И това е основата на идеята за интелигентност на рояк.
Днес ние определяме swarm learning като децентрализирано решение за машинно обучение, предназначено да позволи на предприятията да използват силата на разпределените данни, като същевременно защитават поверителността и сигурността на данните.
Обучението на рояк използва изчислителната мощност на или близо до разпределените източници на данни. Той гарантира сигурност с помощта на тествана блокчейн технология и защитава поверителността чрез споделяне на прозрения, уловени от модели за задълбочено обучение, работещи на изходните данни, вместо на самите необработени данни. Данните остават локални. Само наученото се споделя. Това води до подобрени модели с по-малко пристрастия, тъй като те имат достъп до по-голям набор от данни – и решава проблемите, свързани с поверителността на данните, собствеността на данните и ефективността.
С наскоро обявеното HPE Swarm Learning, първото в индустрията решение за разпределено машинно обучение, което запазва поверителността,1 предимствата за обучение на рояк вече са достъпни за разработчиците на модели. Разрешен блокчейн се използва в HPE Swarm Learning за сигурно включване на членове и динамично избиране на лидера. Това осигурява устойчивост и сигурност на рояковата мрежа.
Преодоляване на предизвикателствата на централизирания подход към машинното обучение
Както се прави днес, машинното обучение има много компоненти. Има събиране на данни, обикновено на ръба. След това има агрегиране на данни, извършвано в основния център за данни, където се извършва обучението по AI модела. След това моделът се премества обратно към ръба за изводи за генериране на прогнози. Това генерира непрекъснат цикъл с огромно количество ресурси, необходими за преместване на данни напред и назад между периферията и центъра за данни. Този подход сигнализира за някои значителни предизвикателства.
#1 Данните не са пълни поради проблеми с поверителността на данните и разпоредби, които предотвратяват споделянето. Притежаването на данни от различни организации с различни политики за данни води до ограничено споделяне на данни. В допълнение, демографските различия създават пристрастия в моделите на обучение.
Пристрастност #2 присъства в местните данни поради демографска разлика. Това означава, че моделите, обучени в локални възли, ще имат вградени пристрастия.
#3 Дизайнът на централизираното моделиране на обучение изисква данните да бъдат преместени на централно място – като наученото след това се разпространява към възлите за внедряване. Това води до масово движение на данни и дублиране на данни. Повече проблеми възникват в мрежи, където свързаността е лоша или периодичното движение на данни е ограничено и не се синхронизира.
Остава ви да се справяте с ниска ефективност, докато внедрявате модели в производство. В крайна сметка натоварвате мрежата, съхранението и изчислителните ресурси. В допълнение, разпоредбите и разпоредбите за поверителност на данните предотвратяват движението на данни и водят до липса на поверителност на данните. Получените модели могат да бъдат неоптимални – със забавено време за прозрения, по-ниска обща точност и предубедени модели.
Внимателен поглед към два примера от индустрията – здравеопазване и банкиране – показва по-конкретно как обучението на рояк решава тези предизвикателства.
Откриване на заболявания в здравеопазването
Съвременните здравни организации изискват подобрена точност за диагностика и решения от своите AI решения. И за да постигне точност, AI изисква достъп до по-големи набори от данни, за да намали локалните отклонения в данните. Без агрегиране на данни на едно място резултатите от неоптимални модели водят до неточни решения.
Обобщаването на данни в здравеопазването може да бъде особено предизвикателно, тъй като разпоредбите за поверителност на данните, като HIPAA и GDPR, възпрепятстват споделянето на данни. Притежаването на данни предотвратява споделянето между болници и различни географски области. Дори когато данните могат да бъдат агрегирани, възниква неефективност поради разходите за преместване на много големи данни за диагностични изображения, използващи ценна честотна лента, и факта, че може да се наложи данните да бъдат дублирани, използвайки ценни ресурси за съхранение.
С HPE Swarm Learning здравните организации могат да извършват обучение по AI модел с големи набори от разпределени данни в източника на данни – без движение на данни. Сътрудничеството между източниците на данни може да се осъществи без компромис с поверителността. Суровите данни не се споделят. Притесненията относно собствеността на данните са елиминирани, тъй като всеки собственик на данни участва като равноправен партньор. Подобрените модели осигуряват по-точна класификация на болестта с намалено отклонение плюс общо подобрено време за точност.
В този конкретен случай на употреба, фокусиран върху изследване на белодробни заболявания при множество пациенти, данните за пациентите бяха разпределени в три географски области. Моделите в една болница на всяко място не успяха да открият рядко наблюдавани заболявания. Рядко наблюдаваните белодробни заболявания означават, че данните са имали локално отклонение. Моделът на обучение на рояк успя да открие тези заболявания, когато болниците разполагаха с ограничени данни и да премахне пристрастието на местните данни за категорията. Дори и с достатъчно налични данни, моделът на обучение на рояка е или по-добър, или е равен на всеки отделен модел.
По-конкретно, рентгеновите изображения на белите дробове са предварително маркирани за четири заболявания. Моделите бяха обучени на място във всяка от трите болници. Всяко местоположение с по-малко изображения за конкретното заболяване имаше по-ниска точност от ~10%. Дори когато имаше достатъчно изображения, точността беше ~60%. Обучението на рояк подобрява точността на модела и последващата диагноза на пациента и постига точност от ~70%. Това е значително по-добро в случаите, когато има по-малко изображения и близо или на номинална стойност, когато има достатъчно данни.
Откриване на измами с кредитни карти в банкирането
Намерението на скорошен демонстрационен случай на използване беше да се разработи модел за машинно обучение за откриване на измами при транзакции с кредитни карти. Публично достъпен набор от данни беше използван за изграждане на модела в симулирана среда с три мрежи от кредитни карти. Измамните транзакции бяха разделени в различните мрежи.
Както беше, отделните кредитни мрежи не можеха да видят всички измамни транзакции и данните за транзакциите не можеха да се споделят между кредитните мрежи. В резултат на това отделните кредитни мрежи не могат да идентифицират всички измамни транзакции.
Чрез използване на съвместно обучение, swarm learning успя да открие всички измамни транзакции. Значителна производителност беше печалба спрямо отделни модели с ограничени данни и отклонения.
Тези случаи на употреба в здравеопазването и банкирането демонстрират само два от многото начини в множество индустрии, по които обучението на рояк осигурява мощен подход към ИИ – такъв, който съчетава местни и глобални прозрения, като същевременно запазва поверителността на данните и собствеността върху тях.
HPE предлага нови революционни решения за изкуствен интелект за ускоряване на модернизацията на първо място с данни от край до облак, което позволява мащабиране на изкуствен интелект до глобални приложения с индустриален размер. Ние правим AI, който е управляван от данни, ориентиран към производството и активиран в облак – достъпен по всяко време, навсякъде и във всякакъв мащаб. Нашите решения поддържат днешните предприятия, както и финансови услуги, здравеопазване и науки за живота и производство. HPE Swarm Learning предоставя на вашия бизнес децентрализирана, запазваща поверителността рамка за извършване на обучение по модел на машинно обучение в източника на данни
1Анализ от 13 април 2022 г. на конкурентни предложения, които претендират за запазване на поверителността, установи, че те използват обединена архитектура, разчитаща на централен сървър.