À la manière classique de l'Université de Californie à San Diego, une conversation entendue par inadvertance dans la voiture-café du campus s'est transformée en un projet interdisciplinaire, ce qui a rendu les cours intensifs en calcul encore plus passionnants, tout en économisant plus d'un million de dollars à ce jour. Cet effort a permis aux étudiants de troisième et de premier cycle de l ' Université de Californie à San Diego, ainsi qu ' à leurs professeurs, de disposer d ' un meilleur écosystème matériel et logiciel leur permettant d ' explorer les problèmes rencontrés dans le cadre de projets et de cours du monde réel à forte intensité de données et de calcul.
Tout a commencé il y a plus de trois ans lorsque Larry Smarr, professeur d'informatique et d'ingénierie à l'Université de Californie à San Diego, attendait du café dans la cour "Bear" de la Jacobs School of Engineering. En faisant la queue, Smarr a entendu un étudiant dire: "Si je n'avais pas exécuté TensorFlow sur le GPU pour résoudre un vrai problème, je n'aurais pas pu obtenir un entretien d'embauche. "
Bien que le puzzle de l'élève puisse sembler très technique et très spécifique, Small a entendu un besoin général; A vu une opportunité. En particulier, Smarr s'est rendu compte que les innovations de la Pacific Research Platform (PRP), un projet de recherche financé par la National Science Foundation (NSF) qu'il dirigeait, pouvaient être utilisées pour créer une meilleure infrastructure informatique pour les programmes universitaires qui reposaient fortement sur l'apprentissage automatique, la visualisation des données et d'autres sujets nécessitant d'importantes ressources informatiques. Cette infrastructure permettra aux professeurs de dispenser plus facilement des cours qui mettent les étudiants au défi de résoudre des problèmes à forte intensité de données et de calcul dans le monde réel, y compris ce qu'il entend dans la voiture-café: Exécutez TensorFlow sur le GPU pour résoudre des problèmes pratiques.
Avancez rapidement jusqu'en 2022 Une des idées de Smarr a évolué vers une collaboration intercampus appelée UC San Diego Data Science/Machine Learning Platform ou UC San Diego JupyterHub. Grâce à cette plateforme, Smarr et ses collaborateurs du PRP ont conçu des blocs de calcul à haute performance peu coûteux combinant matériel et logiciels pour la recherche à forte intensité de calcul à l'échelle nationale et constituent désormais l'épine dorsale d'un écosystème informatique dynamique dans lequel les étudiants et les professeurs de l'Université de Californie à San Diego utilisent l'apprentissage automatique, la visualisation des données et d'autres outils informatiques et à forte intensité de données dans leurs cours. La plate-forme a été largement utilisée dans divers départements du campus, y compris l'enseignement des sciences biologiques, des sciences cognitives, de l'informatique, des sciences des données, de l'ingénierie, des sciences de la santé, des sciences marines, de la médecine, de la musique, des sciences physiques et de la santé publique.
S'agit d'un projet collaboratif unique qui utilise des innovations en recherche informatique financées par le gouvernement fédéral pour les salles de classe. Pour passer de la recherche à l'application en classe, une équipe interdisciplinaire créative et assidue de l'Université de Californie à San Diego s'est réunie. Les services de technologie de l'information/services de technologie académique de l'Université de Californie à San Diego ont été considérablement améliorés. Adam Tilghman, architecte senior, et David Andersen, programmeur en chef, ont dirigé la mise en œuvre avec le leadership et le soutien financier de Vince Kellen, directeur de l'information à l'Université de Californie à San Diego, et Valerie Polichar, directrice principale de la technologie académique. Kellen a déclaré que le programme a aidé le campus à éviter plus d'un million de dollars de dépenses en cloud computing.
Dans le même temps, le projet fournit à la communauté de l'Université de Californie à San Diego des outils pour encourager les étudiants et les idées à aller et venir entre les projets en classe et les projets de recherche ultérieurs.
« Nos étudiants acquièrent le même niveau de puissance de calcul que les chercheurs qui utilisent habituellement des systèmes avancés comme les superordinateurs. Les étudiants explorent des problèmes de données plus complexes, car ils le peuvent », a déclaré Small, qui est également le directeur fondateur du California Institute for Telecommunications and Information Technology (Calit2), un partenaire de l'Université de Californie à San Diego/Université de Californie à Irvine. Calit2 est maintenant en expansion pour inclure l'Université de Californie à Riverside.
Génomique personnelle
Melissa Gymrek est l'une des nombreuses professeures sur le campus qui utilisent la plateforme de science des données/apprentissage automatique de l'Université de Californie à San Diego (UCSan Diego), et elle est professeure au Département d'informatique et d'ingénierie et au Département de génétique du Département de médecine.
Ses étudiants écrivent et exécutent du code dans un environnement logiciel appelé Jupyter Notebook, qui fonctionne sur la plate-forme de l'Université de Californie à San Diego. « Ils peuvent écrire le code dans leur carnet, appuyer sur Exécuter et voir le résultat. Ils peuvent construire des chiffres pour visualiser les données. Nous nous concentrons désormais davantage sur la visualisation des données», explique Gymrek.
L'un des milliers d'étudiants de l'Université de Californie à San Diego qui utilisent largement la plateforme est Xuan Zhang. Grâce au cours intensif de données et de visualisation de CSE284, Zhang s'est rendu compte que le centre de son doctorat en chimie était les structures génétiques d'ordre supérieur. Les dissertations – R-loops – peuvent être modulées par de courtes répétitions en tandem (STR), qui sont au centre de la plupart des recherches du laboratoire Gymrek. Sans l'infrastructure informatique qui résout les problèmes du curriculum du monde réel, Zhang pense qu'elle ne sera pas associée à la recherche.
Après avoir suivi le cours de Gymrek, Zhang a également réalisé qu'elle pouvait postuler pour obtenir son propre profil de recherche indépendant sur la plateforme de science des données/apprentissage automatique de l'Université de Californie à San Diego afin de conserver l'accès à tous les cours et de continuer à les développer. (Lorsque les Notebooks Jupyter sont hébergés sur Business Cloud, les étudiants n'ont généralement pas accès à leurs cours intensifs de données à la fin du cours, À moins qu'ils ne téléchargent eux-mêmes les données.)
« Je pensais que ce n'était que pour les cours, mais j'ai réalisé que les carnets Jupyter pouvaient être utilisés pour la recherche sans perdre l'accès au Jupyterhub de l'Université de Californie à San Diego », a déclaré Zhang.
Cette infrastructure éducative a également profité aux professeurs.
« Avec ces carnets Jupyter, vous pouvez intégrer automatiquement le système de notation. Cela permet d'économiser beaucoup de travail », a déclaré Kinrick. Vous pouvez spécifier combien de points un étudiant obtient s'il obtient le bon code, explique-t-elle. Avant d'utiliser le système, les étudiants envoient des fichiers PDF des ensembles d'exercices aux étudiants, ce qui rend la notation plus longue. « Il est difficile de dépasser une douzaine d'étudiants. Maintenant, vous pouvez zoomer ", a déclaré Kinrick. En effet, elle a pu étendre les cours de sa classe postuniversitaire en génomique individuelle à plus de 50 étudiants, contre une douzaine avant d'acquérir ces nouveaux outils.
Les devoirs et les notes peuvent désormais être téléchargés directement sur Canvas, le système de gestion de l'apprentissage du campus.
« La plateforme est en train de transformer réellement l'éducation. Contrairement à de nombreuses innovations technologiques d'apprentissage, les classes de chaque département de l'Université de Californie à San Diego utilisent des plateformes de science des données/apprentissage automatique. Des milliers d'étudiants l'utilisent chaque année. C'est une innovation qui a un impact réel et qui prépare nos étudiants dans de nombreux domaines – parfois inattendus – à devenir des leaders et des innovateurs lorsqu'ils obtiendront leur diplôme », a déclaré M. Polichar.
Matériel de base pour la recherche et l'éducation
« Si vous construisez des supercalculateurs distribués sur du matériel commercial, comme PRP, alors vous pouvez suivre la loi de Moore », explique Smarr.
Conformément à cette stratégie matérielle commerciale, Smarr et ses collaborateurs PRP ont développé des conceptions matérielles avec des performances améliorées et des prix réduits. Le composant informatique développé par PRP et réutilisé par ITS à l'Université de Californie à San Diego est un PC rack contenant un processeur multicœur, huit unités de traitement graphique (GPU) et optimisé pour les projets à forte intensité de données, y compris l'accélération de l'apprentissage automatique sur le GPU. Ces PC utilisent un large éventail de logiciels de pointe qui aident les étudiants à écrire des programmes système, à enregistrer les résultats sur des ordinateurs portables Jupyter et à exécuter divers algorithmes d'analyse de données et d'apprentissage automatique pour leurs problèmes.
En se basant sur cette approche matérielle commerciale du calcul haute performance, l'Université de Californie à San Diego a construit un écosystème dynamique et innovant « in situ » pour les cours à forte intensité de données et de calcul, plutôt que de s'appuyer uniquement sur des services de cloud computing commerciaux.
"Business Cloud ne fournit pas un écosystème où les étudiants ont la même plate-forme entre les cours, ou ils ont la même plate-forme dans les cours que dans la recherche", a déclaré Tilghman. « Cela est particulièrement vrai dans le domaine des études supérieures, où les étudiants commencent à travailler dans le cadre du curriculum, puis continuent à travailler dans le cadre de la recherche. C'est la continuité, même depuis les premières années du premier cycle jusqu'à nos jours. Je pense que c'est l'un des atouts innovants de l'Université de Californie à San Diego. "
Les professeurs et étudiants de l'Université de Californie à San Diego sont intéressés à en savoir plus sur les plateformes de science des données/apprentissage automatique et peuvent trouver plus de détails et de coordonnées sur leur site Web.
« Je fais ça depuis 50 ans », dit Small. « Je ne sais pas combien d'exemples j'ai vu la recherche et l'éducation si étroitement liées dans un cercle. "
Cette combinaison de recherche et d'éducation a insufflé de la vitalité à la culture d'innovation et de pertinence de l'Université de Californie à San Diego.
Albert P. Pisano, doyen de la Jacobs School of Engineering de l'Université de Californie à San Diego, a déclaré: « Que ce soit dans l'industrie, le monde universitaire ou le secteur public, les étudiants sur le campus doivent étudier et travailler sur une infrastructure informatique pertinente pour leur avenir, ce qui est essentiel pour le pays ». « Ces écosystèmes informatiques créés et déployés sur les campus sont essentiels pour donner aux étudiants les moyens de mettre l'innovation au service de la société. "
Pour visionner une vidéo donnant un aperçu de la Plateforme de recherche du Pacifique (PRP) et un échantillon des projets de recherche qui ont été activés par la Plateforme, visitez le site Web de la Plateforme de recherche du Pacifique.
Larry Smarr est le chercheur principal du PRP et des bourses conjointes (NSF Awards OAC-1541349, OAC-1826967, CNS-1730158, CNS-2100237), qui sont gérées par le Qualcomm Institute, division Calit2 de l ' Université de Californie à San Diego.