Na maneira clássica da Universidade da Califórnia, em San Diego, uma conversa que foi inadvertidamente ouvida no café do campus tornou-se um projeto interdisciplinar, tornando os cursos intensivos em computação ainda mais empolgantes e economizando mais de US $1 milhão até o momento. Esse esforço fornece melhores ecossistemas de hardware e software para alunos de pós-graduação e graduação da Universidade da Califórnia, em San Diego, e seus professores para explorar questões em projetos e cursos do mundo real, intensivos em dados e intensivos em computação.
Tudo começou há mais de três anos, quando Larry Smarr, professor de ciência da computação e engenharia da Universidade da Califórnia, em San Diego, esperou por café no quintal "Bear" da Jacobs Engineering School. Na fila, Smarr acidentalmente ouviu um aluno dizer: "Se eu não executasse o TensorFlow na GPU para resolver um problema real, não conseguiria uma entrevista de emprego. "
Embora o problema deste aluno possa parecer muito técnico e altamente específico, Smar ouviu uma demanda geral; Ele viu uma oportunidade. Em particular, a Smarr está ciente de que a inovação do projeto de pesquisa financiado pela National Science Foundation (NSF), a Pacific Research Platform (PRP), que ele lidera, pode ser usada para criar uma melhor infra-estrutura de computação para cursos universitários que dependem fortemente de aprendizado de máquina, visualização de dados e outros temas que exigem grandes recursos computacionais. Essa infraestrutura tornará mais fácil para os professores oferecer cursos que desafiam os alunos a resolver problemas de dados e computação intensiva no mundo real, incluindo o que ele ouviu no carro de café: Execute o TensorFlow na GPU para resolver problemas práticos.
Avançando para 2022, uma centelha de pensamento da Smarr se transformou em uma parceria entre campi chamada Plataforma de Ciência de Dados/Aprendizagem de Máquinas da Universidade da Califórnia em San Diego ou a Universidade da Califórnia em San Diego JupyterHub. Através desta plataforma, Os blocos de computação de baixo custo e alto desempenho projetados pela Smarr e seus colaboradores da PRP para pesquisas nacionais intensivas em computação, combinados com hardware e software, são agora a espinha dorsal de um ecossistema de computação dinâmica para estudantes e professores da Universidade da Califórnia, em San Diego, usando aprendizado de máquina, visualização de dados e outras ferramentas de computação e uso intensivo de dados. A plataforma tem sido amplamente utilizada em vários departamentos do campus, incluindo o ensino de ciências biológicas, ciências cognitivas, ciência da computação, ciência dos dados, engenharia, ciências da saúde, ciências marinhas, medicina, música, ciências físicas, saúde pública e outros cursos.
Este é um projeto colaborativo exclusivo que utiliza inovações de pesquisa computacional financiadas pelo governo federal para uso em sala de aula. A fim de dar um salto da pesquisa para as aplicações em sala de aula, uma equipe interdisciplinar criativa e diligente da Universidade da Califórnia, em San Diego, se uniu. Os serviços de tecnologia da informação/serviços de tecnologia acadêmica da Universidade da Califórnia, em San Diego, aumentaram significativamente. O arquiteto sênior Adam Tilghman e o programador David Andersen lideraram a implementação com a liderança e o apoio financeiro do diretor de informações da Universidade da Califórnia, em San Diego, Vince Kellen, e da diretora sênior de tecnologia acadêmica Valerie Polichar. Kellen disse que o projeto ajudou o campus a evitar mais de US $1 milhão em gastos com computação em nuvem.
Ao mesmo tempo, o projeto fornece ferramentas para a comunidade da Universidade da Califórnia, em San Diego, para incentivar estudantes e ideias a se deslocarem entre projetos de sala de aula e projetos de pesquisa de acompanhamento.
"Nossos alunos estão ganhando o mesmo nível de poder computacional que os pesquisadores que normalmente usam apenas sistemas avançados, como supercomputadores. Os alunos estão explorando questões de dados mais complexas porque podem ", disse Smar, também diretor fundador do Instituto de Telecomunicações e Tecnologia da Informação da Califórnia (Calit2), um parceiro da Universidade da Califórnia, San Diego/Universidade da Califórnia, Irvine. Calit2 está agora se expandindo, incluindo a Universidade da Califórnia, Riverside.
Genômica pessoal
Melissa Gymrek é uma das muitas professoras do campus que usa a plataforma de ciência de dados/aprendizado de máquina da Universidade da Califórnia, em San Diego, professora do Departamento de Ciência da Computação e Engenharia e do Departamento de Genética Médica.
Seus alunos escrevem e executam código em um ambiente de software chamado Jupyter Notebook, que é executado em uma plataforma na Universidade da Califórnia, em San Diego. "Eles podem escrever o código no notebook e pressionar para executá-lo para ver os resultados. Eles podem criar números para visualizar dados. Agora estamos prestando mais atenção à visualização de dados ", disse Gymrek.
Um dos milhares de estudantes da Universidade da Califórnia em San Diego que usam amplamente a plataforma é Zhang Wei. Através dos dados e cursos intensivos de visualização no CSE284, Zhang percebeu que o centro de seu Ph.D. em química é uma estrutura genética de alta ordem. Dissertação-R-loops-pode ser ajustada por repetições curtas em tandem (STRs), que são o centro da maioria dos estudos no laboratório Gymrek. Se não houver infraestrutura computacional para resolver problemas curriculares do mundo real, Zhang acredita que ela não será associada à pesquisa.
Depois de participar do curso de Gymrek, Zhang também percebeu que poderia se inscrever para sua própria visão geral de pesquisa independente na plataforma de ciência de dados/aprendizado de máquina da Universidade da Califórnia, em San Diego, para manter o acesso a todos os cursos e continuar a se desenvolver nessa base. (Quando um notebook Jupyter é hospedado em uma nuvem de negócios, os alunos geralmente não podem acessar seus cursos de aprimoramento de dados no final do curso. A menos que eles baixem seus próprios dados.)
"Eu pensei que era apenas para o curso, mas depois percebi que o notebook Jupyter poderia ser usado para pesquisa sem perder a visita através da Universidade da Califórnia, em San Diego", disse Zhang.
Essa infraestrutura educacional também traz benefícios para os professores.
“Com esses notebooks Jupyter, você pode incorporar automaticamente o sistema de pontuação. Isso economiza muito trabalho ", disse Jin Rick. Você pode especificar quantos pontos um aluno recebe e, se obtiver o código correto, ela explica. Antes de usar o sistema, os alunos enviam arquivos PDF do conjunto de problemas para os alunos, o que torna a pontuação mais demorada.“É difícil ter mais de uma dúzia de alunos. Agora você pode dimensionar ", disse Jin Rick. Na verdade, ela conseguiu expandir seu programa de pós-graduação em genômica pessoal para mais de 50 alunos, e esse número era de apenas uma dúzia antes de ela adquirir essas novas ferramentas.
Agora você também pode fazer upload de tarefas e notas diretamente para o sistema de gerenciamento de aprendizado do campus Canvas.
"A plataforma está realmente transformando a educação. Ao contrário de muitas inovações em tecnologia de aprendizagem, as classes em cada departamento da Universidade da Califórnia, em San Diego, usam plataformas de ciência de dados/aprendizado de máquina. Milhares de estudantes o usam todos os anos. Esta é uma inovação verdadeiramente influente que prepara nossos alunos para se tornarem líderes e inovadores em muitas áreas-às vezes inesperadas-", disse Polichar.
Hardware de commodities de pesquisa e educação
“Se você construir supercomputadores distribuídos em hardware de commodity, como PRP, poderá seguir a Lei de Morre”, explicou Smarr.
De acordo com essa estratégia de hardware de produto, Smarr e seus colaboradores de PRP desenvolveram projetos de hardware com melhor desempenho e menor preço. The computational building blocks developed by the PRP, that were repurposed by UC San Diego’s ITS, are rack-mounted PCs, containing multi-core CPUs, eight Graphics Processing Units (GPUs), and optimized for data-intensive projects, including accelerating machine learning on the GPUs. Esses PCs executam uma ampla gama de softwares de ponta para ajudar os alunos a escrever programas do sistema, registrar resultados no notebook Jupyter e executar vários algoritmos de análise de dados e aprendizado de máquina em seus problemas.
Com base nessa abordagem de hardware de commodities de computação de alto desempenho, a Universidade da Califórnia, em San Diego, construiu um ecossistema “on-site” dinâmico e inovador para cursos intensivos em dados e computação, em vez de depender apenas de serviços de computação em nuvem comercial.
“As nuvens de negócios não oferecem um ecossistema que permita aos alunos ter a mesma plataforma entre os cursos ou que tenham a mesma plataforma de pesquisa no curso”, disse Tilghman. "Isto é especialmente verdadeiro no campo da pós-graduação, onde os alunos começam a trabalhar no contexto do currículo e depois continuam a trabalhar no estudo. Essa é a continuidade, mesmo a partir de alunos de graduação de nível inferior, até agora. Eu acho que essa é uma das vantagens inovadoras da Universidade da Califórnia em San Diego. "
Professores e alunos da Universidade da Califórnia, em San Diego, estão interessados em aprender mais sobre a plataforma de ciência de dados/aprendizado de máquina e podem encontrar mais detalhes e informações de contato em seu site.
"-Eu faço isso há 50 anos-disse Small." "Eu não sei quantos exemplos existem. Vi que a pesquisa e a educação estão tão intimamente ligadas em um círculo. "
Essa combinação de pesquisa e educação injetou vitalidade na cultura de inovação e relevância da Universidade da Califórnia, em San Diego.
Albert P. Pisano, decano da Escola de Engenharia Jacobs da Universidade da Califórnia, em San Diego, disse: "É vital que os estudantes do campus aprendam e trabalhem na infraestrutura de computação relacionada ao seu futuro", seja na indústria, academia ou no setor público. "Esses ecossistemas de tecnologia da informação que estão sendo criados e implantados no campus são essenciais para aumentar a capacidade dos alunos de usar a inovação para servir a sociedade. "
Para ver um vídeo que fornece uma visão geral da Plataforma de Pesquisa do Pacífico (PRP) e uma amostra de projetos de pesquisa que foram ativados pela plataforma, visite o site da Plataforma de Pesquisa do Pacífico.
Larry Smarr é o principal pesquisador do PRP e do United Grants (Prêmio NSF OAC-1541349, OAC-1826967, CNS-1730158, CNS-2100237), que é o Instituto de Alta Gestão da Califórnia.