LNCC

Data-driven IA: a memory efficient coreset selection strategy for machine learning training

Tipo de evento:
Seminário de Avaliação - Série A

A construção de modelos de aprendizado de máquina depende criticamente da qualidade dos dados de entrada para o treinamento. É necessário que representem de forma eficiente os padrões essenciais do domínio do problema. Tradicionalmente, modelos são treinados em datasets completos, supondo que todos os registros contribuem igualmente para o aprendizado. No entanto, essa abordagem ignora a presença de redundâncias e ruídos, levando a custos computacionais excessivos sem ganhos proporcionais em acurácia. O cerne do desafio está em identificar e extrair um subconjunto mínimo de instâncias (coreset) que preserve a capacidade do modelo de generalizar para dados não vistos. A seleção de coresets busca então curar os dados de entrada, priorizando elementos mais relevantes ao aprendizado de uma determinada tarefa. Há evidências empíricas sobre a eficácia de estratégias de seleção de exemplos presentes na literatura especializada e sua principal contribuição é construir modelos sobre uma fração dos dados originais, sem a perda significativa de desempenho. Métodos atuais para construção desses subconjuntos, como GradMatch e Craig, dependem de estratégias computacionalmente intensivas, como cálculos de similaridade entre cada elemento de um conjunto, o que pode adicionar ao processo complexidade quadrática ao processo de seleção. Outro conjunto de estratégias parte do uso de modelos auxiliares. É permitido com isso a avaliação do impacto de cada elemento durante o treinamento. Assim, podemos identificar, dentre as instâncias, àquelas mais difíceis a serem aprendidas. Isso limita sua aplicação para cenários de larga escala, onde o próprio processo de seleção se torna um gargalo. No geral, técnicas de seleção de coreset sofrem de duas limitações:
● Dependência de modelos auxiliares: Algumas soluções exigem o pré-treinamento de um modelo sobre o conjunto de dados completo para avaliar a relevância dos exemplos, replicando o custo que se busca evitar.
● Complexidade algorítmica: Métodos baseados no cálculo de similaridade tornam-se inviáveis em datasets de grande escala, exigindo a adoção de heurísticas para que sejam exequíveis.
A presente tese aborda o seguinte questionamento: como selecionar um subconjunto, sem sacrificar significativamente a qualidade do treinamento, e de maneira escalável?. Para tanto, exploramos as mais diversas soluções com o objetivo de caracterizar suas propriedades e limitações. Propomos FREDDY, um algoritmo de seleção de instâncias de treinamento cujo objetivo é selecionar exemplos de treinamento para compor um subconjunto, através de um processo que se adapte aos recursos computacionais disponíveis, independente do tamanho do conjunto de dados. A solução é composta pelos seguintes passos: Primeiro, particionamos o dataset em regiões menores, diminuindo assim a necessidade de memória.
O subconjunto selecionado contém os elementos que minimizam o erro preditivo, ao mesmo tempo que preserva a diversidade dos dados originais e a generalização do modelo treinado para exemplos não vistos.
Ao evitar cálculos em escala global e dispensar modelos auxiliares, o FREDDY reduz a complexidade inerente à seleção de exemplos. Sua estratégia de "dividir-para-selecionar" permite paralelização massiva e operação em ambientes com memória limitada (ex.: GPUs de baixo custo).
Resultado-chave: Em benchmarks tabulares como covtype (500.000 instâncias), Freddy foi capaz de reduzir o tempo de seleção em 56x, permitindo a seleção e o treinamento de modelos em um computador pessoal. O tempo médio de seleção foi de 30 segundos, já o método de referência performou com tempo médio de 1700 segundos. Já em benchmarks como cifar10, FREDDY demonstrou reduções de 4x no tempo combinado de treinamento e seleção em relação ao método de referência, alcançando acurácia de 70% com apenas 10% do volume de dados original.

Para assistir acesse:
meet.google.com/ehr-drvo-dfn

Data Início: 03/07/2025
Hora: 10:00
Data Fim: 03/07/2025
Hora: 12:00

Local: LNCC - Laboratório Nacional de Computação Ciêntifica - Virtual

Aluno:
Victor de Paula Dornellas Ribeiro - - LNCC

Orientador:
Eduardo Henrique Monteiro Pena - Universidade Tecnológica Federal do Paraná - UTFPR
Fabio Andre Machado Porto - Laboratório Nacional de Computação Científica - LNCC

Participante Banca Examinadora:
Fabio André Machado Porto - Laboratório Nacional de Computação Científica - LNCC
Gilson Antônio Giraldi - Laboratório Nacional de Computação Científica - LNCC
Patrick Valduriez - INRIA - FRA

Suplente Banca Examinadora:
Antônio Tadeu Azevedo Gomes - Laboratório Nacional de Computação Científica - LNCC

Últimas eventos

O LNCC

Coordenações

Pesquisa e Desenvolvimento

Supercomputador SDUMONT - Computação de Alto Desempenho

Programas Nacionais

Inovação

Programas Acadêmicos

Eventos

Biblioteca

Acesso à Informação

EVENTO

Data-driven IA: a memory efficient coreset selection strategy for machine learning training

Principal

Acesso à Informação

Serviços

Redes Sociais

Navegação