• Portal do Governo Brasileiro
  • Atualize sua Barra de Governo
  • Ir para o conteúdo 1
  • Ir para o menu 2
  • Ir para a busca 3
  • Ir para o rodapé 4
  • Acessibilidade
  • Alto Contraste
  • Mapa do Site
Topo
Laboratório Nacional de Computação Científica

LNCC

Ministério da Ciência, Tecnologia e Inovações
Instagram Linkedin Facebook YouTube
  • SDumont
  • Imprensa
  • SEI-MCTI
  • Webmail
  • Intranet
  • Fale Conosco
Destaques Result. Programas PCI-LNCC Resultado Final do 1º Processo Seletivo de 2021 Guia de Conduta
logo

O LNCC

  • Histórico
  • Missão
  • Estrutura Organizacional
  • Corpo Técnico Científico
  • Documentos Institucionais
  • Localização

Coordenações

  • Coordenação de Métodos Matemáticos e Computacionais - COMAC
  • Coordenação de Modelagem Computacional - COMOD
  • Coordenação de Pós-graduação e Aperfeiçoamento - COPGA
  • Coordenação de Tecnologia da Informação e Comunicação - COTIC
  • Coordenação de Gestão e Administração - COGEA

Pesquisa e Desenvolvimento

  • Linhas de Pesquisa
  • Produção Técnico-Científica
  • Projetos de P & D
  • Grupos de Pesquisa

Supercomputador SDUMONT - Computação de Alto Desempenho

  • Supercomputador Santos Dumont
  • CENAPAD
  • SINAPAD

Programas Nacionais

  • INCT-MACC
  • LABINFO
  • SINAPAD

Inovação

  • Incubadora
  • NitRio
  • Soluções para Empresas

Programas  Acadêmicos

  • Mestrado e Doutorado
  • Programa de Verão
  • Bolsas de Estudos

Eventos

Biblioteca

  • Biblioteca

Acesso à Informação

  • Institucional
  • Ações e Programas
  • Participação Social
  • Auditorias
  • Receitas e Despesas
  • Licitações, Contratos e Convênios
  • Servidores
  • Informações Classificadas
  • Serviço de Informação ao Cidadão - SIC
  • Perguntas Frequentes
  • Dados Abertos
  • Gestão Documental
  • Agenda do Diretor
  • Carta de serviço ao Cidadão
  • Sobre a Lei de Acesso à Informação
  • Assessoria de Comunicação
  • Ouvidoria
  • Comissão de Ética
  • Gestão de Riscos
  • Guia de Conduta
  • LGPD
 

EVENTO



Data-driven IA: a memory efficient coreset selection strategy for machine learning training

Tipo de evento:
Seminário de Avaliação - Série A


A construção de modelos de aprendizado de máquina depende criticamente da qualidade dos dados de entrada para o treinamento. É necessário que representem de forma eficiente os padrões essenciais do domínio do problema. Tradicionalmente, modelos são treinados em datasets completos, supondo que todos os registros contribuem igualmente para o aprendizado. No entanto, essa abordagem ignora a presença de redundâncias e ruídos, levando a custos computacionais excessivos sem ganhos proporcionais em acurácia. O cerne do desafio está em identificar e extrair um subconjunto mínimo de instâncias (coreset) que preserve a capacidade do modelo de generalizar para dados não vistos. A seleção de coresets busca então curar os dados de entrada, priorizando elementos mais relevantes ao aprendizado de uma determinada tarefa. Há evidências empíricas sobre a eficácia de estratégias de seleção de exemplos presentes na literatura especializada e sua principal contribuição é construir modelos sobre uma fração dos dados originais, sem a perda significativa de desempenho. Métodos atuais para construção desses subconjuntos, como GradMatch e Craig, dependem de estratégias computacionalmente intensivas, como cálculos de similaridade entre cada elemento de um conjunto, o que pode adicionar ao processo complexidade quadrática ao processo de seleção. Outro conjunto de estratégias parte do uso de modelos auxiliares. É permitido com isso a avaliação do impacto de cada elemento durante o treinamento. Assim, podemos identificar, dentre as instâncias, àquelas mais difíceis a serem aprendidas. Isso limita sua aplicação para cenários de larga escala, onde o próprio processo de seleção se torna um gargalo. No geral, técnicas de seleção de coreset sofrem de duas limitações:
● Dependência de modelos auxiliares: Algumas soluções exigem o pré-treinamento de um modelo sobre o conjunto de dados completo para avaliar a relevância dos exemplos, replicando o custo que se busca evitar.
● Complexidade algorítmica: Métodos baseados no cálculo de similaridade tornam-se inviáveis em datasets de grande escala, exigindo a adoção de heurísticas para que sejam exequíveis.
A presente tese aborda o seguinte questionamento: “como selecionar um subconjunto, sem sacrificar significativamente a qualidade do treinamento, e de maneira escalável?”. Para tanto, exploramos as mais diversas soluções com o objetivo de caracterizar suas propriedades e limitações. Propomos FREDDY, um algoritmo de seleção de instâncias de treinamento cujo objetivo é selecionar exemplos de treinamento para compor um subconjunto, através de um processo que se adapte aos recursos computacionais disponíveis, independente do tamanho do conjunto de dados. A solução é composta pelos seguintes passos: Primeiro, particionamos o dataset em regiões menores, diminuindo assim a necessidade de memória.
O subconjunto selecionado contém os elementos que minimizam o erro preditivo, ao mesmo tempo que preserva a diversidade dos dados originais e a generalização do modelo treinado para exemplos não vistos.
Ao evitar cálculos em escala global e dispensar modelos auxiliares, o FREDDY reduz a complexidade inerente à seleção de exemplos. Sua estratégia de "dividir-para-selecionar" permite paralelização massiva e operação em ambientes com memória limitada (ex.: GPUs de baixo custo).
Resultado-chave: Em benchmarks tabulares como covtype (500.000 instâncias), Freddy foi capaz de reduzir o tempo de seleção em 56x, permitindo a seleção e o treinamento de modelos em um computador pessoal. O tempo médio de seleção foi de 30 segundos, já o método de referência performou com tempo médio de 1700 segundos. Já em benchmarks como cifar10, FREDDY demonstrou reduções de 4x no tempo combinado de treinamento e seleção em relação ao método de referência, alcançando acurácia de 70% com apenas 10% do volume de dados original.

Para assistir acesse:
meet.google.com/ehr-drvo-dfn

Data Início: 03/07/2025
Hora: 10:00
Data Fim: 03/07/2025
Hora: 12:00

Local:  LNCC - Laboratório Nacional de Computação Ciêntifica - Virtual

Aluno:
Victor de Paula Dornellas Ribeiro - - LNCC

Orientador:
Eduardo Henrique Monteiro Pena - Universidade Tecnológica Federal do Paraná - UTFPR
Fabio Andre Machado Porto - Laboratório Nacional de Computação Científica - LNCC

Participante Banca Examinadora:
Fabio André Machado Porto - Laboratório Nacional de Computação Científica - LNCC
Gilson Antônio Giraldi - Laboratório Nacional de Computação Científica - LNCC
Patrick Valduriez - INRIA - FRA

Suplente Banca Examinadora:
Antônio Tadeu Azevedo Gomes - Laboratório Nacional de Computação Científica - LNCC


Últimas eventos

  •   Principal
  •   Hotéis/Pousadas
  •   Área do Inscrito
 
 Voltar para o topo
Rodapé

Principal

  • Estrutura Organizacional
  • Corpo Técnico Científico
  • Produção Técnico-Científica
  • Projetos de P & D
  • Mestrado e Doutorado
  • Bolsas de Estudos
  • Seminários
  • Congressos / Escolas / Cursos
  • Biblioteca

Acesso à Informação

  • Institucional
  • Ações e Programas
  • Participação Social
  • Auditorias
  • Receitas e Despesas
  • Licitações, Contratos e Convênios
  • Servidores
  • Informações Classificadas
  • Serviço de Informação ao Cidadão - SIC
  • Perguntas Frequentes
  • Dados Abertos
  • Gestão Documental
  • Agenda do Diretor
  • Carta de serviço ao Cidadão
  • Sobre a Lei de Acesso à Informação
  • Ouvidoria
  • Comissão de Ética
  • Gestão de Riscos
  • Guia de Conduta

Serviços

  • Fale Conosco
  • Assessoria de Comunicação

Redes Sociais

  • Instagram
  • Linkedin
  • Facebook
  • YouTube

Navegação

  • Acessibilidade
  • Mapa do Site

Brasil - Governo Federal   Brasil - Governo Federal