• Portal do Governo Brasileiro
  • Atualize sua Barra de Governo
  • Ir para o conteúdo 1
  • Ir para o menu 2
  • Ir para a busca 3
  • Ir para o rodapé 4
  • Acessibilidade
  • Alto Contraste
  • Mapa do Site
Topo
Laboratório Nacional de Computação Científica

LNCC

Ministério da Ciência, Tecnologia e Inovações
Instagram Linkedin Facebook YouTube
  • SDumont
  • Imprensa
  • SEI-MCTI
  • Webmail
  • Intranet
  • Fale Conosco
Destaques Result. Programas PCI-LNCC Resultado Final do 1º Processo Seletivo de 2021 Guia de Conduta
logo

O LNCC

  • Histórico
  • Missão
  • Estrutura Organizacional
  • Corpo Técnico Científico
  • Documentos Institucionais
  • Localização

Coordenações

  • Coordenação de Métodos Matemáticos e Computacionais - COMAC
  • Coordenação de Modelagem Computacional - COMOD
  • Coordenação de Pós-graduação e Aperfeiçoamento - COPGA
  • Coordenação de Tecnologia da Informação e Comunicação - COTIC
  • Coordenação de Gestão e Administração - COGEA

Pesquisa e Desenvolvimento

  • Linhas de Pesquisa
  • Produção Técnico-Científica
  • Projetos de P & D
  • Grupos de Pesquisa

Supercomputador SDUMONT - Computação de Alto Desempenho

  • Supercomputador Santos Dumont
  • CENAPAD
  • SINAPAD

Programas Nacionais

  • INCT-MACC
  • LABINFO
  • SINAPAD

Inovação

  • Incubadora
  • NitRio
  • Soluções para Empresas

Programas  Acadêmicos

  • Mestrado e Doutorado
  • Programa de Verão
  • Bolsas de Estudos

Eventos

Biblioteca

  • Biblioteca

Acesso à Informação

  • Institucional
  • Ações e Programas
  • Participação Social
  • Auditorias
  • Receitas e Despesas
  • Licitações, Contratos e Convênios
  • Servidores
  • Informações Classificadas
  • Serviço de Informação ao Cidadão - SIC
  • Perguntas Frequentes
  • Dados Abertos
  • Gestão Documental
  • Agenda do Diretor
  • Carta de serviço ao Cidadão
  • Sobre a Lei de Acesso à Informação
  • Assessoria de Comunicação
  • Ouvidoria
  • Comissão de Ética
  • Gestão de Riscos
  • Guia de Conduta
  • LGPD
 

EVENTO



Optimizing Data Augmentation to Improve AI model performance

Tipo de evento:
Defesa de Dissertação de Mestrado


The accuracy of Machine Learning (ML) based classification algorithms is highly dependent on the quality of the training dataset that the corresponding ML model's have been submitted to, as well as on how much the dataset represents the problem being analyzed. However, many research topics have classification problems in which the examples distribution may vary widely, and in which specific classes may be strongly underrepresented (such as patient-specific medicine), or training data may be scarce (such as plant species classification), leading to unbalanced datasets. In both scenarios, this may result in a poor model's efficiency. Data Augmentation Techniques try to mitigate this problem, by expanding the available training data in order to increase models performance. In this work, we present two novel techniques for data augmentation over tabular data. First, we present a method denominated SAGAD (Synthetic Data Generator for Tabular Datasets), which is based on the concept of conditional entropy. SAGAD can balance minority classes, at the same time increasing the overall size of the training set. Next, we present an extension of SAGAD for iterative learning algorithms, called DABEL (Data Generation Based on Complexity per Classes), which iteratively produces new training data samples based on class ambiguity. To validate our proposal, we simulated a small data scenario by using datasets well known in literature and also evaluated our methods on real world data. We evaluated SAGAD using four machine learning algorithms and DABEL using a neural network model. To measure our method's performance, we developed a baseline use-case in which models are trained on small data, comparing both SAGAD and DABEL to it. We also tested other data augmentation techniques, against SAGAD. SAGAD is implemented and available via AugmenteR(S. Pereira; ferreira da silva; Porto, 2021), which is an R package in CRAN, for data augmentation which currently has more than 1610 downloads. .

Para assistir acesse: https://us06web.zoom.us/j/83528747834

Data Início: 30/08/2021
Hora: 14:00
Data Fim: 30/08/2021
Hora: 17:00

Local:  LNCC - Laboratório Nacional de Computação Ciêntifica - Webinar

Aluno:
Henrique Matheus Ferreira da Silva - - LNCC

Orientador:
Fabio André Machado Porto - Laboratório Nacional de Computação Científica - LNCC

Participante Banca Examinadora:
Eduardo Bezerra da Silva - Centro Federal de Educação Tecnológica Celso Suckow da Fonseca - CEFET-RJ
Fabio André Machado Porto - Laboratório Nacional de Computação Científica - LNCC
Marisa Fabiana Nicolás - Laboratório Nacional de Computação Científica - LNCC

Suplente Banca Examinadora:
Luiz Manoel Rocha Gadelha Júnior - German Cancer Research Center - DKFZ
Marcel de Moraes Pedroso - - FIOCRUZ


Últimas eventos

  •   Principal
  •   Hotéis/Pousadas
  •   Área do Inscrito
 
 Voltar para o topo
Rodapé

Principal

  • Estrutura Organizacional
  • Corpo Técnico Científico
  • Produção Técnico-Científica
  • Projetos de P & D
  • Mestrado e Doutorado
  • Bolsas de Estudos
  • Seminários
  • Congressos / Escolas / Cursos
  • Biblioteca

Acesso à Informação

  • Institucional
  • Ações e Programas
  • Participação Social
  • Auditorias
  • Receitas e Despesas
  • Licitações, Contratos e Convênios
  • Servidores
  • Informações Classificadas
  • Serviço de Informação ao Cidadão - SIC
  • Perguntas Frequentes
  • Dados Abertos
  • Gestão Documental
  • Agenda do Diretor
  • Carta de serviço ao Cidadão
  • Sobre a Lei de Acesso à Informação
  • Ouvidoria
  • Comissão de Ética
  • Gestão de Riscos
  • Guia de Conduta

Serviços

  • Fale Conosco
  • Assessoria de Comunicação

Redes Sociais

  • Instagram
  • Linkedin
  • Facebook
  • YouTube

Navegação

  • Acessibilidade
  • Mapa do Site

Brasil - Governo Federal   Brasil - Governo Federal