EVENTO
Otimizando a execução paralela de workflows científicos sobre grande volumes de Dados
Tipo de evento: Exame de Qualificação
A ciência moderna tem de lidar com enormes quantidades de dados experimentais produzidos por meio da observação empírica e da simulação. Esses dados devem ser analisados para tirar novas conclusões, provar teorias científicas e produzir conhecimento. Podemos citar o tratamento de Big Data e a adoção de workflows científicos complexos e distribuídos como alguns dos desafios ao lidar com dados científicos.Em particular, a execução de workflows científicos sobre grandes volumes de dados requer estratégias que enfatizem técnicas que reduzam o volume de dados transferidos pela rede. Neste contexto, um aspecto importante é o particionamento dos dados por nós disponíveis de um cluster, como acontece na solução tradicional Map/Reduce [1]. Ocorre no entanto que esta estratégia não considera o encadeamento de atividades, características de workflows científicos. Desta forma, o objetivo desta proposta é desenvolver uma solução para particionamento de workflows científicos que seja se valha do conhecimento associado ao particionamento dos dados, considerado fixo e conhecido a priori. Tipicamente, podem-se considerar estratégias de co-locação de atividades em um mesmo nó, segundo a semântica do casamento atividade-particionamento de dados, postergando as transferências de dados. Adicionalmente, identifica-se a necessidade de um sistema de gerência de dados que seja ciente do particionamento dos dados e do modelo de execução de workflows científicos, propiciando um modelo global ótimo de execução.As soluções presentes na literatura para otimização da execução destes workflows não se baseiam na disponibilidade dos dados, como acontece com [2], [3], [4] e [5]. Este trabalho apresenta uma que privilegiar a execução local dos dados, através da análise do subconjunto destes dados que será necessário para cada tarefa, e de uma caracterização destas, baseado, por exemplo, em uma álgebra proposta. É também oferecida toda a estrutura de execução para que, após realizar o particionamento do workflow, um software possa se encarregar de distribuir as tarefas pelo ambiente de computação que será utilizado. Bibliografia:[1] D., Jeffrey, Ghemawat, S., MapReduce: Simplified Data Processing on Large ClustersOSDI'04: Sixth Symposium on Operating System Design and Implementation, 2004[2] OGASAWARA, Eduardo et al. An algebraic approach for data-centric scientific workflows. Proc. of VLDB Endowment, v. 4, n. 12, p. 1328-1339, 2011.[3] LIROZ-GISTAU, Miguel et al. Dynamic workload-based partitioning for large-scale databases. In:Database and Expert Systems Applications. Springer Berlin Heidelberg, 2012. p. 183-190.[4] LUO, Yi et al. Spark: top-k keyword query in relational databases. In:Proceedings of the 2007 ACM SIGMOD international conference on Management of data. ACM, 2007. p. 115-126.[5] ALEXANDROV, Alexander et al. The Stratosphere platform for big data analytics. The VLDB Journal, p. 1-26, 2014.
Data Início: 29/04/2015 Hora: 09:00 Data Fim: 29/04/2015 Hora: 12:00
Local: LNCC - Laboratório Nacional de Computação Ciêntifica - Auditorio A
Aluno: Daniel Gaspar Gonçalves de Souza - Universidade Católica de Petrópolis - UCP
Orientador: Fabio Andre Machado Porto - Laboratório Nacional de Computação Científica - LNCC
Participante Banca Examinadora: Antônio Tadeu Azevedo Gomes - Laboratório Nacional de Computação Científica - LNCC Artur Ziviani - Laboratório Nacional de Computação Científica - LNCC Bruno Richard Schulze - Laboratório Nacional de Computação Científica - LNCC