Gerenciando modelos como series espaço-temporais incertas
Tipo de evento:
Exame de Qualificação
A tomada de decisões baseada nos dados tem demostrado ser uma abordagem promissora na pesquisa científica e em diversas áreas da ciência. Esta nova abordagem científica, guiada pelos dados, permite responder à perguntas específicas analisando grandes conjuntos de informação.Um dominio de aplicação, que serve de exemplo desta nova ciência, é a meteorologia. Parâmetros ambientais são monitorados durante todo o ano, em diferentes regiões do país e, usados como entradas em modelos desenvolvidos para prever a chuva, a temperatura, etc. A partir dessas observações, modelos computacionais de previsão meteorológicas produzem um conjunto de séries de previsões no tempo, cujas variações podem ser interpretadas como incerteza na previsão do fenômeno. No contexto em que tais modelos e seus parâmetros inciais sejam conhecidos, uma estratégia para medir a incerteza associada às previsões foi desenvolvida em [Gonçalves & Porto 2014], onde cada modelo é analisado como uma possível hipóteses de solução. Neste caso a incerteza de cada hipóteses (modelo ou função) é calculada através de uma análise causal das dependências funcionais entre as variáveis envolvidas o que revela relações interessantes. No entanto, a análise se faz desde o ponto de vista multidimensional e não espaço-temporal, onde as variáveis são analisadas de acordo com o comportamento dos padrões espaciais e temporais. O objetivo desta tese é o caso particular onde não são conhecidos o modelo, nem os parâmetros usados para sua inicialização. Neste contexto, as séries de previsões geradas pelo uso de vários modelos, pode ser representada através de uma única série temporal incerta onde para cada instante de tempo existe mais de um valor possível, ao que pode ser associado um nivel de probabilidade através de uma função de distribução (pdf) ou uma medida de similitude. Se define então uma série temporal incerta como:Definição 1 (Série Temporal Incerta) [Abfalg et al., 2009]: uma série temporal incerta X de comprimento n consiste em uma sequência de n elementos, onde cada elemento Xt contem um conjunto de pontos d-dimensional s (observações), i.e. Xt = {xt,1, xt,2, ..., xt,s} com xt,i ϵ d. Onde s é o tamanho da amostra X. A figura 1 apresenta um exemplo de série temporal incerta em 2.Figure 2: Exemplo de uma série temporal incerta in . Font: (Dallachiesa, 2012) Os fenômenos de interesse são aqueles cujo monitoramento e interpretação se fazem segundo sua distribuição no espaço e no tempo, sendo melhor explicados através de uma representação espaço-temporal. Por essa razão, estende-se o conceito de série temporal incerta à series espaço-temporal incertas, como uma nova estrutura para representar o problema em estudo.Definição 2 (Série espaço-temporal incerta - SETI): Uma SETI é uma série espaço-temporal onde para cada instante de tempo t e posição espacial (x,y,z), múltiplos valores vi,j de v existem. Dessa forma v={( v1, 1, v1, 2,.., v1, m), ( v2, 1, v2, 2,.., v2, m),
,( vm, 1, vm, 2,.., vm, n)}.A estratégia desenvolvida em [Gonçalves & Porto 2014] toma como base para a avaliação da incerteza, aquelas primitivas determinadas pela variação paramétrica em diferentes tentativas experimentais, e a sua influência nas predições, considerando-se o grafo de dependência entre variáveis das equações, obtidas na análise sintática destas últimas.Este trabalho avança no problema da representação da incerteza em dados de predição, considerando o contexto onde os modelos de predição não estão disponíveis em sua forma matemática, e sim através dos dados por eles computados. Neste contexto, exploramos as características mais fundamentais expressas nos dados, como sua indexação nas dimensões espaço-temporais.Considerando-se a estrutura de dados expressa na Definição 2 acima para a representação da incerteza como séries espaço-temporais, o objetivo deste trabalho é determinar técnicas para caracterizar a qualidade de modelos de predição, tendo como base, métricas que incluam sua incerteza e permitindo o ranqueamento dos modelos.A utilização desta nova série, como forma de representação das previsões dos modelos poderá conduzir à descoberta de padrões de observação interessante e à delimitação de regiões com comportamento similar e ajudaria no filtrado de dados de interesse, a redução do problema e a seleção. Bibliografia:o Antova L., Jansen T., Koch C., Olteanu D., Fast and Simple Relational Processing of Uncertain Data, ICDE, 2008.o Aßfalg J., Kriegel H., Kroger P., Renz M.. 2009. Probabilistic Similarity Search for Uncertain Time Series. SSDBM. 2009.o Berndt D. J, Clifford J.. 1994. Using Dynamic Time Warping to Find Patterns in Time Series. KDD´94. 1994, pp. 359-369.o Dallachiesa M., Nushi B., Mirylenka K., Palpanas T.. 2012. Uncertain TimeSeries: Return to the Basics. VLDB. 2012, Vol. 5, 11. Dufek, A. S., 2015. Aplicação da Computação Evolutiva na Previsão Quantitativa de Chuva por Conjunto. PhD Thesis, LNCC, Petrópolis, Rio de Janeiro, 2015.o Faloutsos, C.. 1994. Fast Subsequence Matching in Time-Series Databases. ACM. 1994, 0-89791-839-5/94/0005.o Gonçalves, B., Porto, F., 2014, Upsilon-DB: Managing Scientific Hypothesis as uncertain data, PVLDB, 7 (11), 956-962, 2014o Magnani M., Montesi D. 2005. Uncertainty in data integration: current approaches and open problems. 2005, doi:10.1.1.95.9931.o Orang M., Shiri N. 2014. An Experimental Evaluation of Similarity Measures for Uncertain Time Series. Porto, Portugal : ACM, 2014. IDEAS14. 10.1145/2628194.2628207.o Sarangi S R., Murthy K. 2010. DUST: A Generalized Notion of Similarity between Uncertain Time Series. ACM. KDD´10, 2010.o Sentz K., Ferson S. 2002. Combination of Evidence in Dempster-Shafer Theory. SANDIA REPORT. 2002, April 2002.o Suciu D., Olteanu D., Ré C., Koch C. 2011. Probabilistic Databases. 2011. Vol. 3. doi:10.2200/S00362ED1V01Y201105DTM016.o Wang Y., Li X., Li X., Wang Y. 2013. A survey of queries over uncertain data. Springer. April, 2013, 10.1007/s10115-013-0638-6.o Yeh M., Wu K., Yu P. S.. 2009. PROUD: A Probabilistic Approach to Processing Similarity Queries over Uncertain Data Streams. ACM. 2009.Yi B., Faloutsos C.. 2000. Fast Time Sequence Indexing for Arbitrary Lp Norms. Proceedings of the 26th VLDB Conference. 2000.
Data Início: 23/11/2015
Hora: 14:00
Data Fim: 23/11/2015
Hora: 17:00
Local:
LNCC - Laboratório Nacional de Computação Ciêntifica - Auditorio B
Aluno:
Yania Molina Souto - Laboratório Nacional de Computação Científica - LNCC
Orientador:
Ana Maria de Carvalho Moura - Instituto Militar Engenharia - IME
Fabio Andre Machado Porto - Laboratório Nacional de Computação Científica - LNCC
Participante Banca Examinadora:
André da Motta Salles Barreto - GOOGLE -
Artur Ziviani - Laboratório Nacional de Computação Científica - LNCC
Pedro Leite da Silva Dias - - IAG/USP