Técnicas de tolerância a falhas aplicadas a métodos numéricos geofísicos
tolerância a falhas, detecção de falhas, replicação, checkpointing, heartbeat message, watchdog, computação de alto desempenho, inversão completa da forma de onda
A computação de alto desempenho (HPC do inglês High-Performance Computing) vem crescendo e proporcionado o estudo de problemas que envolvem diversos cálculos e uma quantidade significativa de dados (como métodos geofísicos) em um tempo de execução viável. Um dos principais objetivos de uma aplicação com HPC é a escalabilidade. Em outras palavras, manter o desempenho da aplicação quando aumentado o número de nós. A escalabilidade também pode ser visto como um problema porque cada nó fornece um determinado tempo médio entre falhas (MTBF), portanto, quanto mais nós são usados, mais elevadas são as probabilidades de falha. Uma aplicação que requer computação significativa ser resiliente é uma característica essencial, e lidar com falhas é fundamental para executá-la em alguns ambientes de computação de alto desempenho (HERAULT;ROBERT, 2015). HPC tem sido empregado em métodos geofísicos para algoritmos com alta complexidade computacional, como a Inversão Completa da Forma de onda (FWI, do inglês Full Waveform Inversion). A FWI mede o modelo de velocidade de propagação da onda sísmica a partir da diferença entre os dados observados e modelados artificialmente (VIRIEUX; OPERTO, 2009). Uma falha em um subconjunto de nós pode causar uma falha irrecuperável no FWI, o que pode produzir um impacto financeiro significativo, pois pode levar vários dias ou semanas para recalcular os dados perdidos. O FWI precisa de uma técnica de tolerância a falhas (FT do inglêsFault Tolerance) para ter a capacidade de continuar rodando mesmo em caso de falhas (KHAITAN, 2016). Sistemas totalmente confiáveis são impossíveis porque as falhas são inevitáveis. No entanto, podemos reduzir as consequências das falhas aplicando técnicas adequadas (WE-BER, 2003). Este trabalho pesquisa técnicas de FT (exemplo: replicação, checkpointing, heartbeat message e watchdog) em FWI 3D para ambientes HPC.