Propostas de arquiteturas de hardware baseadas em FPGA para aceleração de algoritmos Smith-Waterman e K-Mers
Smith-Waterman, K-Mers, FPGA, Array Sistólico, Alta Taxa de Transferência, Baixo Uso de Memória..
Neste trabalho, abordamos o desafio crescente de processar eficientemente o vasto e continuamente expansivo volume de dados em bases de dados biológicas. A necessidade de técnicas de análise de sequências rápidas e precisas é mais premente do que nunca, dada a importância de identificar semelhanças entre sequências biológicas para aplicações em genômica, taxonomia e além. Central para este esforço é a otimização de algoritmos de alinhamento de sequências, particularmente o Smith-Waterman (SW), um método de alto nível de precisão baseado em programação dinâmica, e o K-Mers, uma técnica para a contagem de subsequências que é fundamental na análise genômica. Propomos uma inovadora arquitetura de hardware paralelo para o algoritmo SW, incorporando uma estrutura de array sistólico que acelera significativamente as fases de avanço e retrocesso do alinhamento. Esta arquitetura pré-organiza o alinhamento na etapa de avanço, reduzindo a complexidade do subsequente retrocesso, que é iniciado a partir da posição de pontuação máxima. Validada em Field-Programmable Gate Array (FPGA), a arquitetura alcançou uma taxa de até 79,5 Giga Cell Updates por Segundo (GCPUS), demonstrando um avanço notável na eficiência de processamento. Adicionalmente, desenvolvemos um algoritmo baseado em K-Mers focado na extração exata de subsequências curtas, caracterizado por seu baixo consumo de memória, viabilidade de tempo de execução, alta capacidade de paralelização, e eficiência energética. Destinado primariamente para uso em FPGA, o algoritmo é também adaptável a outras plataformas de hardware. Estas contribuições não apenas estabelecem novos padrões em termos de velocidade e eficiência para o processamento de dados biológicos, mas também abrem caminho para avanços significativos em pesquisas genômicas e taxonômicas, entre outras áreas de bioinformática.