DESENVOLVIMENTO DE TÉCNICAS DE CLASSIFICAÇÃO SUPERVISIONADA PARA DADOS QUÍMICOS MULTIVARIADOS
Quimiometria, Classificação Supervisionada, Análise Multivariada
Esta dissertação consiste de um aporte teórico sobre a construção de técnicas de classificação supervisionada para aplicações em dados químicos multivariados. Para isso, técnicas quimiométricas baseadas em análise discriminante quadrática (QDA) e máquina de vetores suporte (SVM) foram construídas em conjunto com análise de componentes principais (PCA), algoritmo de projeções sucessivas (SPA) e algoritmo genético (GA) para classificação supervisionada utilizando redução de dados e seleção de variáveis. Essas técnicas foram empregadas na análise de dados de primeira ordem, constituídos de espectros na região do infravermelho médio com transformada de Fourier e reflectância total atenuada (ATR-FTIR) e de espectros de massas obtidos por cromatografia líquida com um detector por tempo de voo (LC/TOF) e desorção/ionização por laser de superfície acoplado a um detector por tempo de voo (SELDI-TOF). Os dados de ATR-FTIR foram utilizados para diferenciar duas classes de fungos do gênero Cryptococcus, enquanto que os dados de espectrometria de massa foram utilizados para identificar câncer de ovário e de próstata em soro sanguíneo. Além disso, novas técnicas de análise discriminante bidimensionais utilizando análise de componentes principais com análise discriminante linear (2D-PCA-LDA), análise discriminante quadrática (2D-PCA-QDA) e máquina de vetores suporte (2D-PCA-SVM) forma desenvolvidas para aplicações em dados químicos de segunda ordem compostos por matrizes de excitação-emissão (EEM) por fluorescência molecular em amostras simuladas e reais. Nas amostras reais, foram feitas a diferenciação da frescura de amostras de filé de bacalhau de acordo com seus tempos de estocagem, e a diferenciação entre pacientes saudáveis e pacientes com câncer colorectal com base no plasma sanguíneo. Também, uma discriminação entre pacientes com adenomas e pacientes com câncer colorectal foi feita. Os resultados obtidos mostraram que as técnicas desenvolvidas tiveram alto desempenho classificatório tanto para os dados de primeira quanto de segunda ordem, com taxas de acerto, sensibilidade e especificidade atingindo valores entre 90 a 100%. Além disso, as técnicas bidimensionais desenvolvidas tiveram, no geral, desempenho superior do que métodos clássicos de classificação multivariada utilizando dados desdobrados, o que mostra seu potencial para outras futuras aplicações analíticas.