Ref.: MpoMss07-001

Superando a Escassez de Dados na Predição de Tg em Polímeros: Uma Abordagem Integrada de Machine Learning com Expansão de Dados

Apresentador: Felippe Migliato Marega

Autores (Instituição): Marega, F.M.(Universidade Federal de São Carlos);

Resumo:
O avanço na aplicação de algoritmos de machine learning (ML) tem possibilitado o desenvolvimento acelerado e mais preciso de modelos preditivos para propriedades de materiais poliméricos[1]. Contudo, muitos desses algoritmos requerem uma vasta quantidade de dados, o que pode complicar o processo experimental devido à necessidade de muitas amostras. Para superar essa barreira, métodos de aumento de dados (data augmentation) têm sido empregados no intuito de ampliar as limitadas bases de dados experimentais, possibilitando a aplicação de modelos preditivos mesmo em cenários com escassez de dados[2]. Assim sendo, este estudo objetivou avaliar a eficácia das técnicas de expansão de dados quando aplicadas a uma base limitada, a fim de gerar um modelo preditivo para a temperaturas de transição vítrea (Tg) baseado nas propriedades moleculares de seus respectivos monômeros. A base de dados contendo informações polímeros e suas Tg (K) foi obtida da literatura[3] e os modelos foram desenvolvidos em Python utilizando as bibliotecas sklearn, pandas e torch. Primeiramente, descritores moleculares dos monômeros foram obtidos da biblioteca RDKit e para selecionar apenas os mais relevantes, empregou-se a metodologia least absolute shrinkage and selection operator (LASSO). A expansão da base de dados ocorreu por meio do algoritmo de Generative Adversarial Network (GAN) e aplicou-se o método Random Forest (RF) para gerar o modelo preditivo, avaliado por validação cruzada pelas métricas: coeficiente de determinação (R²) e o Erro Absoluto Médio (MAE). A utilização do método LASSO permitiu a seleção dos 8 descritores mais relevantes dentre os 200 inicialmente disponíveis, facilitando a geração de um modelo mais simples. Em seguida dados sintéticos foram gerados pelo modelo GAN, expandindo a base original para 150 registros. Utilizando o método de regressão RF, desenvolveu-se um modelo preditivo para a Tg com base nos descritores moleculares mais relevantes obtendo um R² de 0,88, MAE de 34 K com a expansão de dados, assim superando significativamente o desempenho do modelo construído com a base original que obteve R² de 0,24 , MAE de 52 K. Ou seja, aplicando os modelos para o poliisobuteno (Tg = 200K), por exemplo, obtém-se uma Tg de 227K e 203K, respectivamente, com a base original e base expandida. Portanto, a aplicação de métodos de expansão de dados apresenta um grande potencial para superar a limitação imposta pela escassez de dados no desenvolvimento de novos materiais poliméricos, possibilitando a construção de modelos preditivos mais precisos e acurados. [1] MEYER, T. A. et al. A user’s guide to machine learning for polymeric biomaterials. ACS polymers Au, v. 3, n. 2, p. 141–157, 2023. [2] HU, A. et al. Glass transition of amorphous polymeric materials informed by machine learning. APL Machine Learning, v. 1, n. 2, 2023. [3] MARK, J. E. (ED.). Physical properties of polymers handbook. New York, NY: Springer New York, 2007.