Olá GTEX,

Muito obrigado pelo seu interesse no problema! O meu objetivo pra esse projeto é elaborar um conjunto de equações pra modelar o nível de ativação de genes - eu até já fiz uns posts introduzindo o pré-tratamento de dados aqui (e, dependendo do andar da carruagem, tem mais pra postar aqui também, é só arranjar um tempinho depois do trampo). Pelo fato de que cada experimento resulta em centenas de genes que respondem, o sistema vai ter centenas de variáveis.

Eu pessoalmente escolhi SVR porque ela permite fazer regressões não-lineares. Já tem bastante trabalho mostrando que as interações em redes biológicas são não-lineares e que isso precisa ser levado em conta. Especialmente, SVR tem praticamente a mesma complexidade de tempo se eu quiser testar vários polinômios de graus diferentes (por exemplo, nível do gene elevado ao cubo ou à sexta potência). Aqui vai um trabalho interessante que entra nesse mérito, mas eles fazem uma inferência linear a partir de uma tabela expandida só... https://doi.org/10.1109/TMBMC.2016.2633265

Essa imagem aqui ilustra bem o processo:

Maaaaas, ouvir ideias novas sempre ajuda! Se vc sentir que uma outra proposta pode ser interessante, estou super aberto a sugestões. Algo a mais: ter equações na forma de polinômios me atrai porque eu também tenho interesse em encontrar pontos de equiĺibrio do sistema (por exemplo, um estado de ativação de genes que é estável - com derivada igual a zero). Ter uma função polinomial vai ajudar bastante na parte de derivar as euquações do sistema.

Abraço!

Bom dia lljotall,

Obrigado por dar mais informações.

Eu não sou expert no assunto relacionado a genes, porém modelos não lineares têm bastante no mercado.

O Support Vector "Machine" é um modelo linear que tem um Kernel trick, mas existem muitos modelos que robustos como o XGBoost Regressor que poderia auxiliar no seu problema.

Além disso poderia tratar as variáveis de maneira polinomial para depois aplicar um linear https://www.analyticsvidhya.com/blog/2021/07/all-you-need-to-know-about-polynomial-regression/#:~:text=A%20polynomial%20regression%20model%20is,the%20complexity%20of%20the%20relationship.

E acho que é um melhor guia, porque os Support Vectors são modelos "black box", precisaria usar um SHAP ou algo similar para poder explicar, dificultando a interpretação.