Projeto Descrição de Imagens com IA

Projeto Descrição de Imagens com IA

O projeto visa desenvolver uma aplicação utilizando inteligência artificial (IA), para descrever detalhadamente imagens, proporcionando acesso a pessoas com deficiência visual ou com dificuldade de interpretação visual. Uma aplicação desse tipo utiliza algoritmos de visão computacional e processamento de linguagem natural para identificar objetos, pessoas e interações presentes na imagem e gerar uma descrição coerente e compreensível por meio de voz.

A aplicação desenvolvida precisa ser acessível e fácil de usar, com uma interface intuitiva que permita aos usuários carregar imagens a partir de diversos dispositivos, como smartphones, tablets ou computadores. Portanto, o projeto pode ser desenvolvido como uma aplicação web, desktop ou móvel. As ferramentas, linguagens e abordagens podem ser de qualquer tipo, desde que se atinja o objetivo proposto.

Um dos principais desafios a serem enfrentados na implementação dessa aplicação é o processamento offline das imagens. Devido à complexidade dos algoritmos de visão computacional e processamento de linguagem natural, assim como à necessidade de uma quantidade significativa de recursos computacionais, o processamento das imagens pode exigir uma grande capacidade de processamento.

O objetivo final com esse projeto é proporcionar independência e inclusão às pessoas com deficiência visual, em que permite que elas tenham acesso as informações visuais de forma acessível e autônoma. Dessa forma, ao possibilitar que as pessoas com deficiência visual compreendam e interajam com o ambiente visual ao seu redor, a aplicação contribuirá significativamente para o aumento da qualidade de vida e o fortalecimento da autoconfiança.

Para o desenvolvimento da aplicação, serão utilizadas as seguintes ferramentas, materiais e bibliotecas:

Linguagem de Programação: Python, Java Script. Framework: Flask ou Django. Bibliotecas: OpenCV, TensorFlow, Keras. Outras linguagens: HTML e CSS. Ferramenta de prototipação: Figma. Obs: A partir do desenvolvimento do projeto, poderá haver alterações de linguagens e bibliotecas. Se houverem alterações, será informado.

Queria saber aqui da comunidade se teria alguma tecnoligia mas simples para implementar e também alguma informação sobre como eu poderia projetar isso offline por que isso é meu maior desafio, se alguém tiver alguma dica ficarei grato.

Projeto muito interessante, uma vez pensei em realizar um projeto que precisava analisar o conteúdo das imagens, a solução mais fácil que encontrei, foi usar a api do gpt 4, aí também poderia configurar a resposta para descrever a imagem com elementos não visuais, tempetura e ofato.

Offline já complica, pois essa análise sempre irá depender do servidor, se deixar para carregar no front end, sem o usuário ter um pc da nasa, provavelmente vai fritar o circuito ao tentar fazer algo do gênero.

Uma dúvida, é um projeto de escola ou de faculdade?

Opa tudo certo obrigado pela opinião, respondendo a pergunta projeto da minha faculdade atividade curricular, esse texto que fiz peguei uma parte da documentação que tinha feito. Mas como você disse off-line vai ser o problema vou te que bolar alguma coisa mas pelo que eu estudei por agora é bem complicado. Enquanto a biblioteca pra isso eu pensei primeiro no chatGPT4 que é pago mas por se um projeto pra uma associação não seria muito viável, o gemini poderia ser uma boa, mas por ser uma aplicação off-line nessa parte iremos manipular os algoritmos através do OpenCV.