A questão de dados sensíveis nesse assunto é realmente muito importante, pois o ideal é que não haja meios de identificar as vitimas, pois isso poderia piorar a situação delas.
Entretanto, existem bastante dados e estatisticas sobre violência disponíveis no Brasil, todos anonimizados. O caminho ideal pra você, seria utilizar esses dados, e tentar encontrar uma correlação entre eles, que possibilite identificar os casos em potêncial. E nesse caso, de identificar casos potênciais, acredito que o melhor que poderia fazer seria identificar regiões/bairros que aprensentam maior risco, pois chegar diretamente na pessoa em risco através de uma IA poderia gerar muitos outros problemas, enquanto que se conseguir indicar localidades com esse potêncial, poderia ser direcionado ações para a localidade em questão, na expectativa de aumentar a prevenção.
Com relação aos dados, esse site possui bastante coisa: https://www.ipea.gov.br/atlasviolencia/ Você deve encontrar informações no https://dados.gov.br/home também... E se você entrar nos sites da Secretaria de Segurança Publica (SSP) ou Instituto de Segurança Publica (ISP) de cada estado, você deve encontrar dados também.
No geral, os dados não seguirão um padrão ou formato específico, então caberá a você identificar as informações importantes, tratar isso e montar a massa de dados que você usará para treinar e testar o teu modelo. E se você tratar esses dados corretamente, isso não deixará teu modelo pior ou inconsistente, inclusive, o tratamento dos dados é um passo fundamental para que você possa criar um modelo bom.
Nessa questão de tratamento de dados, acredito que o mais fácil seria, primeiramente, conseguir a maior quantidade de dados possível. Feito isso, você deve verificar o que esses dados possuem em comum, tendo isso, o ideal seria você utilizar apenas as informações presentes em todas as tuas fontes e, obviamente, que façam sentido a sua utilização. Por exemplo, todas as tuas fontes possuem: cidade, bairro, tipo de crime, quantidade de crimes, genero da vitima, indicador social da vitima, indicador social do criminoso. Nesse caso, você poderia unificar todos esses dados em um dataframe, e utilizar ele para encontrar a correlação entre os crimes que acontecem numa região e o quanto isso impacta ou aumenta na probabilidade de ocorrer um feminicidio...
Enfim, são muitas possibilidades, e exige um trabalho razoável para você alcançar um resultado que represente a realidade...
Boa sorte, e bom trabalho!
Cara muito obrigado por compartilhar esses links. Já comecei a dar uma olhada e embora não tenha precisamente os dados que eu quero, é mais dados para a conta então, muito obrigado mesmo :)