O facebook por exemplo utiliza um sistema de IA próprio pra filtrar textos e imagens nocivos.

Se tu quer filtrar textos, tu pode utilizar a API do ChatGPT ou similar, e utilizar um prompt que possa filtrar textos.

Alternativo a isso, tu pode procurar serviços de API específicos para filtragem e moderação de conteúdo. Pesquisando "Content Moderation Filter" eu já encontrei alguns, que filtram tanto textos quanto imagens.