Minha sugestão é ver o projeto https://github.com/yacy. É um mecanismo de busca que faz indexação e ainda pode funcionar de forma distribuida utilizando o DTH. Isso pode te ajudar.
Me sinto pessimo por não entender certas coisas, mas gostei demais de sua ajuda!