Não se ajuda a resolver seu problema, mas além do git existe o DVC (data version control). Neste artigo, voce encontra uma explicação com um exemplo, mas basicamente:

DVC is, therefore, a system that involves tracking our datasets by registering changes on a particular dataset. There are multiple DVC solutions both free and paid. I recently discovered Hangar, a fully open-source Python DVC package.