Muito incrível esse projeto, parabéns!

Apenas uma dúvida: como fizeram para reconhecer quando o usuário quer "pegar" a sílaba?