Например, если в любом аудиоредакторе если перетащить какую-то песню, будет видна вся дорожка, и по ней видно, что никаких пауз (тишины) нет, поэтому дорожку можно считать музыкой.
В голосового сообщения будут волны и пауза (тишина). Как это можно определить программно? Есть ли для этого какие-нибудь библиотеки?
В музыке тоже множество пауз. Но музыка - это ноты: звуковые колебания вполне определённой фиксированной высоты и длительности. И даже если скорость воспроизведения сдвинуть, отношения частот и длительностей не изменится.
Тогда как разговор не привязан к нотам и интервалам - он намного менее "упорядочен".