das kannst du doch ganz einfach mit der vox-funktion regeln, dann wird nur solange aufgenommen wie gesprochen wird.

lg