Сложность зависит от API ваших систем и готовности провайдера.
Тут https://neuro.net/ предлагают не просто TTS/ASR (синтез и распознавание речи), а готовый медиасервер и консультации. У нас внедрение Web Personal Assistant заняло около 6 недель: 2 недели — проектирование сценария диалога, 3 — интеграция и программирование логики запросов к нашему API, 1 — тестирование, работает все отлично.