diff --git a/apis/tinkoff/cloud/stt/v1/stt.proto b/apis/tinkoff/cloud/stt/v1/stt.proto index ec84a98..c3cdba1 100644 --- a/apis/tinkoff/cloud/stt/v1/stt.proto +++ b/apis/tinkoff/cloud/stt/v1/stt.proto @@ -54,7 +54,7 @@ message SpeechContext { // Currently unused. Declares a vocabulary of wor repeated string words = 2; // Individual words to recognize with higher probability. } -message WordInfo { // Currently unsupported. Detailed information on recognized word. +message WordInfo { // Detailed information on recognized word. google.protobuf.Duration start_time = 1; // Word start time inside input audiostream. google.protobuf.Duration end_time = 2; // Word end time inside input audiostream. string word = 3; // Word inside phrase. @@ -86,6 +86,8 @@ message RecognitionConfig { // Common regognition configuration. bool do_not_perform_vad = 13; // Flag to disable phrase range detection. All speech shall be recognized as single phrase with this flag set to true. VoiceActivityDetectionConfig vad_config = 14; // Structure to customize VAD settings. } + reserved 15; + bool enable_denormalization = 16; // Enables automatic conversion of numerals from text to numeric form. Applies only to the first (most likely) version of the final hypothesis. } message RecognizeRequest { // Request to recognize using Recognize method. diff --git a/apis_ru/tinkoff/cloud/stt/v1/stt.proto b/apis_ru/tinkoff/cloud/stt/v1/stt.proto index 7bebe11..fe965fc 100644 --- a/apis_ru/tinkoff/cloud/stt/v1/stt.proto +++ b/apis_ru/tinkoff/cloud/stt/v1/stt.proto @@ -54,7 +54,7 @@ message SpeechContext { // Не используется на данный м repeated string words = 2; // Отдельные слова для распознавания с повышенной вероятностью. } -message WordInfo { // Не поддерживается на данный момент. Детальная информация по слову внутри фразы. +message WordInfo { // Детальная информация по слову внутри фразы. google.protobuf.Duration start_time = 1; // Время начала слова внутри аудиопотока на входе. google.protobuf.Duration end_time = 2; // Время конца слова внутри аудиопотока на входе. string word = 3; // Слово внутри фразы. @@ -86,6 +86,8 @@ message RecognitionConfig { // Общие настройки для распоз bool do_not_perform_vad = 13; // Флаг выключающий разбиение на фразы, т. е. VAD.
Весь распознанный текст будет получен в виде одной фразы. VoiceActivityDetectionConfig vad_config = 14; // Структура для переопределения настроек VAD. } + reserved 15; + bool enable_denormalization = 16; // Включает автоматическое преобразование числительных из текстовой формы в цифровую. Применяется только для первой (наиболее вероятной) версии финальной гипотезы. } message RecognizeRequest { // Запрос на распознавание аудио по методу Recognize. @@ -99,7 +101,7 @@ message SpeechRecognitionAlternative { // Версия распознанной repeated WordInfo words = 3; // Не поддерживается на данный момент. Список отдельных слов внутри фразы. } -message SpeechRecognitionResult { // Распозная фраза для указанного аудио канала. +message SpeechRecognitionResult { // Распознанная фраза для указанного аудио канала. repeated SpeechRecognitionAlternative alternatives = 1; // Список версий фразы отсортированных по убыванию confidence. int32 channel = 2; // Канал, к которому относится версия фразы (нумерация с 0). google.protobuf.Duration start_time = 3; // Время начала фразы внутри аудиопотока на входе.