-
Notifications
You must be signed in to change notification settings - Fork 120
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
大佬之後會有音頻模型(或是附加音頻的三模態)嗎? #7
Comments
本人研究背景未接觸過語音,因此並非很快可以發布,雖有此打算但優先級是第二位。 但是有任何進展會及時發布,包括預計release的日期 有其它任何問題歡迎繼續交流~~~謝謝關注 |
也許可以基於bark與llm, 類似minimind-v? hf bark |
我明白你的意思了,其中理解存在偏差,我用形象的例子把多模態模型講得明白些。 最大的區別是,此時VLM模型的輸入不再只有文字,而是確確實實需要輸入圖像特徵,因此才稱之為多模態。 形象的例子:我們為盲人戴上 “超級眼鏡” 使他重見光明。雖然 “超級眼鏡” 是一種外掛模型,但是視覺場景真的被盲人看到了,他不再只能參考單模態文字了! 注意我用紅色框出來的區域,和LLM-1完全沒有任何區別,模型的輸入輸出都是文字,而不包含任何語音 而 語音識別 和 語音生成 綠色框只起到轉換文字的作用,本質上模型還是單模態文字信息在輸入輸出。 再舉一個形象的例子,一個聾啞人依靠 語音識別和語音生成軟件具備聽和說的能力 ,但是無論經過怎樣天花亂墜的巧妙變換,只要聾啞人的輸入和輸出信息都是 文字 ,就依然被認為是 單模態 而不是 多模態,因為他依然無法說話,無法聽見,無法獲取文字以外的任何信息。 第一點,輸入的語音被翻譯成無情的文本,情感語氣停頓音色音高語調..........無數的信息都丟失了!如果我們給它播放鋼琴聲音,沒有歌詞的話它等於依然是個聾子!第二點,基於輸出的文本,生成語音後,這段語音和模型本身想表達的情感語氣停頓音色音高語調..........無數的信息被丟失了第二遍!第三個問題,我們說話必須要完全說完才能開始翻譯,文字完全生成才能開始轉換為語音,這裡帶來的等待時間無法接受,相反人類大腦是邊說+邊聽+邊思考的!這就是 單模態 的最大限制,這也是我們渴望 多模態 的根本目的。 因此3這種方式雖然具備了多模態的外在功能,但是完全無法稱為多模態模型。 4、真正的多模態Audio模型 GPT-4o實現了ALM-1的繼續進化,這裡簡單稱之為ALM-2: 也就是大模型一次性把需要參考的情感語氣停頓音色音高語調.......等特徵信息作為一種潛在特徵輸出並進行音頻合成,它具備了雙重模態的能力:聽和說。 更多的是,GPT-4o還可以兼顧理解圖像,因此這種模型,可以直接稱之為:全模態模型。 第3種方式直接外接語言識別器和音頻合成器即可,多模態信息完全沒有進入模型內部。所以實現起來很容易,完全不涉及模型本身的改動,也完全不涉及模型的訓練。因此模型用什麼都可以,語音合成也用什麼都可以,它們之間沒有耦合關係,可以任意更換。 第三方平台基本都內置了添加插件實現語音識別和合成功能,例如fastgpt 我指的語音研究背景,是實現第4種多模態模型所需要具備的眾多能力,例如參數化語音合成(TTS),端到端語音合成,語音識別(ASR),語音情感特徵提取,情感分類,語音訓練數據集(LibriSpeech、VCTK)........
|
我覺得...我理解的應該是支持輸入語音and文字, 且能輸出語音與文字的.(不知道正確嗎?算是第4種嗎) |
大佬之後會有音頻模型(或是附加音頻的三模態)嗎?
一直想找個項目試試, 大部份要嘛太雜, 要嘛就是不支持windows, 大佬之後能弄一個音頻模態的模型訓練嗎?
The text was updated successfully, but these errors were encountered: