大佬之後會有音頻模型(或是附加音頻的三模態)嗎? #7

win10ogod · 2024-10-08T07:01:26Z

大佬之後會有音頻模型(或是附加音頻的三模態)嗎?
一直想找個項目試試, 大部份要嘛太雜, 要嘛就是不支持windows, 大佬之後能弄一個音頻模態的模型訓練嗎?

jingyaogong · 2024-10-09T03:05:37Z

本人研究背景未接觸過語音，因此並非很快可以發布，雖有此打算但優先級是第二位。
未來本人致力於小型化的可控stable diffusion研究。

但是有任何進展會及時發布，包括預計release的日期

有其它任何問題歡迎繼續交流~~~謝謝關注

win10ogod · 2024-10-09T05:17:15Z

本人研究背景未接觸過語音，因此並非很快可以發布，雖有此打算但優先級是第二位。未來本人致力於小型化的可控stable diffusion研究。

但是有任何進展會及時發布，包括預計release的日期

有其它任何問題歡迎繼續交流~~~謝謝關注

也許可以基於bark與llm, 類似minimind-v? hf bark

jingyaogong · 2024-10-09T07:46:33Z

本人研究背景未接觸過語音，因此並非很快可以發布，雖有此打算但優先級是第二位。未來本人致力於小型化的可控stable diffusion研究。
但是有任何進展會及時發布，包括預計release的日期
有其它任何問題歡迎繼續交流~~~謝謝關注

也許可以基於bark與llm, 類似minimind-v? hf bark

我明白你的意思了，其中理解存在偏差，我用形象的例子把多模態模型講得明白些。

1、純語言模型是這樣的，很容易理解，它的輸入輸出都是文字：

2、視覺語言模型 (比如minimind-v) 是這樣的：

最大的區別是，此時VLM模型的輸入不再只有文字，而是確確實實需要輸入圖像特徵，因此才稱之為多模態。
同時，VLM內部結構也和LLM是有區別的。

形象的例子：我們為盲人戴上 “超級眼鏡” 使他重見光明。雖然 “超級眼鏡” 是一種外掛模型，但是視覺場景真的被盲人看到了，他不再只能參考單模態文字了！

3、你所理解的語音模型可能是這樣的：

注意我用紅色框出來的區域，和LLM-1完全沒有任何區別，模型的輸入輸出都是文字，而不包含任何語音

而 語音識別 和 語音生成 綠色框只起到轉換文字的作用，本質上模型還是單模態文字信息在輸入輸出。

再舉一個形象的例子，一個聾啞人依靠 語音識別和語音生成軟件具備聽和說的能力 ，但是無論經過怎樣天花亂墜的巧妙變換，只要聾啞人的輸入和輸出信息都是文字，就依然被認為是 單模態 而不是 多模態，因為他依然無法說話，無法聽見，無法獲取文字以外的任何信息。

第一點，輸入的語音被翻譯成無情的文本，情感語氣停頓音色音高語調..........無數的信息都丟失了！如果我們給它播放鋼琴聲音，沒有歌詞的話它等於依然是個聾子！第二點，基於輸出的文本，生成語音後，這段語音和模型本身想表達的情感語氣停頓音色音高語調..........無數的信息被丟失了第二遍！第三個問題，我們說話必須要完全說完才能開始翻譯，文字完全生成才能開始轉換為語音，這裡帶來的等待時間無法接受，相反人類大腦是邊說+邊聽+邊思考的！這就是 單模態 的最大限制，這也是我們渴望 多模態 的根本目的。

因此3這種方式雖然具備了多模態的外在功能，但是完全無法稱為多模態模型。

4、真正的多模態Audio模型
我們姑且稱音頻語言模型為Audio-Language-Model(ALM)
對於第一種，這裡簡單稱之為ALM-1：

它的輸入是音頻序列，而不再是文字。它真正聽見了聲音，即使是無歌詞的音樂聲音也可以！
但是輸出只有文字，也就是此時聾啞人僅僅是一個啞巴，他的聽覺已經恢復了，可以更細膩的理解說話的情感，只是無法表達。

GPT-4o實現了ALM-1的繼續進化，這裡簡單稱之為ALM-2：

也就是大模型一次性把需要參考的情感語氣停頓音色音高語調.......等特徵信息作為一種潛在特徵輸出並進行音頻合成，它具備了雙重模態的能力：聽和說。

更多的是，GPT-4o還可以兼顧理解圖像，因此這種模型，可以直接稱之為：全模態模型。

第3種方式直接外接語言識別器和音頻合成器即可，多模態信息完全沒有進入模型內部。所以實現起來很容易，完全不涉及模型本身的改動，也完全不涉及模型的訓練。因此模型用什麼都可以，語音合成也用什麼都可以，它們之間沒有耦合關係，可以任意更換。

第三方平台基本都內置了添加插件實現語音識別和合成功能，例如fastgpt

我指的語音研究背景，是實現第4種多模態模型所需要具備的眾多能力，例如參數化語音合成(TTS)，端到端語音合成，語音識別(ASR)，語音情感特徵提取，情感分類，語音訓練數據集(LibriSpeech、VCTK)........
而3其實是一個外掛工程問題，和模型多模態沒什麼關係。

此處聲明：本人無任何歧視任何殘疾人群体意圖，僅為了方便理解舉例；若有冒犯，聯繫我更改或刪除。

win10ogod · 2024-10-09T08:50:16Z

本人研究背景未接觸過語音，因此並非很快可以發布，雖有此打算但優先級是第二位。未來本人致力於小型化的可控stable diffusion研究。
但是有任何進展會及時發布，包括預計release的日期
有其它任何問題歡迎繼續交流~~~謝謝關注

也許可以基於bark與llm, 類似minimind-v? hf bark

我明白你的意思了，其中理解存在偏差，我用形象的例子把多模態模型講得明白些。

1、純語言模型是這樣的，很容易理解，它的輸入輸出都是文字：

2、視覺語言模型 (比如minimind-v) 是這樣的：

最大的區別是，此時VLM模型的輸入不再只有文字，而是確確實實需要輸入圖像特徵，因此才稱之為多模態。同時，VLM內部結構也和LLM是有區別的。

形象的例子：我們為盲人戴上 “超級眼鏡” 使他重見光明。雖然 “超級眼鏡” 是一種外掛模型，但是視覺場景真的被盲人看到了，他不再只能參考單模態文字了！

3、你所理解的語音模型可能是這樣的：

注意我用紅色框出來的區域，和LLM-1完全沒有任何區別，模型的輸入輸出都是文字，而不包含任何語音

而 語音識別 和 語音生成 綠色框只起到轉換文字的作用，本質上模型還是單模態文字信息在輸入輸出。

再舉一個形象的例子，一個聾啞人依靠 語音識別和語音生成軟件具備聽和說的能力 ，但是無論經過怎樣天花亂墜的巧妙變換，只要聾啞人的輸入和輸出信息都是文字，就依然被認為是 單模態 而不是 多模態，因為他依然無法說話，無法聽見，無法獲取文字以外的任何信息。

第一點，輸入的語音被翻譯成無情的文本，情感語氣停頓音色音高語調..........無數的信息都丟失了！如果我們給它播放鋼琴聲音，沒有歌詞的話它等於依然是個聾子！第二點，基於輸出的文本，生成語音後，這段語音和模型本身想表達的情感語氣停頓音色音高語調..........無數的信息被丟失了第二遍！第三個問題，我們說話必須要完全說完才能開始翻譯，文字完全生成才能開始轉換為語音，這裡帶來的等待時間無法接受，相反人類大腦是邊說+邊聽+邊思考的！這就是 單模態 的最大限制，這也是我們渴望 多模態 的根本目的。

因此3這種方式雖然具備了多模態的外在功能，但是完全無法稱為多模態模型。

4、真正的多模態Audio模型我們姑且稱音頻語言模型為Audio-Language-Model(ALM) 對於第一種，這裡簡單稱之為ALM-1：它的輸入是音頻序列，而不再是文字。它真正聽見了聲音，即使是無歌詞的音樂聲音也可以！但是輸出只有文字，也就是此時聾啞人僅僅是一個啞巴，他的聽覺已經恢復了，可以更細膩的理解說話的情感，只是無法表達。

GPT-4o實現了ALM-1的繼續進化，這裡簡單稱之為ALM-2：

也就是大模型一次性把需要參考的情感語氣停頓音色音高語調.......等特徵信息作為一種潛在特徵輸出並進行音頻合成，它具備了雙重模態的能力：聽和說。

更多的是，GPT-4o還可以兼顧理解圖像，因此這種模型，可以直接稱之為：全模態模型。

第3種方式直接外接語言識別器和音頻合成器即可，多模態信息完全沒有進入模型內部。所以實現起來很容易，完全不涉及模型本身的改動，也完全不涉及模型的訓練。因此模型用什麼都可以，語音合成也用什麼都可以，它們之間沒有耦合關係，可以任意更換。

第三方平台基本都內置了添加插件實現語音識別和合成功能，例如fastgpt

我指的語音研究背景，是實現第4種多模態模型所需要具備的眾多能力，例如參數化語音合成(TTS)，端到端語音合成，語音識別(ASR)，語音情感特徵提取，情感分類，語音訓練數據集(LibriSpeech、VCTK)........ 而3其實是一個外掛工程問題，和模型多模態沒什麼關係。

此處聲明：本人無任何歧視任何殘疾人群体意圖，僅為了方便理解舉例；若有冒犯，聯繫我更改或刪除。

我覺得...我理解的應該是支持輸入語音and文字, 且能輸出語音與文字的.(不知道正確嗎?算是第4種嗎)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

大佬之後會有音頻模型(或是附加音頻的三模態)嗎? #7

大佬之後會有音頻模型(或是附加音頻的三模態)嗎? #7

win10ogod commented Oct 8, 2024

jingyaogong commented Oct 9, 2024

win10ogod commented Oct 9, 2024

jingyaogong commented Oct 9, 2024 •

edited

Loading

win10ogod commented Oct 9, 2024

大佬之後會有音頻模型(或是附加音頻的三模態)嗎? #7

大佬之後會有音頻模型(或是附加音頻的三模態)嗎? #7

Comments

win10ogod commented Oct 8, 2024

jingyaogong commented Oct 9, 2024

win10ogod commented Oct 9, 2024

jingyaogong commented Oct 9, 2024 • edited Loading

win10ogod commented Oct 9, 2024

jingyaogong commented Oct 9, 2024 •

edited

Loading