SqlServerai数字人音频停顿处理，删除无用音频段

民工心事 发表于 2024-9-3 16:07:22

ai数字人音频停顿处理，删除无用音频段

您当前的算法中，当静音段被缩短时，天生的静音样本数量是通过比例缩放计算出来的。但这个方法大概会导致一些音频失真，从而产生“沙沙”的噪音。这是因为在处理静音段时，利用了简单的零添补方式，导致音频数据出现突变，从而产生不天然的声音。
为了改进这个算法，可以采用以下思路：
平滑处理：在静音段过渡到有声音的段落时，利用平滑过渡的方式来避免突变，减少噪音。
减少零添补：在静音段缩短时，可以利用更靠近原始音频特性的方式来添补缩短后的静音部分，而不是简单地利用零添补。
public static byte[] ScaleSilence(byte[] inputFile, float silenceThreshold = 0.01f, int silenceDurationMs = 200, int targetSilenceDurationMs = 100)
{
using (var reader = new MyAudioFileReader(inputFile))
{
var samples = new List();
int sampleRate = reader.WaveFormat.SampleRate;
int channels = reader.WaveFormat.Channels;
int silenceSampleCountThreshold = (int)(sampleRate * channels * (silenceDurationMs / 1000.0));
float[] buffer = new float;
int samplesRead;
int silentSampleCount = 0;
List silentSamples = new List();
while ((samplesRead = reader.Read(buffer, 0, buffer.Length)) > 0)
{
   for (int i = 0; i < samplesRead; i++)
   {
         if (Math.Abs(buffer) <= silenceThreshold)
         {
            silentSampleCount++;
            silentSamples.Add(buffer);
         }
         else
         {
            if (silentSampleCount >= silenceSampleCountThreshold)
            {
               // 计算缩放比例
               double scale = (double)targetSilenceDurationMs / (silenceDurationMs * (silentSampleCount / (double)silenceSampleCountThreshold));
               int samplesToKeep = (int)(silentSampleCount * scale);

               // 使用渐变过渡来处理缩短后的静音部分
               for (int j = 0; j < samplesToKeep; j++)
               {
                     float transitionSample = silentSamples[(int)((j / (float)samplesToKeep) * silentSampleCount)];
                     samples.Add(transitionSample);
               }
            }
            else
            {
               // 如果静音部分不足以达到阈值，则不做缩短处理，直接添加原始静音样本
               samples.AddRange(silentSamples);
            }

            silentSampleCount = 0;
            silentSamples.Clear();
            samples.Add(buffer);
         }
   }
}

// 保存处理后的音频
return SaveToBuferr(samples.ToArray(), reader.WaveFormat);
}
}
改进要点：
平滑处理：改进后的代码在静音段的处理上引入了渐变过渡，而不是直接利用零添补。通过逐步调整静音样本的值，可以平滑地过渡到有声音的部分，避免突变带来的噪音。
静音缩短比例：在缩短静音段时，保留了一部分原始的静音样本，通过对样本进行插值计算（逐渐增长或减少静音样本的强度），避免了沙沙噪音的出现。
以上方法可以或许减少音频失真并有用移除静音部分，同时避免沙沙的噪音。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

ai数字人音频停顿处理，删除无用音频段