声音的产生

物体的振动产生声波，通过声音传播介质，传入人的鼓膜，再到听小骨，最后到听觉神经和大脑。

声音的三要素

音调：由声音的频率决定，频率越高，声音越高，在乐音中，规定国际标准音高为440HZ，对应为音名为A4。
响度：又称为音量，音强，由振幅和人离声源距离决定。
音色：由发生物体材料和结构决定

模拟信号和数字信号

模拟音频信号

模拟音频信号是指时间轴连续，振幅轴连续的音频信号。自然界中存在的声音都算是模拟信号。

数字音频信号

时间和幅度都用离散的数字表示的信号。计算机只能存储和处理数字音频信号。

A/D，D/A转换

A/D转换：模/数转换，模拟信号转为数字信号
D/转换：数/模转换，数字信号转为模拟信号

一般计算机处理音频信号的过程：对模拟信号进行采样、量化、编码、压缩转换成数字信号(设备一般是麦克风🎤和声卡)，然后对数字音频进行处理(变声、降噪、存储)，要播放音频的时候，将音频信号再还原成模拟信号播放(设备一般是声卡和扬声器🔉)。

模拟信号到数字音频的转换(A/D转换)

采样

在模拟信号的时间轴上每隔一定时间抽取一个信号的幅度样本（时间轴数字化）。

采样周期(T)：每隔T秒进行一次采样
采样频率(F)：一秒采样多少次
T = 1/F

奈奎斯特采样定理：如果想要通过数字信号重建原始模拟信号，那么采样频率必须大于模拟信号最高频率的两倍。（解释）

量化

由于在采样的时候，从模拟信号中获取到的幅度值其实本质上是个模拟量，这个模拟量可能是在计算机中是无法表示的，因为即使是使用浮点数，可以表示的值也都是离散的小数值，所以如果想要把采样过的值存储到计算机中进行处理，就需要将这些值转换为计算机可以处理的值。这个过程就是量化。

在将计算机不能存储和处理的值转换为计算机可以存储和处理的值的时候，最后计算机存储的结果可能和和实际的结果存在偏差。这就是量化误差。例如：某个计算只能存储int类型的值，但是某次采样到的数据的值为3.1，那么量化后的值应该为3，那么就产生了量化误差。

在音频信号处理中，一般采用8bit、16bit、24bit去存储经过量化过后的值(既可以使用整型数据，也可以使用浮点型数据，使用整型数据属于均匀量化，使用浮点数据属于非均匀量化)，使用的bit位数越多，可以表示的数据量就越多，可以表示的精度就越高。所以一般高清音质，高保真音质使用的24bit来存储量化后的值。

PCM文件

WAV文件

音频编解码

音频编解码用于对量化后的音频数据进行压缩，方便对音频数据的存储和传输。

一些基础概念

码率

指音频(或视频)文件在单位时间内使用的数据量，单位一般是Kb/s或者Mb/s(注意是bit)。固定码率是指音频(或视频)文件在每一个单位时间内使用的数据量都相等。可变码率指不同单位时间内使用的数据量可以不同。

压缩比

原始数据和压缩后的数据总体的大小占比。一般来说，对于同一个原始数据，压缩比越小，码率越高，最后还原出来的数据越真实。

三大主要音频编解码标准

ITU

主要指定有线语言压缩标准，一般用于语音通话

3GPP

主要指定无线语音压缩标准

MPEG

主要指定音乐压缩标准等，例如MP3、AAC编解码标准