음질과 음색
플라스틱으로 만들어진 리코더와 나무로 만들어진 리코더 소리가 구별되는 것은 음색!
리코더 마감이 좋지 않아서 깔끔하지 않은 소리가 나는 것은 음질!
오디오에 관한 것들을 읽다 보면 음질이 좋다는 말은 흔히 나옵니다. 또 어떤 글에서는 음색이 좋다는 말 혹은 음색이 어떠하다는 말을 하는 것을 볼 수 있습니다. 뭐 여기선 별 시적인 형용이 마구 범람하기도 하는데 그거야 그 사람들이 느낀 것을 문학적 표현으로 전달하고자 하는 것일 뿐이겠습니다만 음질이든 음색이든 그것의 명확한 정의는 있습니다.
먼저 음색에 대해 생각해봅시다. 음색은 기음과 배음에 의해 결정되는 소리의 차이를 말합니다. 이것이 피아노 소리와 바이올린 소리가 다른 이유입니다. 물론 어떤 사람의 목소리가 서로 다른 것도 여기에 기인합니다. 먼저 소리의 세가지 요소라면 소리의 크기, 소리의 높낮이 그리고 음색이 있습니다. 소리의 크기는 상식적으로 알고 있는 부분이죠. 흔히 데시벨로 표현되기도 하고 음압이라고 말하기도 하는 것입니다. 좀 더 원리적으로 말하자면 공기 분자의 밀도 변화가 더 급격하게 일어난다는 의미가 되겠습니다. 가령 작은 소리가 0.01 기압차로 만들어진다면 큰 소리는 0.2 기압차로 만들어진다고 말해도 무방하겠죠.
위의 그림은 소리를 시각화해본 것입니다. 색이 진한 것은 공기분자가 많이 몰린 것이고 색이 밝은 것은 공기 분자가 적게 모인 것을 의미합니다. 먼저 왼쪽의 두개를 살펴보면 왼쪽의 위는 약한 소리를 나타냅니다. 공기 밀도의 차가 약해서 별 변화가 없는 것처럼 보이죠. 반면 왼쪽 그림 아래를 보면 변화가 또렷하게 보입니다. 이는 공기 밀도의 변화가 크기 때문에 그런 것입니다. 이것이 소리의 크기입니다.
반면 위 그림 오른쪽 두개는 소리의 높낮이를 뜻합니다. 소리의 높낮이는 동일한 시간에 얼마나 자주 공기 밀도의 변화가 발생하느냐를 말합니다. 그래서 위쪽은 낮은 음이고 아래는 높은 음입니다. 위쪽에 비해 아래쪽은 공기 밀도의 변화가 2배 더 자주 발생하는 모습을 볼 수 있습니다. 물론 한 옥타브 높은 소리입니다. 소리는 한 옥타브가 높아지면 진동수 즉 정해진 시간의 공기밀도의 변화가 두배 더 빠르게 발생합니다.
위의 그림은 이러한 음압의 변화를 수치로 변환시켜서 그래프로 그린 것입니다. 간단히 공기 밀도가 높으면 더 높게 수치로 변환시키고 낮으면 더 낮은 수치로 변환시키면 됩니다. 1기압은 대략 10만 파스칼인데 그러면 아래 그래프의 가로축은 시간의 진행, 세로축은 파스칼의 크기로 생각하면 됩니다. 이렇게 만들어지는 소리의 그래프는 신기하게 사인파입니다. 그게 왜 사인파가 되는지 궁금하기도 합니다만 그건 또 유체역학을 제대로 공부해야 할 것 같습니다. 아무튼 우리는 소리를 이렇게 그래프로 쉽게 그려서 나타냅니다.
그러면 이제 음색을 생각해봅시다. 음색이란 같은 크기, 같은 높이의 소리라고 하더라도 서로 소리가 다르다는 것을 의미합니다. 가령 피아노 건반 중에 가운데 있는 도음(가온다)을 친다면 262 헬츠 정도의 소리가 납니다. 이걸 데시벨미터로 측정하니 60 데시벨이었다고 합시다. 그런데 옆에서 바이올린으로 가온다음을 켠다고 합시다. 물론 262 헬츠 정도가 될겁니다. 그리고 이때도 데시벨미터로 측정하니 60 데시벨이 나왔다고 합시다. 그러면 양자는 모두 동일한데 소리는 당연히 다릅니다. 이 때 소리가 왜 다르냐 하는 것이 음색에 의해서입니다.
음색의 차이는 기음과 배음에 의해 만들어집니다. 기음이란 위에서 예로 든 것처럼 피아노나 바이올린에서 가온다음을 만들어냈을 때 들리는 주파수이며 기본 주파수이고 대표주파수라 할 수 있습니다. 이게 무슨 말이냐면 피아노에서 가온다 음을 쳤다고 할 때 거기서 262 헬츠가 나온다고 했지만 절대 262헬츠만 나오는게 아니라는 겁니다. 세상 모든 소리를 내는 물체는 기이하게도 진동시 하나의 주파수로만 진동하지 않습니다. 기음의 2배, 3배, 4배, 5배, 6배, 7배... 의 소리가 함께 나옵니다.
그런 이유에 대해서는 기타를 생각해보면 될 것 같습니다. 기타를 쳐본 분들은 모두 아실 겁니다. 기타 줄 하나를 쎄게 튕 튕겨주면 그 현 전체가 진동하는 것도 있지만 자세히 보면 둘로 나뉘어 진동하는 것도 볼 수 있습니다. 즉 기타줄 절반이 위로 올라가고 절반이 아래로 내려가는 방식으로 진동하는 걸 볼 수 있습니다. 이걸 아주 자세히 본다면 둘 뿐만 아니라 셋으로 나뉘에 진동하는 것도 관찰할 수 있습니다. 그 경우 둘로 나뉘어 진동하면 2배음이 나올 것이고 셋으로 나뉘어 진동하면 3배음이 나올 겁니다. 물론 그보다 더 잘게 나뉘어서도 진동합니다. 그래서 결국 2배음, 3배음, 4배음, 5배음... 으로 배음이 만들어집니다.
그러면 모든 소리를 내는 진동하는 것들은 배음을 만들어내니 기타가 됐든 피아노가 됐든 바이올린이 됐든 기본음 뿐만 아니라 배음이 발생한다는 것은 당연합니다. 여기까지는 기타나 바이올린이나 피아노나 다를게 없습니다. 다른 것은 그 배음이 얼마나 큰 소리를 내느냐 하는 것입니다. 가령 기본음의 소리가 100 데시벨이라고 했을 때 피아노가 2배음 3배음 4배음 각각 50데시벨, 30데시벨, 20데시벨이라고 합시다. 그런데 바이올린은 기본음 소리가 100 데시벨일 때 2배음 3배음 4배음이 각각 60데시벨, 40데시벨, 30데시벨이라고 한다면 서로의 소리는 다르게 들립니다. 왜냐하면 배음은 기음과 합쳐져 서로 다른 음파의 파형을 만들어내기 때문입니다.
위 그림은 이런 배음의 관계를 잘 나타내줍니다. 먼저 기본음은 바이올린과 첼로가 동일한 크기를 보입니다. 그래프의 높이가 같습니다. 그런데 2배음, 3배음, 4배음이 되면 그래프의 높이가 다릅니다. 즉 각 배음에 대해서는 소리의 크기가 다르다는 것입니다. 이를 통해, 이 각각의 배음이 합쳐진 소리는 그 파형이 달라집니다. 이렇게 기음은 같지만 배음이 다르기 때문에 서로 다르게 들리는 것을 음색이라고 합니다. 소리가 서로 다르다면, 그리고 음높이나 음크기가 같은데도 서로 소리가 다르게 들린다면 바로 이 음색이 달라서입니다. 사람 목소리도 서로 다 다른 것도 이런 이유에서죠.
그러면 오디오에 대해서 말할 때 이 음색이라는 것은 어떤 의미가 있을까요? 흔히 음색이 밝다/어둡다, 음색이 따뜻하다/차갑다 라고 표현하는데 이건 음색이라는 말과 같을까요? 제가 느끼기에는 그닥 맞는 얘긴 아닐 것 같습니다. 보통 오디오에서 나오는 소리 또는 음악은 어느 음역대가 소리가 크고 작으냐에 따라 결정되기 때문입니다.
가령 100 헬츠 정도의 저역대가 다른 대역에 비해 3데시벨 정도 높다면 박력있는 저음으로 느껴질 수 있습니다. 그리고 60헬츠 이하 음역대가 다른 음역대에 비해 조금 높으면 푸근하고 따뜻한 느낌이 듭니다. 반면 2~4천 헬츠 정도의 소리가 다른 음역대에 비해 크다면 날카롭거나 해상도가 높거나 혹은 차갑게 느껴질 가능성이 큽니다. 혹은 1000 헬츠 정도의 중음역대의 소리가 크다면 뭔가 빵빵하다거나 혹은 시끄러운 소리로 느껴지기도 합니다. 또 5천 헬츠 이상의 음역대의 소리가 크면 에어리하다는 표현을 쓰기도 하고 개방감이라는 표현을 쓰기도 하는데 뭔가 무대가 넓어진 느낌이나 자연스러운 느낌 같은 것도 듭니다. 이런 여러가지 요소들이 서로 작용하면서 어떤 오디오에 특성을 보여줍니다. 일단 이 대역별로 얼마나 소리가 크게 나오느냐라는 것이 오디오에서 최대 관건이라고 개인적으로 생각합니다. 대역별 응답특성이라고 부르는 것인데 굉장히 중요합니다. 뭐 그 다음으로는 제동성을 의미하는 항목이 또 얼마나 유닛, 혹은 스피커가 고급하냐를 결정하게 마련인데 아무튼 음색에 대해서는 대략 이렇습니다.
그러면 음질이라는 건 뭘까요? 음질이란 사운드 퀄리티를 그대로 번역한 말입니다. 이는 재생기기에 있어서 얼마나 정확하게 재생하느냐 하는 것을 의미합니다. 그러면 정확하게 재생한다는 의미는 뭘까요? 이건 또 명백하게 입력된 신호를 정확하게 재생한다는 의미입니다. 가령 씨디를 틀어놓았다고 한다면 씨디에 디지틀 형식으로 저장되어 있는 데이터를 아날로그로 변환한 뒤 앰프에 보내고 앰프에 의해 스피커가 구동되고 그리고 결과적으로 스피커에서 소리가 재생되어질 때 그 소리의 파형이 씨디에 저장된 데이터의 파형과 동일해야 한다는 의미입니다. 이는 라디오를 듣는다거나 폰을 통해 멜론의 음악을 재생해도 마찬가집니다. 애당초 보내지는 데이터를 그대로 재생해내느냐의 의미입니다.
그러면 제대로 재생하는지를 어떻게 알 수 있을까요? 여기에 흔히 나오는 왜율이라는 것이 있습니다. 참 이상한 번역이고 알아들으라는 건지 말라는 건지 알 수 없는 번역인데 THD 라고 쓰며 total harmonic distortion의 약자입니다. 여기서 distortion은 왜곡이니 차라리 '왜곡율'이라고 했으면 대략 짐작은 갈텐데 이걸 '왜율'이라고 번역을 시작했던 이유도 알 수가 없습니다. 그리고 THD 의 번역은 '전고조파왜율' 입니다. 참 말을 알아듣기 어렵게 만들어놓았는데 솔직히 한자로 봐도 저게 무슨 말인지 알아먹기는 어렵습니다. 차라리 전체 배음 왜곡이라고 하는 것이 더 알아듣기 쉬울 듯합니다.
쉬운 생각으로 오디오의 음질을 측정한다고 하면 먼저 하나의 음파를 넣어주고 출력된 음파를 놓고 양자를 비교할 것 같습니다. 하지만 그렇게 하지 않습니다. 일정한 주파수를 넣어주고 그 주파수의 음파 외에 어떤 것들이 더 생기는지를 비교하는 방법을 씁니다. 좀 더 정확하게는 1000 헬츠의 음파를 넣어주었을 때 1000 헬츠 음파 말고 그 2배 3배 4배 5배의 배음이 얼마나 생기는지를 측정합니다.
위의 그래프는 전고조파왜율을 표시한 것입니다. 기음으로 1000 헬츠를 씁니다. 그러면 2천, 3천, 4천, 5천, 6천 헬츠 등에 하모닉 디스토션이 발생합니다. 이를 수치로 만든 것이 우리가 흔히 쓰는 THD 즉 왜율이라는 것입니다. 완벽한 오디오라면 1000 헬츠를 집어 넣었을 때 1000 헬츠만 나와야 합니다. 하지만 세상에 완벽한 것이란 존재하지 않는 법이고 위 그래프처럼 배음이 함께 재생되어 나옵니다.
위 그래프와 같이 왜율을 측정하는 것은 거의 앰프에 대해서입니다. 앰프는 들어간 사운드 데이터가 단순히 '크기'만 증폭되어 스피커로 보내집니다. 보통 트랜지스터 앰프에서 왜율은 0.01% 이하입니다. 사실 이 왜율이라는 것이 그리 중요하지는 않습니다. 왜냐면 앰프에서 심각하게 큰 왜곡을 일으키는 경우는 별로 없기 때문입니다. 그리고 평범한 앰프에서 왜율이 0.0001% 인데 하이엔드로 수백 수천만원하는 앰프에서 0.001%인 경우도 있습니다. 말하자면 하이엔드 앰프가 평범한 앰프에 비해 왜율이 열배가 되는 거죠. 결국 왜율에 있어서 별 차이는 없다고 보면 됩니다.
그런데 이런 수치는 스피커에서는 그 스펙에서 별로 발견할 수 없습니다. 이유는 대략 두가지가 아닌가 합니다. 첫째는 측정이 어렵다는 측면입니다. 앰프에서 왜율을 측정하는 것은 어렵지 않습니다. 오실로스코프를 이용하는 경우도 있지만 요즘엔 컴퓨터 사운드카드를 통해 측정하기도 합니다. 사운드 카드의 아웃풋을 앰프로 연결합니다. 그 다음 앰프의 최대 출력으로 증폭시킵니다. 그리고 앰프의 아웃풋을 사운드카드의 인풋으로 연결합니다. 이때 물론 앰프의 아웃풋과 사운드카드의 인풋 사이에는 저항을 집어넣습니다. 안그러면 사운드카드 회로가 통째로 타버릴 겁니다. 그러면서 사운드카드 인풋으로 들어온 신호를 저장하면 됩니다. 매우 간단하게 측정이 됩니다.
반면 스피커는 측정이 극히 어렵거나 거의 불가능합니다. 가령 1000 헬츠의 사운드를 출력시켰다고 합시다. 그리고 그 앞에 마이크를 달고 측정을 해서 1000 헬츠 이외의 배음들이 얼마나 나오는지를 측정해야 합니다. 이에 왜 문제냐면 공간의 특성에 따라 재생되어 나오는 소리가 달라질 것이고 마이크의 특성까지 들어갈 것이기 때문입니다. 공간의 특성을 배제하기 위해 무향실을 만들곤 하지만 무향실은 어디까지나 이상에 불과한 것이기 때문에 이게 거의 불가능에 가까운 일이 됩니다. 정말 제대로 만들어진 무향실은 축구장 반만한 공간의 한 가운데에서 파동을 발생시키고 이를 측정합니다. 물론 그 축구장 반만한 공간의 벽쪽은 모두 파동을 흡수하는 재료로 채워집니다. 솔직히 그런걸 만들어 운영하는건 지나치게 어려운 일입니다.
가끔 스피커에도 이 고조파 왜율이라는 것이 표기되어 있기도 한데 1% 정도 된다며 매우 자랑스럽게 써놓은 것을 볼 수 있습니다. 다만 그게 얼마나 의미가 있는 일인지도 의문스럽기는 합니다. 소리에 영향을 주는 것은 단순히 왜율만이 아니기 때문입니다. 스피커는 주파수별 응답성이 판이하게 다른 경우도 많고 제동성도 서로 다 다르기 때문입니다. 아무튼 왜율로만 봐도 스피커는 앰프보다 100배는 부정확한 물건임에는 틀림없습니다.
여기서 왜율에 대해 약간 부연설명하자면 위 그래프에서 보면 빨간 선이 보이는데 이것은 THD에 포함되지 않는 노이즈입니다. 전고조파왜율이라는 것은 기음에 대해 그 배음들이 얼마나 크게 재생되는지를 말하는 것이어서 그 배음과 배음 사이에 형성되어 있는 일반 노이즈에 대해서는 계산하지 않습니다. 그러나 애당초 넣어준 데이터에는 1000 헬츠의 신호 밖에는 없었는데 그 외의 노이즈가 생겨 있으니 이도 모두 계산하는게 맞다 싶기도 합니다. 그래서 전고조파왜율에 일반 노이즈를 합친 결과를 써주기도 하는데 THD+N 이라 표시합니다. 이 수치는 제법 올라가기도 하는데 그래도 그게 무슨 의미가 있는건가 싶기도 합니다. 왜냐면 100만원짜리나 1000만원짜리나 이 THD+N 수치가 엇비슷하게 나오거든요.