2013년 8월 5일 월요일

[MPEG] 105차 MPEG Audio - 3D Audio RM selection

The world Capital of music, Vienna라고 시의 관계자가 얘기하더군요. 음악도시 비엔나에서 105차 MPEG회의가 있었습니다. 예전처럼 오디오 서브그룹에서 있었던 일들을 스케치합니다. 


(vienna 시청에서 있었던 social 사진입니다. 왼쪽부터 Vienna 시관계자, HoD, 컨비너 레오나르도, 모짤트 후손 현악 4중주, 그리고plural MPEGers.)

미리 작정했던 것은 아니지만, 음악 도시에서 진행한 회의에 매우 걸맞게도 이번 회의에서는 MPEG-H 3D Audio에 대한 RM (Reference Model) 에 대한 뚜껑이 열린 회의입니다. 즉, 3D Audio에 대한 RM winner를 결정하는 회의였습니다. (그런데, 파주에서 하는 회의를 서울 회의라고 해야할까요? 여튼 여느때처럼 서울로치면 파주같은 외딴 곳에서 회의를 했습니다.)

3D Audio CfP까지의 history는 요기의 103차 회의 요약을 참고하시면 될 것 같습니다. 

먼저, 3D Audio 1등 뽑기 선발대회에는 총 7개 기관이 도전~ 하였습니다. 앞서의 길었던 논쟁끝에 CO (Channel + Object)부문과 HOA (High Order Ambisonic) 부문에서 각각 1등을 가려보기로 하였었죠. 
CO진영에서는 FhG-IIS, ETRI, FhG-IDMT, Sony 4개 기관이 출전을 하였고, 예상을 별로 깨지 않고, FhG-IIS가 Winner가 되었습니다. 벌써 얼마째 독식인지 모르겠습니다. (MPEG이 생긴이래, 그러니까 MP3가 있은 이래 21년째 쭈욱 독식 혹은 공동우승 입니다.)

나머지의 순위는 위에 쓴 순서대로 입니다. 한국에서는 ETRI가 유일하게 출전을 했었고, 원래 1등하던 애 빼고 가장 좋은 성적을 올렸으니, 당당하게 귀국해도 되는 것 같습니다. 특히 그 밑으로 FhG-IDMT (같은 프라운호퍼의 또다른 연구소입니다)와 Sony가 있다면 더욱…
특히나, IDMT는 IIS와 architecture와 코덱을 공유하고 (사실상 IIS 코덱을 그대로 가져오고), 후단의 rendering 부분만 다르게 했는데 (비유하자면 기울어진 운동장에서 축구를 하는 오디오 서브그룹에서 고도가 높은 쪽에 서서 게임을 펼쳤는데), 상대편(ETRI)에 진 셈입니다. 
아래 그림이 최종 성적표입니다. (여러가지 음질평가 결과와 연산량을 하나의 숫자로 합쳐서 이 점수를 가지고 1등을 가리는 방법을 사용했습니다. 이를 FoM: Figure of Merit이라고 합니다.)




(3D Audio CO (Channel+Object) 출전 최종 성적표 - 이 그림이 MPEG 대외비인지 확실치 않으나, 애매할 땐 전 겁없이 그냥 일단 넣고 봅니다...^^)


한편 HOA진영은 Technicolor (전신이 Thomson인 이젠 R&D만 하는 회사), Orange Lab (France Telecom 부설연구소), Qualcomm의 3개 회사가 출전했는데, 알고보니 (예상했지만) 유럽파 Technicolor와 Orange Lab이 동맹을 맺고 미쿡의Qualcomm을 간발차로 눌렀습니다. 그래서, Technicolor-Orange joint proposal이 winner가 되었습니다. Qualcomm은 아쉬운대로 RM에 merge할만한 기술이 있는지 CE (Core Experiment) 형태로 다음 미팅까지 알아보기로 하였습니다. 아래 HOA의 FoM 성적표. 

(3D Audio HOA (High Order Ambisonics) 출전 최종 성적표)

여기까지는 사실 크게 놀라울 일도 흥미진진한 결과도 아니었습니다. 다만, 어떤 architecture가 reference 모델이 될런지가 궁금했을 뿐이었죠. 동시대 사람들의 생각은 대략 비슷해서, 사실 4개 회사 3개회사씩이 출전을 했다고 해도 제안된 방법이 그닥 제각각이지 않습니다. 오히려 CfP의 내용을 뚫어져라 쳐다보면 운신의 폭이 넓지 않음을 알죠. 결론적으로 비슷한 아키텍처를 누가 더 정교하게 (버그없이) Encoder를 잘 구현하고 최적화하느냐의 싸움이 되곤 합니다.
MPEG-H 3D Audio의  CO부문 winner technology의 architecture는 다음 그림과 같습니다. 

(쩝… 여기서 살짝 소심해져서... 아직은 IIS의 asset인 도면을 여기 public release해도 되는 건지 불명확하여 좀 더 알아보고 추가하겠습니다.)

(우선 말로 설명하자면), 기존의 MPEG 기술들인 USAC, SAOC를 전송을 위한 코덱으로 가져 오고요 (CfP에서 기존 MPEG 기술 사용을 highly recommend한다고 했었죠), 그 후단에 renderer 혹은 format converter라고 명한 믹싱 및 렌더링 기술이 추가된 형태입니다. USAC은 channel 및 object에 대한 core codec으로 사용됩니다. (object는 개별을 하나의 오디오 채널로 간주.) Bitrate이 낮아서 많은 object를 수용하지 못하는 경우는 SAOC를 사용할 수 있습니다. optional이라고 써있지만 standard에서의 optional은 아니고, bitrate 에 따라 "선택적"으로 사용된다는 의미입니다. 

Object로 전송된 입력인 경우는 우선 채널로 매칭시키기 위한 object renderer를 거치게 됩니다. Object와 채널 신호를 mixing하고 나면, 이제 사용자의 재생 환경 (스피커냐 헤드폰이냐, 스피커면 몇 개가 어느 위치에 layout되어 있느냐 등등)에 맞게 재처리하는 과정이 남았습니다. 헤드폰으로 나가는 경우는 binaural renderer를 거치고, 그 밖의 스피커로 재생되는 경우는 format converter를 거칩니다. format converter는 현시점은 black box입니다. 신기한 별것이 있을 수도 별 것 없을 수도 있는 것 같습니다만 IIS에서는 이쪽에 많은 노력을 기울인 것 같습니다. 
이번 미팅에서 IIS가 별도록 가져온 기고 중에 "active downmix"라는 개념을 소개하는 것이 있는데, 시간 및 주파수에 따라 서로 다른 mixing gain을 이용하는 downmix라고 볼 수 있습니다. downmix 과정에서 필연적으로 발생하는 (제가 생각할때, "여전히" 숙제가 많은 연구 주제) 여러가지 artifacts들을 그나마 해결할 수 있다고 얘기합니다. 3D Audio 표준의 이해에서 핵심부분이 될 수도 있습니다. 

코덱으로 사용한 기존 표준인 USAC (ISO/IEC 23003-3, MPEG-D)과 SAOC (ISO/IEC 23003-2, MPEG-D)도 그대로 사용하는 것은 아니고, 일부 modification 을 했습니다. 현시점에서 USAC, SAOC도 모르는데 바뀐걸 설명해 뭐하겠습니? ^^
그런데, 여기서도 약간의 이슈가 있었습니다. substantially better하지 않으면, 굳이 기존 표준을 버리거나 바꾸지 않아야 한다는 CfP 문구가 있어서, IIS가 제안한 변경이 굳이 두 스펙을 새로 정의해서 써야할만한 수준인지를 검사해야한다는 요청이 있었습니다 (필립스가 그런 요청을…). 아마 다음 미팅에 IIS는 평가실험을 잘(?) 해서 이와 같은 변경이 "반드시" 필요하다고 할 것이고, cross-check의 대상이 되지 않은 상황에서 별 이의제기 없이 그렇게 변형된 USAC과 변형된 SAOC가 포함된 3D Audio 표준이 만들어질 것으로 보입니다. 언제나 RM winner에게 내가하면 로맨스고 남이하면 불륜이죠.

요약하면 3D Audio CO는 압축은 기존에 잘 만들어둔 USAC과 SAOC를 가져온 후 22.2채널과 Object를 대응할 수 있도록 약간 확장을 하고, 뒤에서 format converter라는 renderer를 추가하여 다양한 flexibility에 대응한다.

HOA쪽은… 큰 틀에서보면 신호를 표현하고 생성하는 체계가 달라서 그렇지 개념적으로는 CO의 아키텍처랑 크게 다르지 않습니다. 입력 신호 가운데 중요한 신호 (predominant sound라고 명함)를 분리하고 나머지 (ambient)는 dimension을 최소화하여 보냅니다. 각각의 신호를 보내는데는 core codec으로 HE AAC (AAC+SBR)을 사용합니다. 기본 구조도 용어도 Qualcomm의 제안이나 winner인 Technicolor/Orange 제안이나 대동소이합니다. 향후 표준화 과정에서 HOA core codec으로도 USAC을 쓰자는 말이 매우 나올 것 같습니다. 
(한글 읽는 분들 가운데) HOA에 대한 관심은 상대적으로 적을 것이라 판단되어 상세 설명은 생략.

여기까지만 얘기가 되고 그냥 마무리 되면 MPEG이 아니지요? 화요일 오후에 갑자기 재밌는 이슈가 등장합니다. NHK가 새로운 information을 기고로 가져왔는데, 별 생각없이 발표를 본 즉, 일본에서 준비중인 UHDTV 시험방송(2016년 리오 올림픽에 진행 예정) 코덱으로 22.2채널로 확장한 기존의 AAC를 그냥 쓰겠다는 것이 주요 골자입니다. IIS도 좌장 스카일러도 뒤통수를 심하게 한 대씩 맞았습니다. 왜냐면, 지금껏 3D Audio 표준화의 motivation을 만들고, 특히나 "fast track (version 1) approach"라는 방안까지 마련하면서 표준화를 drive했던 동력이 바로 NHK였기 때문입니다. 즉, 3D Audio (CO) 빨리 만들면, 일빠로 일본 UHDTV 방송표준으로 들어가고, 연이어 모든 국가 표준으로 진입한다는 청사진.
그런데 NHK가 이제와서 갑자기 "어… 나 AAC 쓸건데?" 한거죠… 잘 생각해보면 NHK가 새로운 코덱 (compression)이 필요하다고 말한적은 한번도 없었던 것 같습니다. 모두 듣고 싶은대로 들었던 것이죠. 

Fast Track 논의 덕분에 이번 표준은 CE도 거의 하기 어려운 (WD 다음 미팅에 바로 CD를 issue하는 초고속 표준화) 지경이었습니다. MPEG Audio 전통의 CE를 통한 기술 발전 도모가 사실상 불가능하고 winner takes all 이 될 분위기였습니다. 그런데 이렇게 서둘러야할 동력을 잃었으니, 다시 정상 속도로 돌아갈만도 한데, 그렇지 않네요. 역시 IIS. 그냥 계획한대로 달려갈 기세입니다. 그리고선 Version 2 (normal track)은 bitstream compatible해야 하고 등등 제약을 들어서 또한 크게 새로운 CE를 하지 못하게 할 것이 분명해보입니다. 그렇게 되면 실질적으로 IIS 혼자 만든 표준이 되는거죠 (CO의 경우).

이거 상당히 위험한 결정입니다. (이름이 국제표준인데 한회사 기술로만 완성된다면, 이해관계자들이 없어져서 아무도 표준을 사용하려 들지 않을 것이죠.) IIS의 자신감이 하늘을 찌르는 것 같습니다. 강하면 부러진다고 했는데, USAC 이후 요즘은 좀 많이 가고 있는 것 같습니다. 이런 모습 볼 때마다 이눔의 표준화 계속 하는게 국가차원에서 과연 옳은 일인가? (해묵은 질문일 뿐이죠.)
Offside trap. 오디오 서브그룹에서 한중일을 포함하여 FhG 아닌 회사들이 갑자기 확 빠져나가면 어떻게 될까요? 판을 크게 다르게 만들 수 있는 불가능하지 않은 방법이라고 생각합니다만..., 왜 그렇게 안될까요? 


Small CfP for DRC 
오디오 업계에 또한 해묵고 중요한 이슈 중에 하나가 DRC입니다. (DRC: Dynamic Range Control). TV에서 자동음량(Auto Volume)이라고 부르는 놈이 이와 관련된 기능인데요. 언능 생각하면 AGC (Automatic Gain Control). 이거 쉬운거 아닌가? 생각할 수 있습니다. 

DRC에 대한 얘기는 별도로 한번 좀 더 생각을 정리해보는게 좋을 것 같네요. (쓰고나서 나중에 여기 링크 달자!)

하여간 처음에 Apple의 Frank Baumgarte (여기도 얘기하자면 한참 할말이 있는데, 일단 Christof Faller와 함께 BCC 논문을 같이 쓴 저자라고만 해두죠)가 지난 인천 미팅에 띵하고 나타나서 언급한게 시작이 되어서, 이번 미팅에 긴급히 CfP (Call for Proposal)이 issue되었습니다. 

조금 과하게 얘기하자면, 3D Audio보다 많은 User에게 더 큰 혜택을 제공할 수 있는 이슈가 아닐까 생각해봅니다. 그리고, 여전히 MPEG이란 곳은 특허라는 칼날을 지닌 채 기술을 논하는 자리인지라… Apple이 제안한 기술을 정당하게 표준으로 만들기 위해 CfP를 issue하는 절차적 공정성을 부여하였습니다. 

SAOC-DE CD 
이 화제도 지난 104차 인천미팅에서 처음 등장했는데요. 앞서 3D Audio의 부분 기술로도 삽입된, "본격 Object 부호화"의 핵심인 SAOC가 아직 market deploy가 더디 가고 있는 가운데, DVB 등 방송표준측의 요청으로, 방송에서의 Dialogue (배경음과 구별되는 대사)를 보다 flexible하게 control할 수 있는 방법을 추구하고 있었는가 봅니다. 이를 별도 데이터 전송으로 해결할 수 있는 the only solution으로 SAOC가 급부상한 것이죠. 그래서, 이와 같은 application에 맞도록 SAOC-DE (Diaologue Enhancement)라는 새로운 profile을 만들었고, 이 표준이 이번 미팅에서 CD로 올라가서 본격적인 표준화 track에 들어갔습니다. 한국에서는 LG와 ETRI가 Dolby, FhG-IIS, Philips와 함께 표준화에 열심히 참여했었던 기술입니다. 표준이 추구하는 바는 L모사 TV에 탑재되어 있는 "Clear Voice II"같은  기술과 유사한데, encoder가 보내주는 부가정보를 이용하여 훨씬 고품질로 구현하자는 것입니다. 

마무리
평소보다 AhG meeting이 반나절 더 있는 (토요일 오후부터 그다음주 금요일까지) 긴 미팅이었고, 다양한 episode가 있는 재밌는 미팅이었습니다. 여느때처럼 금요일 plenary가 끝나는대로 짐을 싸서 다른 도시로 향했습니다. 이번엔 빈필이 여름 휴가를 가있는 잘츠부르크로 가서 클래식의 빅 이벤트 공연을 즐기는 행운을 가졌었습니다. 
향후 번갯불콩으로 3D Audio 표준화가 진행될 것 같습니다. 강건너 불구경하다 보면, 20년전 그랬다가 10년전 된통 당하던(MP3, AC3 특허 로열티) 전철을 다시 밟을수도 있을 것입니다. 

오현오/genioho

댓글 2개:

  1. 오현오박사님! LG전자 이석진입니다. 오박사님의 후기를 읽고 나니 마치 서울에 앉아서 비엔나를 다녀온 기분이군요..ㅎㅎ NHK가 test item을 제출하지 않았을 때도 "으잉?" 했었는데, 심지어 "니네꺼 안쓸래" 했다니.. (심지어 "빨리 만들어주면 일부는 한번 써 볼 수도 있고.." 였다지요?)
    FhG-IIS 입장에서도 표준 독식하게 되면 방송쪽에 표준 팔아먹을 때에도 혼자 싸워야되서 불리하지 않나 싶은데.. 말씀하신대로 FhG-IIS가 밀어붙이는 상황이 그들에게도, MPEG에게도 독이 되는 상황이 아닌가 싶네요.

    답글삭제
  2. 피드백 감사! (블로거 사용법을 몰라서, 작성물이 자동 게시된 것이 아니었네^^)

    답글삭제