논문 리뷰 - Tolerance Kim

도입

AI 생성 음악 탐지 연구는 보컬 탐지에서 시작했습니다. SONICS 이전의 연구는 AI가 생성한 보컬이 실제 반주 위에 합성된 경우를 다뤘고, 이 문제를 Singing Voice Deepfake Detection(SVDD)이라 부릅니다. SVDD는 보컬과 반주를 분리한 뒤 보컬의 합성 여부를 판단하는 방식입니다.

하지만 Suno, Udio 같은 서비스는 텍스트 프롬프트만으로 보컬, 반주, 곡 구조까지 전부 생성합니다. 분리할 “진짜 반주”가 없으니 기존 SVDD 접근을 적용할 수 없습니다.

Rahman et al.의 SONICS는 이 문제를 다룬 첫 번째 대규모 연구입니다. Suno와 Udio로 생성한 49,074곡과 실제 음악 48,090곡, 총 97,164곡(4,751시간)의 데이터셋을 공개하고, 긴 오디오에서 장기 패턴을 효율적으로 활용하는 SpecTTTra 모델을 제안합니다. 머신러닝 분야 주요 학회인 ICLR 2025에 채택되었고, 음악 정보 검색 알고리즘 평가 대회인 MIREX에서 2025년 AI 음악 탐지 부문 공식 데이터셋으로 선정되었습니다.

이 리뷰에서는 데이터셋 구성, SpecTTTra의 핵심 아이디어, 실험 결과를 살펴봅니다.

논문 정보

제목: SONICS: Synthetic Or Not – Identifying Counterfeit Songs

저자: Md Awsafur Rahman, Zaber Ibn Abdul Hakim, Najibul Haque Sarker, Bishmoy Paul, Shaikh Anowarul Fattah

소속: UC Santa Barbara, Virginia Tech, Santa Clara University, BUET

출판: ICLR 2025

논문: https://arxiv.org/abs/2408.14080

코드: https://github.com/awsaf49/sonics

핵심 요약

이 논문은 End-to-end AI 생성 음악 탐지를 위한 최초의 대규모 데이터셋 SONICS를 제안합니다. Suno와 Udio로 생성한 49,074곡의 AI 생성 음악과 유튜브에서 수집한 48,090곡의 실제 음악, 총 97,164곡(4,751시간)으로 구성됩니다.

기존 SVDD 데이터셋으로 학습한 모델은 SONICS에서 F1-score가 최대 $\text{62\%}$ 하락하여, End-to-end 생성 음악이 다른 특성을 가짐을 보여줍니다. 또한 5초 클립 대비 120초 클립에서 모든 모델의 성능이 향상되어(SpecTTTra-α: $+17\%$ ), 장기 패턴 활용이 중요함을 보여줍니다. 논문이 제안하는 SpecTTTra-α 모델은 120초 오디오에서 기존 모델(ConvNeXt) 대비 $67\%$ 메모리 절감하면서도 비슷한 성능( $\text{F1 0.97}$ )을 달성합니다.

1. 연구 배경

저자의 문제의식

저자들은 서론에서 AI 생성 음악의 발전이 음악 산업에 “상당한 위협(substantial threat)”이 될 수 있다고 말합니다. 전문 뮤지션의 수요 감소와 신인 인재 발굴 저해 가능성을 언급하며, 인간 창의성의 고유한 가치를 보존하고 공정한 창작 생태계를 유지하기 위해 탐지 기술이 필요하다고 주장합니다.

기존 데이터셋의 한계

기존 SVDD 데이터셋들은 몇 가지 구조적 한계가 있습니다.

데이터셋	End-to-end	평균 길이	총 시간	AI 생성 곡 공개
FSD[1]	X	216초	26시간	X
SingFake[2]	X	13.75초	58시간	X
CtrSVDD[3]	X	4.87초	307시간	O
SONICS	O	176초	4,751시간	O

End-to-end 열은 보컬뿐 아니라 반주까지 AI로 생성되었는지를 나타냅니다. 기존 데이터셋은 모두 X입니다.

Karaoke Effect: AI 보컬과 실제 반주를 결합하면 볼륨 불일치 같은 아티팩트가 발생합니다.¹ 탐지 모델이 이 아티팩트에 의존하면, 곡 전체가 AI로 생성된 경우(아티팩트가 없는 경우)에는 탐지에 실패합니다.
짧은 클립: 대부분 5~15초 클립으로 구성되어, 곡의 장기적 패턴(반복되는 후렴구, verse-chorus 전개 등)을 활용할 수 없습니다.
저작권 제한: 일부 데이터셋은 생성된 AI 생성 곡을 공개하지 않아 재현성이 떨어집니다.

기존 모델의 일반화 실패

논문은 SingFake 데이터셋으로 학습한 모델을 SONICS에서 평가했을 때 성능이 급격히 하락함을 보여줍니다. 아래 표의 ConvNeXt, ViT, EfficientViT는 이미지 분류에서 널리 쓰이는 딥러닝 모델들로, 오디오를 스펙트로그램 이미지로 변환한 뒤 분류하는 방식에 활용됩니다.

모델	SingFake F1	SONICS F1	하락폭
ConvNeXt	0.86	0.33	-62%
ViT	0.84	0.64	-24%
EfficientViT	0.88	0.35	-60%

SVDD에 최적화된 모델은 곡 전체가 AI로 생성된 경우에 무력합니다. 새로운 데이터셋과 접근법이 필요한 이유입니다.

2. 데이터셋 구성

실제 곡 (Real Songs)

실제 곡은 Genius Lyrics Dataset[4]에서 메타데이터(가사, 제목, 아티스트)를 수집한 후, 유튜브에서 해당 오디오를 검색하여 구축했습니다. 총 48,090곡, 9,096명의 아티스트가 포함됩니다.

AI 생성 곡 (Fake Songs)

AI 생성 곡은 Suno와 Udio를 활용해 생성했습니다.

Suno: v2 (최대 80초), v3 (최대 120초), v3.5 (최대 240초)

Udio: Udio 32 (32초), Udio 130 (130초)

생성 방식에 따라 세 가지 유형으로 분류됩니다.

유형	가사	스타일	곡 수
Full Fake (FF)	AI 생성	AI 생성	2,173
Mostly Fake (MF)	AI 생성 (실제 가사 특징 기반)	실제 곡에서 추출	40,769
Half Fake (HF)	실제 곡에서 직접 사용	실제 곡에서 추출	6,132

생성 파이프라인

Full Fake: 57개 대주제, 292개 세부 주제, 49개 장르, 72개 분위기를 무작위로 조합하여 GPT-4o로 가사와 스타일을 생성한 뒤, Suno/Udio로 곡을 생성합니다.

Mostly Fake: 실제 곡에서 GPT-4o로 가사 특징(주제, 테마, 구조 등)을 추출하고, 이를 바탕으로 새 가사를 생성합니다. 스타일은 Gemini 1.5 Flash로 실제 곡의 오디오를 분석하여 추출합니다.

Half Fake: Mostly Fake와 동일하나, 가사를 실제 곡에서 직접 사용합니다. Udio는 실제 가사 입력을 지원하지 않아 Suno로만 생성되었습니다.

품질 관리

보컬 필터링: 화자 분리 도구인 PyAnnote[5]로 보컬이 없는 오디오 제거
저작권 검증: 이미지 분류 모델 EfficientNetB0을 오디오에 적용해 생성 곡과 실제 곡의 유사도 비교, 상위 50곡 수동 검토
라이선스: CC BY-NC 4.0

3. SpecTTTra 모델

문제: 긴 오디오의 계산 비용

곡 전체의 패턴(반복되는 verse, chorus 전개, 리듬의 일관성 등)을 활용하려면 긴 오디오를 처리해야 합니다. 그러나 기존 모델들은 긴 오디오에서 효율성 문제가 있습니다.

CNN 계열 (ConvNeXt 등): 이미지의 작은 영역을 순차적으로 보는 방식입니다. 한 번에 좁은 영역만 보기 때문에 곡의 앞부분과 뒷부분처럼 멀리 떨어진 구간 사이의 관계를 포착하기 어렵습니다.

Transformer 계열 (ViT 등): 이미지 전체를 한 번에 볼 수 있지만, 이미지를 작은 조각(토큰)으로 나눠서 처리합니다. 문제는 오디오가 길어지면 토큰 수가 급격히 증가한다는 점입니다. 5초 오디오에서 64개였던 토큰이 120초 에서는 1,872개로 약 30배 증가합니다.² 계산량과 메모리 사용량도 함께 폭증합니다.

해법: Spectro-Temporal Tokenization

SpecTTTra는 이 문제를 해결하기 위해 토큰을 만드는 방식을 바꿉니다. 기존 ViT는 스펙트로그램을 가로 $\times$ 세로로 잘라 토큰을 만들기 때문에 토큰 수가 곱셈적으로 증가합니다. SpecTTTra는 시간축과 주파수축을 따로 잘라서 토큰을 만들기 때문에 덧셈적으로만 증가합니다.

결과적으로 같은 120초 오디오에서 토큰 수를 비교하면 다음과 같습니다.

ViT: $\text{1,872}$ 개 토큰
SpecTTTra: $560$ 개 토큰 (약 3.4배 적음)

모델 변형

SpecTTTra는 토큰을 얼마나 촘촘하게 만드느냐에 따라 세 가지 변형이 있습니다.

SpecTTTra-α: 토큰이 가장 많음 -> 최고 성능
SpecTTTra-β: 중간
SpecTTTra-γ: 토큰이 가장 적음 -> 최고 효율

핵심 아이디어

기존 연구들은 시간 정보만 사용하거나, 시간 주파수를 분리하되 토큰화 방식은 ViT와 동일해서 비효율적이었습니다. SpecTTTra는 토큰화 단계에서 시간/주파수를 분리하고, 이후 함께 처리하여 효율성과 성능을 모두 확보합니다.

4. 실험 결과

평가 지표 정의

본 논문은 Real/Human을 Negative class, Fake/AI를 Positive class로 정의합니다.

핵심 아이디어

Sensitivity: AI 생성 곡을 AI 생성으로 정확히 탐지하는 비율
Specificity: 실제 곡을 실제로 정확히 탐지하는 비율

오디오 길이의 영향

5초와 120초 오디오에서의 성능을 비교합니다.

모델	5초 F1	120초 F1	향상폭
ConvNeXt	0.90	0.96	+6%
ViT	0.79	0.89	+10%
EfficientVit	0.87	0.95	+8%
SpecTTTra-α	0.80	0.97	+17%

모든 모델에서 120초가 5초보다 성능이 우수합니다. 특히 SpecTTTra-α는 5초에서 ConvNeXt에 $10\%$ 뒤지지만( $0.80$ vs $0.90$ ), 120초에서는 역전합니다( $0.97$ vs $0.96$ ). 긴 오디오에서 장기 패턴을 활용하는 능력이 중요함을 보여줍니다.

생성 플랫폼별 성능

120초 기준 플랫폼별 Sensitivity입니다.

모델	Suno v2	Suno v3	Suno v3.5	Udio 32	Udio 130
ConvNeXt	0.77	0.99	0.99	0.95	1.00
SpecTTTra-α	0.78	0.99	1.00	0.96	1.00

Suno v2, v3, Udio 32는 학습에 포함되지 않은 플랫폼입니다. 120초에서는 대부분 잘 탐지되지만, 5초에서는 Udio 32 탐지가 특히 어렵습니다.³

효율성

120초 오디오 기준 처리 속도(초당 처리 가능한 오디오 수)와 메모리 사용량입니다.

모델	속도(개/초)	메모리(GB)	F1
ConvNeXt	39	11.7	0.96
ViT	34	5.3	0.89
SpecTTTra-γ	97	1.6	0.88
SpecTTTra-α	47	3.9	0.97

SpecTTTra-α는 ConvNeXt와 비슷한 성능 ( $\text{F1 }$ $0.97$ vs $0.96)$ 을 내면서 메모리는 $67\%$ 적게 사용합니다.

구성 요소별 기여도: 시간/주파수 토큰의 상호보완성

구성	5초 F1	120초 F1
Temporal only	0.76	0.91
Spectral only	0.75	0.92
Both (SpecTTTra-α)	0.80	0.97

시간 정보와 주파수 정보를 함께 사용할 때 $5$ ~ $6\%$ 의 추가 성능 향상이 있습니다.

Human-AI 비교

25초 클립으로 인간 평가자와 AI 모델을 비교했습니다.

평가 대상	Human	ConvNeXt	SpecTTTra-α
Suno v3.5	0.82	0.99	0.99
Udio 32	0.23	0.67	0.33
Overall F1	0.71	0.92	0.83

AI 모델이 전반적으로 인간보다 우수하지만, Udio 32는 인간과 AI 모두 탐지에 어려움을 겪습니다.

일반화 테스트

학습에 포함되지 않은 다른 AI 음악 서비스(중국의 SkyMusic, SeedMusic)로 평가한 결과입니다.

모델	SeedMusic	SkyMusic
ConvNeXt	0.36	0.19
SpecTTTra-γ	0.80	0.60

ConvNeXt는 SONICS 내에서 최고 성능이었지만, 새로운 플랫폼에서는 급락합니다. SpecTTTra가 일반화에 더 강합니다.

5. 기여와 한계

주요 기여

최초의 대규모 End-to-end 데이터셋: $97,164$ 곡, $4,751$ 시간, Suno/Udio 포함
장기 시간 의존성의 중요성 입증: 120초가 5초보다 일관되게 우수
효율적인 모델 제안: SpecTTTra는 성능과 효율성 모두 확보
Human-AI 벤치마크: 인간 평가 기준 최초 제공

한계

영어 전용: 다국어 지원 부재
성별 편향: 남성 보컬 위주
일반화 문제: Suno/Udio 외의 생성 서비스(SkyMusic, SeedMusic 등)에서 성능 하락
Half Fake 제한: Udio가 실제 가사 입력을 지원하지 않아 Suno만 포함
Mel Spectrogram 한정: raw audio, LFCC, MFCC 등 다른 특징 미탐구

향후 연구 방향

다국어 확장
더 큰 모델 버전 비교
대규모 오디오 데이터셋에서 사전학습 후 fine-tuning

마무리

SONICS는 “곡 전체가 AI로 생성된 음악”의 탐지라는 문제를 처음으로 대규모로 정의하고 벤치마크를 제공한 연구입니다.

기존 SVDD 모델이 End-to-end 생성 음악에서 F1이 최대 $62\%$ 하락한다는 결과는 “AI 보컬 탐지”와 “AI 음악 탐지”가 다른 문제임을 보여줍니다. 5초보다 120초에서 모든 모델의 성능이 향상된다는 점은 곡에 내재된 장기적 패턴이 탐지의 핵심 단서임을 의미합니다. 논문 작성 시점에서 AI 생성 모델이 곡 전체의 일관성을 유지하는 데 어려움을 겪고 있다는 뜻이기도 합니다. SpecTTTra는 토큰 수를 3.4배 줄이면서 이런 긴 오디오를 효율적으로 처리하는 방법을 제시합니다.

120초에서 성능이 향상된다는 것은 논문 작성 시점에서 AI 생성 모델이 곡 전체의 일관성을 유지하는 데 약점을 보인다는 뜻이기도 합니다. 현 시점에서도 이 약점이 탐지의 실마리가 되지만, 생성 기술은 빠르게 발전하고 있습니다. 완벽한 일관성을 갖춘 생성 모델이 등장한다면 어떤 사회적 현상이 벌어질지, 그때는 어떤 탐지 기술이 연구될지, 앞으로의 전개가 궁금합니다.

참고문헌

[0] Rahman, M. A., Hakim, Z. I. A., Sarker, N. H., Paul, B., & Fattah, S. A. (2025). SONICS: Synthetic Or Not – Identifying Counterfeit Songs. In International Conference on Learning Representations (ICLR 2025). arXiv:2408.14080.

[1] Xie, Y., Zhou, J., Lu, X., Jiang, Z., Yang, Y., Cheng, H., & Ye, L. (2024). FSD: An initial chinese dataset for fake song detection. In ICASSP 2024 (pp. 4605-4609). IEEE. ↩︎

[2] Zang, Y., Zhang, Y., Heydari, M., & Duan, Z. (2024). SingFake: Singing voice deepfake detection. In ICASSP 2024 (pp. 12156-12160). IEEE. ↩︎

[3] Zang, Y., Shi, J., Zhang, Y., Yamamoto, R., Han, J., Tang, Y., Xu, S., Zhao, W., Guo, J., & Toda, T. (2024). CtrSVDD: A benchmark dataset and baseline analysis for controlled singing voice deepfake detection. arXiv preprint arXiv:2406.02438. ↩︎

[4] J., Carlos G. D. C. (2023). Genius song lyrics with language information. Kaggle. https://www.kaggle.com/datasets/carlosgdcj/genius-song-lyrics-with-language-information ↩︎

[5] Bredin, H., & Laurent, A. (2021). End-to-end speaker segmentation for overlap-aware resegmentation. arXiv preprint arXiv:2104.04045. ↩︎

Karaoke Effect는 AI 생성 보컬과 실제 반주를 결합할 때 발생하는 볼륨 불일치 현상입니다. 보컬과 반주가 별도로 녹음/생성되어 믹싱되기 때문에 발생하며, 곡 전체가 AI로 생성된 경우에는 나타나지 않습니다. ↩︎
논문의 전처리 설정( $\text{16kHz}$ 리샘플, $\text{n\_mels=128}$ , $\text{hop\_length=512}$ )에서 5초 입력은 $128\times128$ , 120초 입력은 $128\times3744$ 스펙트로그램이 된다. 시간축 프레임 수 $T$ 가 각각 $128$ 과 $3744$ 일 때, ViT의 토큰 수는 $64$ 에서 $1,873$ 로 약 30배 증가하고, SpecTTTra는 $43$ 에서 $560$ 으로 약 13배 증가에 그쳐 장시간 입력에서 토큰 증가가 완만하다. ↩︎
Udio 32가 탐지하기 어려운 이유에 대해 논문은 명확히 설명하지 않습니다. Human-AI 벤치마크에서 Udio가 다중 보이스와 고음역 생성이 가능하다는 점을 언급하는데, 이를 바탕으로 Udio가 더 다양한 음악적 특성을 생성할 수 있어 탐지가 어려울 가능성이 있다는 가설을 세울 수 있습니다. 다만 이는 추측일 뿐, 논문이 직접 검증한 인과관계는 아닙니다. ↩︎

[카테고리:] 논문 리뷰

SONICS: End-to-End AI 생성 음악 탐지를 위한 대규모 데이터셋

도입

논문 정보

핵심 요약

1. 연구 배경

저자의 문제의식

기존 데이터셋의 한계

기존 모델의 일반화 실패

2. 데이터셋 구성

실제 곡 (Real Songs)

AI 생성 곡 (Fake Songs)

생성 파이프라인

품질 관리

3. SpecTTTra 모델

문제: 긴 오디오의 계산 비용

해법: Spectro-Temporal Tokenization

모델 변형

핵심 아이디어

4. 실험 결과

평가 지표 정의

핵심 아이디어

오디오 길이의 영향

생성 플랫폼별 성능

효율성

구성 요소별 기여도: 시간/주파수 토큰의 상호보완성

Human-AI 비교

일반화 테스트

5. 기여와 한계

주요 기여

한계

향후 연구 방향

마무리

참고문헌