Spaces:

mippia
/

AI-Music-Detection-FST

Running on Zero

AI-Music-Detection-FST / ICASSP_2026 /wav2vec /utils /mfcc.py

Seonghyeon Go

fix some typo

8f94ca9 4 months ago

9.81 kB

	import os
	import glob
	import librosa
	import numpy as np
	import torch
	import torch.nn as nn
	import torch.optim as optim
	from torch.utils.data import Dataset, DataLoader, random_split
	import torch.nn.functional as F
	from sklearn.metrics import precision_score, recall_score, f1_score
	from tqdm import tqdm
	import argparse
	import wandb

	class RealFakeDataset(Dataset):
	"""
	audio/FakeMusicCaps/
	├─ real/
	│ └─ MusicCaps/*.wav (label=0)
	└─ generative/
	└─ .../*.wav (label=1)
	"""
	def __init__(self, root_dir, sr=16000, n_mels=64, target_duration=10.0):

	self.sr = sr
	self.n_mels = n_mels
	self.target_duration = target_duration
	self.target_samples = int(target_duration * sr) # 10초 = 160,000 샘플

	self.file_paths = []
	self.labels = []

	# Real 데이터 (label=0)
	real_dir = os.path.join(root_dir, "real")
	real_wav_files = glob.glob(os.path.join(real_dir, "*", ".wav"), recursive=True)
	for f in real_wav_files:
	self.file_paths.append(f)
	self.labels.append(0)

	# Generative 데이터 (label=1)
	gen_dir = os.path.join(root_dir, "generative")
	gen_wav_files = glob.glob(os.path.join(gen_dir, "*", ".wav"), recursive=True)
	for f in gen_wav_files:
	self.file_paths.append(f)
	self.labels.append(1)

	def __len__(self):
	return len(self.file_paths)

	def __getitem__(self, idx):
	audio_path = self.file_paths[idx]
	label = self.labels[idx]
	# print(f"[DEBUG] Path: {audio_path}, Label: {label}") # 추가

	waveform, sr = librosa.load(audio_path, sr=self.sr, mono=True)

	current_samples = waveform.shape[0]
	if current_samples > self.target_samples:
	waveform = waveform[:self.target_samples]
	elif current_samples < self.target_samples:
	stretch_factor = self.target_samples / current_samples
	waveform = librosa.effects.time_stretch(waveform, rate=stretch_factor)
	waveform = waveform[:self.target_samples]

	mfcc = librosa.feature.mfcc(
	y=waveform, sr=self.sr, n_mfcc=self.n_mels, n_fft=1024, hop_length=256
	)
	mfcc = librosa.util.normalize(mfcc)

	mfcc = np.expand_dims(mfcc, axis=0)
	mfcc_tensor = torch.tensor(mfcc, dtype=torch.float)
	label_tensor = torch.tensor(label, dtype=torch.long)

	return mfcc_tensor, label_tensor



	class AudioCNN(nn.Module):
	def __init__(self, num_classes=2):
	super(AudioCNN, self).__init__()
	self.conv_block = nn.Sequential(
	nn.Conv2d(1, 16, kernel_size=3, padding=1),
	nn.ReLU(),
	nn.MaxPool2d(2),
	nn.Conv2d(16, 32, kernel_size=3, padding=1),
	nn.ReLU(),
	nn.MaxPool2d(2),
	nn.AdaptiveAvgPool2d((4,4)) # 최종 -> (B,32,4,4)
	)
	self.fc_block = nn.Sequential(
	nn.Linear(3244, 128),
	nn.ReLU(),
	nn.Linear(128, num_classes)
	)


	def forward(self, x):
	x = self.conv_block(x)
	# x.shape: (B,32,new_freq,new_time)

	# 1) Flatten
	B, C, H, W = x.shape # 동적 shape
	x = x.view(B, -1) # (B, 32HW)

	# 2) FC
	x = self.fc_block(x)
	return x


	def my_collate_fn(batch):
	mel_list, label_list = zip(*batch)

	max_frames = max(m.shape[2] for m in mel_list)

	padded = []
	for m in mel_list:
	diff = max_frames - m.shape[2]
	if diff > 0:
	print(f"Padding applied: Original frames = {m.shape[2]}, Target frames = {max_frames}")
	m = F.pad(m, (0, diff), mode='constant', value=0)
	padded.append(m)


	mel_batch = torch.stack(padded, dim=0)
	label_batch = torch.tensor(label_list, dtype=torch.long)
	return mel_batch, label_batch


	class EarlyStopping:
	def __init__(self, patience=5, delta=0, path='./ckpt/mfcc/early_stop_best_batch_{batch_size}_epochs_{epochs}_lr_{learning_rate}.pth', verbose=False):
	self.patience = patience
	self.delta = delta
	self.path = path
	self.verbose = verbose
	self.counter = 0
	self.best_loss = None
	self.early_stop = False

	def __call__(self, val_loss, model):
	if self.best_loss is None:
	self.best_loss = val_loss
	self._save_checkpoint(val_loss, model)
	elif val_loss > self.best_loss - self.delta:
	self.counter += 1
	if self.verbose:
	print(f"EarlyStopping counter: {self.counter} out of {self.patience}")
	if self.counter >= self.patience:
	self.early_stop = True
	else:
	self.best_loss = val_loss
	self._save_checkpoint(val_loss, model)
	self.counter = 0

	def _save_checkpoint(self, val_loss, model):
	if self.verbose:
	print(f"Validation loss decreased ({self.best_loss:.6f} --> {val_loss:.6f}). Saving model ...")
	torch.save(model.state_dict(), self.path)

	def train(batch_size, epochs, learning_rate, root_dir="audio/FakeMusicCaps"):
	if not os.path.exists("./ckpt/mfcc/"):
	os.makedirs("./ckpt/mfcc/")

	wandb.init(
	project="AI Music Detection",
	name=f"mfcc_batch_{batch_size}_epochs_{epochs}_lr_{learning_rate}",
	config={"batch_size": batch_size, "epochs": epochs, "learning_rate": learning_rate},
	)

	dataset = RealFakeDataset(root_dir=root_dir)
	n_total = len(dataset)
	n_train = int(n_total * 0.8)
	n_val = n_total - n_train
	train_ds, val_ds = random_split(dataset, [n_train, n_val])

	train_loader = DataLoader(train_ds, batch_size=batch_size, shuffle=True, collate_fn=my_collate_fn)
	val_loader = DataLoader(val_ds, batch_size=batch_size, shuffle=False, collate_fn=my_collate_fn)

	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	model = AudioCNN(num_classes=2).to(device)
	criterion = nn.CrossEntropyLoss()
	optimizer = optim.Adam(model.parameters(), lr=learning_rate)

	best_val_loss = float('inf')
	patience = 3
	patience_counter = 0

	for epoch in range(1, epochs + 1):
	print(f"\n[Epoch {epoch}/{epochs}]")

	# Training
	model.train()
	train_loss, train_correct, train_total = 0, 0, 0
	train_pbar = tqdm(train_loader, desc="Train", leave=False)
	for mel_batch, labels in train_pbar:
	mel_batch, labels = mel_batch.to(device), labels.to(device)
	optimizer.zero_grad()
	outputs = model(mel_batch)
	loss = criterion(outputs, labels)
	loss.backward()
	optimizer.step()

	train_loss += loss.item() * mel_batch.size(0)
	preds = outputs.argmax(dim=1)
	train_correct += (preds == labels).sum().item()
	train_total += labels.size(0)

	train_pbar.set_postfix({"loss": f"{loss.item():.4f}"})

	train_loss /= train_total
	train_acc = train_correct / train_total

	# Validation
	model.eval()
	val_loss, val_correct, val_total = 0, 0, 0
	all_preds, all_labels = [], []
	val_pbar = tqdm(val_loader, desc=" Val ", leave=False)
	with torch.no_grad():
	for mel_batch, labels in val_pbar:
	mel_batch, labels = mel_batch.to(device), labels.to(device)
	outputs = model(mel_batch)
	loss = criterion(outputs, labels)
	val_loss += loss.item() * mel_batch.size(0)
	preds = outputs.argmax(dim=1)
	val_correct += (preds == labels).sum().item()
	val_total += labels.size(0)
	all_preds.extend(preds.cpu().numpy())
	all_labels.extend(labels.cpu().numpy())

	val_loss /= val_total
	val_acc = val_correct / val_total
	val_precision = precision_score(all_labels, all_preds, average="macro")
	val_recall = recall_score(all_labels, all_preds, average="macro")
	val_f1 = f1_score(all_labels, all_preds, average="macro")

	print(f"Train Loss: {train_loss:.4f} Acc: {train_acc:.3f} \| "
	f"Val Loss: {val_loss:.4f} Acc: {val_acc:.3f} "
	f"Precision: {val_precision:.3f} Recall: {val_recall:.3f} F1: {val_f1:.3f}")

	wandb.log({"train_loss": train_loss, "train_acc": train_acc,
	"val_loss": val_loss, "val_acc": val_acc,
	"val_precision": val_precision, "val_recall": val_recall, "val_f1": val_f1})

	if val_loss < best_val_loss:
	best_val_loss = val_loss
	patience_counter = 0
	best_model_path = f"./ckpt/mfcc/best_batch_{batch_size}_epochs_{epochs}_lr_{learning_rate}.pth"
	torch.save(model.state_dict(), best_model_path)
	print(f"[INFO] New best model saved: {best_model_path}")
	else:
	patience_counter += 1
	if patience_counter >= patience:
	print("Early stopping triggered!")
	break

	wandb.finish()

	if __name__ == "__main__":
	parser = argparse.ArgumentParser(description="Train AI Music Detection model.")
	parser.add_argument('--batch_size', type=int, required=True, help="Batch size for training")
	parser.add_argument('--epochs', type=int, required=True, help="Number of epochs")
	parser.add_argument('--learning_rate', type=float, required=True, help="Learning rate")
	parser.add_argument('--root_dir', type=str, default="audio/FakeMusicCaps", help="Root directory for dataset")

	args = parser.parse_args()

	train(batch_size=args.batch_size, epochs=args.epochs, learning_rate=args.learning_rate, root_dir=args.root_dir)