Spaces:

Pendrokar
/

xVASynth-TTS

Running on CPU Upgrade

App Files Files Community

Pendrokar commited on Mar 10, 2024

Commit

328b0e0

1 Parent(s): 61cef98

fastpitch diff return response

Browse files

Files changed (2) hide show

app.py +47 -31
gr_client.py +22 -9

app.py CHANGED Viewed

@@ -26,7 +26,7 @@ current_voice_type = None
 base_speaker_emb = ''
 def load_model(voice_model_name):
-	global current_voice_model, current_voice_type
 	if voice_model_name == 'x_selpahi':
 		# Lojban
@@ -47,8 +47,6 @@ def load_model(voice_model_name):
 		'pluginsContext': '{}',
 	}
-	embs = base_speaker_emb
 	print('Loading voice model...')
 	try:
 		json_data = xvaserver.loadModel(data)
@@ -59,13 +57,13 @@ def load_model(voice_model_name):
 		    voice_model_json = json.load(f)
 		if model_type == 'xVAPitch':
-			embs = voice_model_json['games'][0]['base_speaker_emb']
 		elif model_type == 'FastPitch1.1':
-			embs = voice_model_json['games'][0]['resemblyzer']
 	except requests.exceptions.RequestException as err:
 		print(f'FAILED to load voice model: {err}')
-	return embs
 class LocalBlocksDemo(BlocksDemo):
@@ -83,12 +81,14 @@ class LocalBlocksDemo(BlocksDemo):
 		surprise,
 		use_deepmoji
 	):
 		# grab only the first 1000 characters
 		input_text = input_text[:1000]
 		# load voice model if not the current model
 		if (current_voice_model != voice):
-			base_speaker_emb = load_model(voice)
 		model_type = current_voice_type
 		pace = pacing if pacing else 1.0
@@ -144,34 +144,50 @@ class LocalBlocksDemo(BlocksDemo):
 		# with open('resources/app/server.log', 'r') as f:
 		# 	print(f.read())
-		arpabet_html = '<h6>ARPAbet & Phoneme lengths</h6>'
-		arpabet_symbols = json_data['arpabet'].split('|')
-		utter_time = 0
-		for symb_i in range(len(json_data['durations'])):
-			# skip PAD symbol
-			if (arpabet_symbols[symb_i] == '<PAD>'):
-				continue
-			length = float(json_data['durations'][symb_i])
-			arpa_length = str(round(length/2, 1))
-			arpabet_html += '<strong\
-				class="arpabet"\
-				style="padding: 0 '\
-				+ str(arpa_length)\
-				+'em"'\
-				+f" title=\"{utter_time} + {length}\""\
-				+'>'\
-				+ arpabet_symbols[symb_i]\
-				+ '</strong> '
-			utter_time += round(length, 1)
 		return [
 			save_path,
 			arpabet_html,
-			round(json_data['em_angry'][0], 2),
-			round(json_data['em_happy'][0], 2),
-			round(json_data['em_sad'][0], 2),
-			round(json_data['em_surprise'][0], 2),
 			json_data
 		]

 base_speaker_emb = ''
 def load_model(voice_model_name):
+	global current_voice_model, current_voice_type, base_speaker_emb
 	if voice_model_name == 'x_selpahi':
 		# Lojban
 		'pluginsContext': '{}',
 	}
 	print('Loading voice model...')
 	try:
 		json_data = xvaserver.loadModel(data)
 		    voice_model_json = json.load(f)
 		if model_type == 'xVAPitch':
+			base_speaker_emb = voice_model_json['games'][0]['base_speaker_emb']
 		elif model_type == 'FastPitch1.1':
+			base_speaker_emb = voice_model_json['games'][0]['resemblyzer']
 	except requests.exceptions.RequestException as err:
 		print(f'FAILED to load voice model: {err}')
+	return base_speaker_emb
 class LocalBlocksDemo(BlocksDemo):
 		surprise,
 		use_deepmoji
 	):
+		global current_voice_model, current_voice_type, base_speaker_emb
 		# grab only the first 1000 characters
 		input_text = input_text[:1000]
 		# load voice model if not the current model
 		if (current_voice_model != voice):
+			load_model(voice)
 		model_type = current_voice_type
 		pace = pacing if pacing else 1.0
 		# with open('resources/app/server.log', 'r') as f:
 		# 	print(f.read())
+		arpabet_html = ''
+		if voice == 'x_selpahi':
+			angry = 0
+			happy = 0
+			sad = 0
+			surprise = 0
+		else:
+			arpabet_html = '<h6>ARPAbet & Durations</h6>'
+			arpabet_html += '<table style="margin: 0 var(--size-2)"><tbody><tr>'
+			arpabet_nopad = json_data['arpabet'].split('|PAD|')
+			arpabet_symbols = json_data['arpabet'].split('|')
+			wpad_len = len(arpabet_symbols)
+			nopad_len = len(arpabet_nopad)
+			total_dur_length = 0
+			for symb_i in range(wpad_len):
+				if (arpabet_symbols[symb_i] == '<PAD>'):
+					continue
+				total_dur_length += float(json_data['durations'][symb_i])
+			for symb_i in range(wpad_len):
+				if (arpabet_symbols[symb_i] == '<PAD>'):
+					continue
+				arpabet_length = float(json_data['durations'][symb_i])
+				cell_width = round(arpabet_length / total_dur_length * 100, 2)
+				arpabet_html += '<td class="arpabet" style="width: '\
+					+ str(cell_width)\
+					+'%">'\
+					+ arpabet_symbols[symb_i]\
+					+ '</td> '
+			arpabet_html += '<tr></tbody></table>'
+			angry = round(json_data['em_angry'][0], 2),
+			happy = round(json_data['em_happy'][0], 2),
+			sad = round(json_data['em_sad'][0], 2),
+			surprise = round(json_data['em_surprise'][0], 2),
 		return [
 			save_path,
 			arpabet_html,
+			angry,
+			happy,
+			sad,
+			surprise,
 			json_data
 		]

gr_client.py CHANGED Viewed

@@ -502,6 +502,7 @@ class BlocksDemo:
 				inputs=voice_radio,
 				outputs=output_wav,
 				queue=True,
 			)
 			# Switched to Lojban voice
@@ -546,9 +547,16 @@ class BlocksDemo:
 		json_data = json.loads(response.replace("'", '"'))
-		arpabet_html = '<h6>ARPAbet & Durations</h6>'
-		arpabet_html += '<table style="margin: 0 var(--size-2)"><tbody><tr>'
-		arpabet_nopad = json_data['arpabet'].split('|PAD|')
 		arpabet_symbols = json_data['arpabet'].split('|')
 		wpad_len = len(arpabet_symbols)
 		nopad_len = len(arpabet_nopad)
@@ -568,16 +576,21 @@ class BlocksDemo:
 				+ str(cell_width)\
 				+'%">'\
 				+ arpabet_symbols[symb_i]\
-				+ '</td> '
-		arpabet_html += '<tr></tbody></table>'
 		return [
 			wav_path,
 			arpabet_html,
-			round(json_data['em_angry'][0], 2),
-			round(json_data['em_happy'][0], 2),
-			round(json_data['em_sad'][0], 2),
-			round(json_data['em_surprise'][0], 2),
 			response
 		]

 				inputs=voice_radio,
 				outputs=output_wav,
 				queue=True,
+				trigger_mode='once',
 			)
 			# Switched to Lojban voice
 		json_data = json.loads(response.replace("'", '"'))
+		arpabet_html = ''
+		if voice == 'x_selpahi':
+			angry = 0
+			happy = 0
+			sad = 0
+			surprise = 0
+		else:
+			arpabet_html = '<h6>ARPAbet & Durations</h6>'
+			arpabet_html += '<table style="margin: 0 var(--size-2)"><tbody><tr>'
+			arpabet_nopad = json_data['arpabet'].split('|PAD|')
 		arpabet_symbols = json_data['arpabet'].split('|')
 		wpad_len = len(arpabet_symbols)
 		nopad_len = len(arpabet_nopad)
 				+ str(cell_width)\
 				+'%">'\
 				+ arpabet_symbols[symb_i]\
+					+ '</td> '
+			arpabet_html += '<tr></tbody></table>'
+			angry = round(json_data['em_angry'][0], 2),
+			happy = round(json_data['em_happy'][0], 2),
+			sad = round(json_data['em_sad'][0], 2),
+			surprise = round(json_data['em_surprise'][0], 2),
 		return [
 			wav_path,
 			arpabet_html,
+			angry,
+			happy,
+			sad,
+			surprise,
 			response
 		]