Spaces:

lidiiakarmanova
/

exam-evaluator

Sleeping

exam-evaluator / analyze_results_pro.py

KarmanovaLidiia

Initial clean commit for HF Space (models via Git LFS)

bcb314a about 1 month ago

20.6 kB

	import pandas as pd
	import matplotlib.pyplot as plt
	from collections import Counter
	import numpy as np
	import os
	import warnings

	warnings.filterwarnings('ignore')

	# Настройка отображения
	plt.style.use('default')
	plt.rcParams['font.family'] = 'DejaVu Sans'


	def load_and_analyze_data():
	"""Загрузка и базовый анализ данных"""

	file_path = 'small.csv'

	try:
	df = pd.read_csv(file_path, encoding='utf-8', delimiter=';')
	print("Файл загружен с разделителем ';' и кодировкой utf-8")
	except:
	try:
	df = pd.read_csv(file_path, encoding='cp1251', delimiter=';')
	print("Файл загружен с разделителем ';' и кодировкой cp1251")
	except:
	try:
	df = pd.read_csv(file_path, encoding='utf-8', delimiter=',')
	print("Файл загружен с разделителем ',' и кодировкой utf-8")
	except:
	try:
	df = pd.read_csv(file_path, encoding='cp1251', delimiter=',')
	print("Файл загружен с разделителем ',' и кодировкой cp1251")
	except Exception as e:
	print(f"Ошибка загрузки файла: {e}")
	return None

	print("=" * 60)
	print("АНАЛИЗ РЕЗУЛЬТАТОВ АВТОМАТИЧЕСКОЙ ОЦЕНКИ")
	print("=" * 60)

	print(f"Размер данных: {df.shape[0]} строк, {df.shape[1]} колонок")
	print(f"Колонки: {list(df.columns)}")

	return df


	def basic_statistics(df):
	"""Базовая статистика по оценкам"""

	print("\n" + "=" * 40)
	print("БАЗОВАЯ СТАТИСТИКА")
	print("=" * 40)

	# Статистика по AI оценкам
	print("AI оценки (pred_score):")
	print(f" Среднее: {df['pred_score'].mean():.3f}")
	print(f" Медиана: {df['pred_score'].median():.3f}")
	print(f" Стандартное отклонение: {df['pred_score'].std():.3f}")
	print(f" Минимум: {df['pred_score'].min():.3f}")
	print(f" Максимум: {df['pred_score'].max():.3f}")

	# Статистика по человеческим оценкам
	print("\nОценки экзаменатора:")
	print(f" Среднее: {df['Оценка экзаменатора'].mean():.3f}")
	print(f" Медиана: {df['Оценка экзаменатора'].median():.3f}")
	print(f" Стандартное отклонение: {df['Оценка экзаменатора'].std():.3f}")

	# Распределение оценок
	print("\nРаспределение оценок экзаменатора:")
	распределение = df['Оценка экзаменатора'].value_counts().sort_index()
	for оценка, count in распределение.items():
	print(f" {оценка}: {count} ответов ({count / len(df) * 100:.1f}%)")


	def calculate_correlations(df):
	"""Расчет корреляций и разниц"""

	print("\n" + "=" * 40)
	print("КОРРЕЛЯЦИИ И РАСХОЖДЕНИЯ")
	print("=" * 40)

	# Корреляция
	correlation = df[['Оценка экзаменатора', 'pred_score']].corr().iloc[0, 1]
	print(f"Корреляция между оценками: {correlation:.3f}")

	# Разницы между оценками
	df['разница'] = df['pred_score'] - df['Оценка экзаменатора']
	df['abs_разница'] = abs(df['разница'])

	print(f"Средняя абсолютная разница: {df['abs_разница'].mean():.3f}")
	print(f"Максимальная разница: {df['abs_разница'].max():.3f}")
	print(f"Минимальная разница: {df['abs_разница'].min():.3f}")

	# Анализ согласованности
	print("\nСОГЛАСОВАННОСТЬ ОЦЕНОК:")
	for порог in [0.1, 0.3, 0.5, 1.0]:
	согласованные = df[df['abs_разница'] < порог].shape[0]
	процент = (согласованные / len(df)) * 100
	print(f" Разница < {порог}: {согласованные} ответов ({процент:.1f}%)")

	# Направление разниц
	завышение = len(df[df['разница'] > 0])
	занижение = len(df[df['разница'] < 0])
	совпадение = len(df[df['разница'] == 0])

	print(f"\nНАПРАВЛЕНИЕ РАЗНИЦ:")
	print(f" AI завышает: {завышение} ({завышение / len(df) * 100:.1f}%)")
	print(f" AI занижает: {занижение} ({занижение / len(df) * 100:.1f}%)")
	print(f" Полное совпадение: {совпадение} ({совпадение / len(df) * 100:.1f}%)")


	def create_visualizations(df):
	"""Создание визуализаций"""

	print("\n" + "=" * 40)
	print("СОЗДАНИЕ ВИЗУАЛИЗАЦИЙ")
	print("=" * 40)

	# Создаем папку для графиков
	os.makedirs('graphs', exist_ok=True)

	# 1. Scatter plot сравнения оценок
	plt.figure(figsize=(12, 8))
	scatter = plt.scatter(df['Оценка экзаменатора'], df['pred_score'],
	c=df['abs_разница'], cmap='viridis', alpha=0.7, s=80)
	plt.colorbar(scatter, label='Абсолютная разница')
	plt.plot([0, 2], [0, 2], 'r--', alpha=0.5, label='Идеальное соответствие')
	plt.xlabel('Оценка экзаменатора', fontsize=12)
	plt.ylabel('AI оценка (pred_score)', fontsize=12)
	plt.title('Сравнение человеческой и AI оценки', fontsize=14)
	plt.legend()
	plt.grid(True, alpha=0.3)
	plt.xticks([0, 1, 2])
	plt.yticks(np.arange(0, 2.5, 0.5))
	plt.savefig('graphs/scatter_comparison_pro.png', dpi=300, bbox_inches='tight')
	plt.close()

	# 2. Гистограмма разниц
	plt.figure(figsize=(12, 6))
	n, bins, patches = plt.hist(df['разница'], bins=30, alpha=0.7,
	edgecolor='black', color='skyblue')
	plt.xlabel('Разница оценок (AI - Человек)', fontsize=12)
	plt.ylabel('Количество ответов', fontsize=12)
	plt.title('Распределение разниц между AI и человеческими оценками', fontsize=14)
	plt.grid(True, alpha=0.3)
	plt.axvline(x=0, color='red', linestyle='--', alpha=0.8, linewidth=2, label='Нулевая разница')
	plt.axvline(x=df['разница'].mean(), color='orange', linestyle='--',
	alpha=0.8, linewidth=2, label=f'Средняя разница: {df["разница"].mean():.3f}')
	plt.legend()
	plt.savefig('graphs/difference_histogram_pro.png', dpi=300, bbox_inches='tight')
	plt.close()

	# 3. Box plot по типам вопросов
	plt.figure(figsize=(14, 8))
	box_data = [df[df['№ вопроса'] == question]['pred_score'].values
	for question in sorted(df['№ вопроса'].unique())]

	box_plot = plt.boxplot(box_data, labels=sorted(df['№ вопроса'].unique()),
	patch_artist=True)

	# Раскрашиваем boxplot
	colors = ['lightblue', 'lightgreen', 'lightcoral', 'lightyellow']
	for patch, color in zip(box_plot['boxes'], colors):
	patch.set_facecolor(color)

	plt.title('Распределение AI оценок по номерам вопросов', fontsize=14)
	plt.xlabel('Номер вопроса', fontsize=12)
	plt.ylabel('AI оценка (pred_score)', fontsize=12)
	plt.grid(True, alpha=0.3)
	plt.savefig('graphs/question_boxplot_pro.png', dpi=300, bbox_inches='tight')
	plt.close()

	print("Графики сохранены в папку 'graphs/'")


	def analyze_extreme_cases(df):
	"""Анализ крайних случаев"""

	print("\n" + "=" * 40)
	print("АНАЛИЗ КРАЙНИХ СЛУЧАЕВ")
	print("=" * 40)

	# Наибольшие расхождения
	большие_расхождения = df.nlargest(8, 'abs_разница')[
	['Id экзамена', '№ вопроса', 'Оценка экзаменатора', 'pred_score',
	'abs_разница', 'разница']
	]

	print("Топ-8 наибольших расхождений:")
	print("-" * 80)
	for idx, row in большие_расхождения.iterrows():
	направление = "ЗАВЫШЕНИЕ" if row['разница'] > 0 else "ЗАНИЖЕНИЕ"
	print(f"\nЭкзамен {row['Id экзамена']}, Вопрос {row['№ вопроса']} ({направление}):")
	print(f" Человек: {row['Оценка экзаменатора']} \| AI: {row['pred_score']:.3f}")
	print(f" Разница: {row['abs_разница']:.3f} ({row['разница']:+.3f})")
	print("-" * 60)


	def analyze_explanations(df):
	"""Анализ объяснений оценок"""

	print("\n" + "=" * 40)
	print("АНАЛИЗ ОБЪЯСНЕНИЙ ОЦЕНОК")
	print("=" * 40)

	explanation_columns = ['объяснение_оценки', 'explanation', 'объяснение']
	explanation_col = None

	for col in explanation_columns:
	if col in df.columns:
	explanation_col = col
	break

	if not explanation_col:
	print("Колонка с объяснениями оценок не найдена")
	return

	# Собираем все объяснения
	все_объяснения = ' '.join(df[explanation_col].dropna().astype(str))

	# Разбиваем на слова и фильтруем
	слова = [word.strip() for word in все_объяснения.split() if len(word.strip()) > 2]

	# Анализ частотности
	частотность = Counter(слова)

	print("Топ-15 наиболее частых характеристик в объяснениях:")
	for слово, count in частотность.most_common(15):
	print(f" {слово}: {count}")

	# Анализ по ключевым категориям
	категории = {
	'Развернутый': 'Развернутый ответ',
	'смысловое': 'Смысловое соответствие',
	'соответствие': 'Смысловое соответствие',
	'Хорошая': 'Хорошая структура',
	'структура': 'Хорошая структура',
	'лексика': 'Разнообразная лексика',
	'Высокий': 'Высокий балл',
	'балл': 'Высокий балл',
	'описание': 'Подробное описание',
	'личный': 'Личный опыт',
	'покрытие': 'Покрытие вопросов'
	}

	print(f"\nСТАТИСТИКА ПО КАТЕГОРИЯМ:")
	for ключ, описание in категориями.items():
	count = sum(1 for слово in слова if ключ in слово)
	if count > 0:
	print(f" {описание}: {count}")


	def performance_by_question_type(df):
	"""Анализ производительности по типам вопросов"""

	print("\n" + "=" * 40)
	print("АНАЛИЗ ПО ТИПАМ ВОПРОСОВ")
	print("=" * 40)

	вопросы_статистика = df.groupby('№ вопроса').agg({
	'Оценка экзаменатора': ['mean', 'std', 'count'],
	'pred_score': ['mean', 'std'],
	'abs_разница': 'mean',
	'разница': 'mean'
	}).round(3)

	# Переименовываем колонки для удобства
	вопросы_статистика.columns = ['чел_среднее', 'чел_стд', 'количество',
	'ai_среднее', 'ai_стд', 'ср_абс_разница', 'ср_разница']

	вопросы_статистика['расхождение'] = abs(вопросы_статистика['ср_разница'])

	print("СТАТИСТИКА ПО ВОПРОСАМ:")
	print("-" * 80)
	print(f"{'Вопрос':<6} {'Чел.ср':<8} {'AI ср':<8} {'Разн.':<8} {'Кол-во':<8} {'Описание'}")
	print("-" * 80)

	for вопрос, row in вопросы_статистика.iterrows():
	разница_знак = "+" if row['ср_разница'] > 0 else ""
	print(f"{вопрос:<6} {row['чел_среднее']:<8} {row['ai_среднее']:<8} "
	f"{разница_знак}{row['ср_разница']:<7} {int(row['количество']):<8} ", end="")

	if row['расхождение'] > 0.3:
	print("ВНИМАНИЕ: большое расхождение")
	elif row['расхождение'] > 0.1:
	print("Умеренное расхождение")
	else:
	print("Хорошее соответствие")


	def save_detailed_analysis(df):
	"""Сохранение детального анализа в файл"""

	print("\n" + "=" * 40)
	print("СОХРАНЕНИЕ РЕЗУЛЬТАТОВ")
	print("=" * 40)

	# Создаем копию с анализом
	df_analysis = df.copy()
	df_analysis['разница_ai_человек'] = df_analysis['pred_score'] - df_analysis['Оценка экзаменатора']
	df_analysis['abs_разница'] = abs(df_analysis['разница_ai_человек'])

	# Добавляем категоризацию расхождений
	условия = [
	df_analysis['abs_разница'] < 0.1,
	df_analysis['abs_разница'] < 0.3,
	df_analysis['abs_разница'] < 0.5,
	df_analysis['abs_разница'] >= 0.5
	]
	категории = ['Отличное', 'Хорошее', 'Умеренное', 'Низкое']
	df_analysis['качество_согласования'] = np.select(условия, категории, default='Низкое')

	# Сортируем по наибольшим расхождениям
	df_analysis = df_analysis.sort_values('abs_разница', ascending=False)

	try:
	# Сохраняем в Excel
	with pd.ExcelWriter('detailed_analysis_pro.xlsx', engine='openpyxl') as writer:
	# Все данные
	df_analysis.to_excel(writer, sheet_name='Все_данные_с_анализом', index=False)

	# Сводная таблица по вопросам
	сводная = df_analysis.groupby('№ вопроса').agg({
	'Оценка экзаменатора': ['mean', 'std', 'min', 'max'],
	'pred_score': ['mean', 'std', 'min', 'max'],
	'abs_разница': ['mean', 'max'],
	'разница_ai_человек': 'mean',
	'Id экзамена': 'count'
	}).round(3)
	сводная.to_excel(writer, sheet_name='Сводка_по_вопросам')

	# Наибольшие расхождения
	большие_расхождения = df_analysis.nlargest(20, 'abs_разница')[
	['Id экзамена', '№ вопроса', 'Оценка экзаменатора',
	'pred_score', 'разница_ai_человек', 'abs_разница']
	]
	большие_расхождения.to_excel(writer, sheet_name='Наибольшие_расхождения', index=False)

	# Статистика по качеству согласования
	качество_стат = df_analysis['качество_согласования'].value_counts()
	качество_стат.to_excel(writer, sheet_name='Качество_согласования')

	print("Детальный анализ сохранен в 'detailed_analysis_pro.xlsx'")

	except Exception as e:
	print(f"Не удалось сохранить Excel, сохраняем в CSV: {e}")
	df_analysis.to_csv('detailed_analysis_pro.csv', index=False, encoding='utf-8')
	print("Детальный анализ сохранен в 'detailed_analysis_pro.csv'")


	def generate_summary_report(df):
	"""Генерация итогового отчета"""

	print("\n" + "=" * 60)
	print("ИТОГОВЫЙ ОТЧЕТ")
	print("=" * 60)

	корреляция = df[['Оценка экзаменатора', 'pred_score']].corr().iloc[0, 1]
	ср_разница = df['abs_разница'].mean()

	print(f"\nОБЩАЯ СТАТИСТИКА:")
	print(f" Всего ответов: {len(df)}")
	print(f" Корреляция AI-Человек: {корреляция:.3f}")
	print(f" Средняя абсолютная разница: {ср_разница:.3f}")

	# Оценка качества
	if корреляция > 0.8 and ср_разница < 0.2:
	оценка = "ОТЛИЧНОЕ"
	elif корреляция > 0.6 and ср_разница < 0.3:
	оценка = "ХОРОШЕЕ"
	elif корреляция > 0.4 and ср_разница < 0.4:
	оценка = "УДОВЛЕТВОРИТЕЛЬНОЕ"
	else:
	оценка = "НИЗКОЕ"

	print(f"\nОЦЕНКА КАЧЕСТВА СИСТЕМЫ: {оценка}")

	# Рекомендации
	print(f"\nРЕКОМЕНДАЦИИ:")
	if ср_разница > 0.3:
	print(" Проанализировать систематические ошибки в оценках")
	if корреляция < 0.6:
	print(" Улучшить согласованность с человеческими оценками")

	# Лучшие и худшие вопросы
	вопросы_стат = df.groupby('№ вопроса')['abs_разница'].mean().sort_values()
	лучший_вопрос = вопросы_стат.index[0]
	худший_вопрос = вопросы_стат.index[-1]

	print(f"\nЛУЧШИЙ ВОПРОС ПО СОГЛАСОВАННОСТИ: №{лучший_вопрос} (разница: {вопросы_стат.iloc[0]:.3f})")
	print(f"ХУДШИЙ ВОПРОС ПО СОГЛАСОВАННОСТИ: №{худший_вопрос} (разница: {вопросы_стат.iloc[-1]:.3f})")


	def main():
	"""Основная функция"""

	try:
	# Загрузка данных
	df = load_and_analyze_data()

	if df is None:
	return

	# Проверка необходимых колонок
	required_columns = ['Оценка экзаменатора', 'pred_score', '№ вопроса']
	missing_columns = [col for col in required_columns if col not in df.columns]

	if missing_columns:
	print(f"ОШИБКА: Отсутствуют колонки: {missing_columns}")
	return

	# Выполнение анализа
	basic_statistics(df)
	calculate_correlations(df)
	create_visualizations(df)
	analyze_extreme_cases(df)
	analyze_explanations(df)
	performance_by_question_type(df)
	save_detailed_analysis(df)
	generate_summary_report(df)

	print("\n" + "=" * 60)
	print("АНАЛИЗ ЗАВЕРШЕН!")
	print("=" * 60)
	print("\nСОЗДАННЫЕ ФАЙЛЫ:")
	print(" graphs/scatter_comparison_pro.png - сравнение оценок")
	print(" graphs/difference_histogram_pro.png - распределение разниц")
	print(" graphs/question_boxplot_pro.png - оценки по вопросам")
	print(" detailed_analysis_pro.xlsx - детальный отчет")

	except FileNotFoundError:
	print("ОШИБКА: Файл 'small.csv' не найден в текущей директории")
	except Exception as e:
	print(f"ОШИБКА при выполнении анализа: {str(e)}")


	if __name__ == "__main__":
	main()