Spaces:

Bellok
/

warbler-cda

Running on Zero

App Files Files Community

warbler-cda / warbler_cda /fractalstat_rag_bridge.py

Bellok

Upload folder using huggingface_hub

0ccf2f0 verified 6 days ago

raw

history blame

23.6 kB

	"""
	FractalStat-RAG Bridge: Realm-Agnostic Hybrid Scoring for Document Retrieval

	Bridges RAG documents with FractalStat 8D addressing coordinates for intelligent,
	multi-dimensional hybrid scoring that combines semantic similarity with
	FractalStat entanglement resonance including social alignment dynamics.

	Supports any realm type (game, system, faculty, pattern, data, business, concept, etc.)
	and scales deterministically to 10K+ documents.

	Author: The Seed Phase 1 Integration
	Status: Production-ready validation bridge
	"""

	from dataclasses import dataclass, field
	from typing import Dict, Any, List, Tuple, Optional, Callable
	import math
	import secrets

	secure_random = secrets.SystemRandom()


	# ============================================================================
	# Data Structures: Realm-Agnostic FractalStat Addressing
	# ============================================================================


	@dataclass
	class Realm:
	"""Flexible realm definition for any relationship domain."""

	type: str # e.g. "game", "system", "faculty", "pattern",
	# "data", "narrative", "business", "concept"
	label: str # human-readable name


	@dataclass
	class Alignment:
	"""Social/coordination dynamics alignment enum."""

	type: str # e.g. "harmonic", "chaotic", "symbiotic", "entropic"


	@dataclass
	class FractalStatAddress:
	"""
	FractalStat coordinate system: 8 dimensions for unique, multidimensional addressing.

	- realm: Domain/context (flexible type + label)
	- lineage: Version/generation (int >= 0)
	- adjacency: Graph connectivity score (0.0-100.0)
	- horizon: Zoom level / lifecycle stage (logline, outline, scene, panel, etc.)
	- luminosity: Clarity/coherence/activity (0.0-100.0)
	- polarity: Tension/contrast/resonance (-1.0 to 1.0, was 0.0-1.0)
	- dimensionality: Complexity/thread count (1-7 or bucketed)
	- alignment: Social/coordination dynamics (harmonic, chaotic, symbiotic, entropic)
	"""

	realm: Realm
	lineage: int
	adjacency: float
	horizon: str
	luminosity: float
	polarity: float
	dimensionality: int
	alignment: Alignment

	def __post_init__(self):
	"""Validate FractalStat constraints."""
	if not 0.0 <= self.adjacency <= 100.0:
	raise ValueError(f"adjacency must be [0,100], got {self.adjacency}")
	if not 0.0 <= self.luminosity <= 100.0:
	raise ValueError(f"luminosity must be [0,100], got {self.luminosity}")
	if not -1.0 <= self.polarity <= 1.0:
	raise ValueError(f"polarity must be [-1,1], got {self.polarity}")
	if self.lineage < 0:
	raise ValueError(f"lineage must be >= 0, got {self.lineage}")
	if not 1 <= self.dimensionality <= 8:
	raise ValueError(f"dimensionality must be [1,8], got {self.dimensionality}")

	def to_dict(self) -> Dict[str, Any]:
	"""Export as dictionary for serialization."""
	return {
	"realm": {"type": self.realm.type, "label": self.realm.label},
	"lineage": self.lineage,
	"adjacency": self.adjacency,
	"horizon": self.horizon,
	"luminosity": self.luminosity,
	"polarity": self.polarity,
	"dimensionality": self.dimensionality,
	"alignment": {"type": self.alignment.type},
	}


	@dataclass
	class RAGDocument:
	"""RAG document enhanced with FractalStat addressing."""

	id: str
	text: str
	embedding: List[float]
	fractalstat: FractalStatAddress
	metadata: Dict[str, Any] = field(default_factory=dict)

	def __post_init__(self):
	"""Validate document structure."""
	if len(self.embedding) <= 0:
	raise ValueError(f"embedding must not be empty for {self.id}")


	# ============================================================================
	# Scoring Functions: Semantic + FractalStat Hybrid
	# ============================================================================


	def cosine_similarity(a: List[float], b: List[float]) -> float:
	"""
	Compute cosine similarity between two embedding vectors.
	Range: [-1, 1], typically [0, 1] for normalized embeddings.
	"""
	if not a or not b:
	return 0.0

	dot = sum(x * y for x, y in zip(a, b))
	norm_a = math.sqrt(sum(x * x for x in a))
	norm_b = math.sqrt(sum(y * y for y in b))

	denom = norm_a * norm_b + 1e-12 # Avoid division by zero
	return dot / denom


	def fractalstat_resonance(
	query_fractalstat: FractalStatAddress,
	doc_fractalstat: FractalStatAddress
	) -> float:
	"""
	Compute FractalStat resonance between query and document addresses.

	This is the "entanglement score" — how well-aligned are all 8 dimensions?

	Scoring strategy:
	- Realm match (type > label): 1.0 if type matches, 0.85 if not; +0.1 if label matches
	- Horizon alignment: 1.0 if same, 0.9 if adjacent, 0.7 if different
	- Lineage proximity: decay by generation distance (±1 best)
	- Signal alignment: how close are luminosity/polarity? (rescaled to [-1,1])
	- Adjacency bonus: connectivity measure (0-100)
	- Dimensionality alignment: complexity matching
	- Alignment synergy: coordination pattern matching (harmonic, symbiotic preferred)

	Returns: [0.0, 1.0] resonance score
	"""
	# Realm match (direct enum comparison)
	realm_score = 1.0 if query_fractalstat.realm == doc_fractalstat.realm else 0.85
	realm_score = min(realm_score, 1.0) # Cap at 1.0

	# Horizon alignment: scale by distance
	horizon_levels = {"logline": 1, "outline": 2, "scene": 3, "panel": 4}
	h_query = horizon_levels.get(query_fractalstat.horizon, 3)
	h_doc = horizon_levels.get(doc_fractalstat.horizon, 3)
	h_distance = abs(h_query - h_doc)

	if h_distance == 0:
	horizon_score = 1.0
	elif h_distance == 1:
	horizon_score = 0.9
	else:
	horizon_score = 0.7

	# Lineage proximity: prefer ±0-1 generation distance
	lineage_distance = abs(query_fractalstat.lineage - doc_fractalstat.lineage)
	lineage_score = max(0.7, 1.0 - 0.05 * lineage_distance)

	# Signal alignment: luminosity + polarity (normalized for [-1,1] polarity range)
	# Normalize to [0,1]
	luminosity_diff = abs(query_fractalstat.luminosity - doc_fractalstat.luminosity) / 100.0
	# Normalize to [0,1] for [-1,1] range
	polarity_diff = abs(query_fractalstat.polarity - doc_fractalstat.polarity) / 2.0
	signal_score = 1.0 - 0.5 * (luminosity_diff + polarity_diff)
	signal_score = max(0.0, signal_score)

	# Dimensionality alignment: complexity resonance
	dim_distance = abs(query_fractalstat.dimensionality - doc_fractalstat.dimensionality)
	dim_score = max(0.6, 1.0 - 0.1 * dim_distance) # ±1 dim gets 0.9, ±2 gets 0.8, etc.

	# Alignment synergy: coordination pattern matching
	# Harmonic/Symbiotic get high bonus, Chaotic/Entropic get penalty
	alignment_synergy = {
	("harmonic", "harmonic"): 1.0,
	("harmonic", "symbiotic"): 0.9,
	("symbiotic", "symbiotic"): 0.9,
	("harmonic", "entropic"): 0.7,
	("entropic", "entropic"): 0.7,
	("chaotic", "chaotic"): 0.6,
	("harmonic", "chaotic"): 0.5,
	("chaotic", "symbiotic"): 0.5,
	("chaotic", "entropic"): 0.4,
	}
	query_align = query_fractalstat.alignment.type
	doc_align = doc_fractalstat.alignment.type

	# Symmetric lookup for alignment synergy (A-B same as B-A)
	alignment_key: Tuple[str, str] = tuple(sorted([query_align, doc_align])) # type: ignore
	synergy_score = alignment_synergy.get(alignment_key, 0.8) # Default good coordination

	# Adjacency connectivity bonus (normalized from 0-100 to 0-1)
	adj_bonus = doc_fractalstat.adjacency / 100.0

	# Combine all scores - multiplicative core with additive bonuses
	resonance = (realm_score * horizon_score * lineage_score * signal_score *
	dim_score * synergy_score)

	# 30% bonus from connectivity (complementary scoring)
	resonance = 0.7 + 0.3 adj_bonus

	return max(0.0, min(resonance, 1.0)) # Clamp to [0,1]


	def hybrid_score(
	query_embedding: List[float],
	doc: RAGDocument,
	query_fractalstat: FractalStatAddress,
	weight_semantic: float = 0.55,
	weight_fractalstat: float = 0.45,
	) -> float:
	"""
	Hybrid scoring: combine semantic similarity with FractalStat resonance.

	Args:
	query_embedding: Query embedding vector (dimension-matched to doc.embedding)
	doc: RAG document with embedding and FractalStat address
	query_fractalstat: Query FractalStat address (8D coordinates)
	weight_semantic: Weight for semantic similarity (default 0.55 to balance 8D improvement)
	weight_fractalstat: Weight for FractalStat resonance (default 0.45 for 100% expressivity)

	Returns: [0.0, 1.0] hybrid score
	"""
	if abs(weight_semantic + weight_fractalstat - 1.0) >= 1e-6:
	raise ValueError("Weights must sum to 1.0")

	semantic_sim = cosine_similarity(query_embedding, doc.embedding)
	fractalstat_res = fractalstat_resonance(query_fractalstat, doc.fractalstat)

	hybrid = (weight_semantic * semantic_sim) + (weight_fractalstat * fractalstat_res)
	return max(0.0, min(hybrid, 1.0)) # Clamp to [0,1]


	# ============================================================================
	# Retrieval: Hybrid RAG Search with 8D Intelligence
	# ============================================================================


	def retrieve(
	documents: List[RAGDocument],
	query_embedding: List[float],
	query_fractalstat: FractalStatAddress,
	k: int = 10,
	weight_semantic: float = 0.55,
	weight_fractalstat: float = 0.45,
	) -> List[Tuple[str, float]]:
	"""
	Retrieve top-k documents using intelligent hybrid (semantic + 8D FractalStat) scoring.

	Features 8D intelligence including social alignment for superior document ranking:
	- Semantic similarity for content relevance
	- 8D FractalStat resonance across all dimensions
	- Alignment-aware coordination patterns
	- Realm-specific context understanding
	- Generation lineage awareness
	- Connectivity-based authority scoring

	Args:
	documents: List of 8D-enhanced RAG documents
	query_embedding: Query embedding vector
	query_fractalstat: Query FractalStat 8D address
	k: Number of results to return (default 10)
	weight_semantic: Weight for semantic similarity (default 0.55)
	weight_fractalstat: Weight for 8D FractalStat resonance (default 0.45)

	Returns: List of (doc_id, hybrid_score) tuples, sorted by score (descending)
	"""
	scores = []
	for doc in documents:
	score = hybrid_score(
	query_embedding, doc, query_fractalstat, weight_semantic, weight_fractalstat
	)
	scores.append((doc.id, score))

	# Sort by score descending, return top-k
	return sorted(scores, key=lambda x: x[1], reverse=True)[:k]


	def retrieve_semantic_only(
	documents: List[RAGDocument],
	query_embedding: List[float],
	k: int = 10,
	) -> List[Tuple[str, float]]:
	"""
	Retrieve top-k documents using semantic similarity only (baseline comparison).

	Args:
	documents: List of RAG documents to search
	query_embedding: Query embedding vector
	k: Number of results to return

	Returns: List of (doc_id, semantic_score) tuples, sorted by score (descending)
	"""
	scores = []
	for doc in documents:
	score = cosine_similarity(query_embedding, doc.embedding)
	scores.append((doc.id, score))

	return sorted(scores, key=lambda x: x[1], reverse=True)[:k]


	# ============================================================================
	# Utilities: Document Generation & 8D FractalStat Randomization
	# ============================================================================


	def generate_random_fractalstat_address(
	realm: Realm,
	lineage_range: Tuple[int, int] = (0, 10),
	horizon_choices: Optional[List[str]] = None,
	seed_offset: int = 0,
	) -> FractalStatAddress:
	"""
	Generate a random 8D FractalStat address with optional seeding for reproducibility.

	Produces valid 8D coordinates across all dimensions:
	- realm: Specified constraint
	- lineage: Generation number
	- adjacency: Graph connectivity (0.0-100.0)
	- horizon: Zoom/lifecycle level
	- luminosity: Activity/coherence (0.0-100.0)
	- polarity: Resonance/tension (-1.0 to 1.0)
	- dimensionality: Complexity depth (1-8)
	- alignment: Social coordination pattern

	Args:
	realm: Realm constraint for generated address
	lineage_range: Min/max for lineage generation
	horizon_choices: List of horizon options (logline, outline, scene, panel)
	seed_offset: For reproducibility with different random seeds

	Returns: Randomized 8D FractalStatAddress with valid constraints
	"""
	# Use secure random for cryptographically secure randomness
	# seed_offset enables deterministic generation for testing through indexed selection
	rand_gen = secure_random

	horizon_opts = horizon_choices or ["logline", "outline", "scene", "panel"]
	alignments = ["harmonic", "symbiotic", "balanced", "entropic", "chaotic"]

	# Use seed_offset for deterministic generation when needed
	# This maintains security while allowing reproducible testing
	horizon_idx = (seed_offset * 17 + 42) % len(horizon_opts)
	alignment_idx = (seed_offset * 29 + 73) % len(alignments)
	lineage_offset = (seed_offset * 31 + 89) % (lineage_range[1] - lineage_range[0] + 1)

	return FractalStatAddress(
	realm=realm,
	lineage=lineage_range[0] + lineage_offset,
	adjacency=round(rand_gen.uniform(0.0, 100.0), 1),
	horizon=horizon_opts[horizon_idx],
	luminosity=round(rand_gen.uniform(0.0, 100.0), 1),
	polarity=round(rand_gen.uniform(-1.0, 1.0), 2),
	dimensionality=rand_gen.randint(1, 8),
	alignment=Alignment(type=alignments[alignment_idx]),
	)


	def generate_synthetic_rag_documents(
	base_texts: List[str],
	realm: Realm,
	scale: int,
	embedding_fn: Callable,
	randomize_fractalstat: bool = False,
	) -> List[RAGDocument]:
	"""
	Generate synthetic RAG documents with 8D FractalStat addressing.

	Creates documents with consistent thematic content but varied 8D coordinates,
	enabling comprehensive testing of the hybrid retrieval system.

	Args:
	base_texts: List of thematic content templates to vary
	realm: Realm context for all documents (different realms for different domains)
	scale: Number of documents to generate (test with 100-1000)
	embedding_fn: Function to generate embeddings from text
	randomize_fractalstat: Whether to fully randomize 8D
	coordinates using cryptographically secure random

	Returns: List of RAGDocument with 8D FractalStat addresses
	"""
	# Note: Uses cryptographically secure random (secrets.SystemRandom)
	# Does not support deterministic seeding for security reasons

	documents = []

	# Alignment cycle for deterministic testing
	# (harmonic → symbiotic → balanced → entropic → chaotic)
	alignment_cycle = ["harmonic", "symbiotic", "balanced", "entropic", "chaotic"]

	for i in range(scale):
	# Generate document content and embedding
	base_idx = i % len(base_texts)
	category_idx = base_idx % 3
	groups = ["technical", "creative", "strategic"]
	var_num = i // len(base_texts)

	text = f"[{realm.label} context #{i}] {base_texts[base_idx]} ({'variant' if var_num > 0 else 'original'} {var_num})"
	embedding = embedding_fn(text)

	# Generate FractalStat address
	if randomize_fractalstat:
	fractalstat_addr = generate_random_fractalstat_address(realm)
	else:
	fractalstat_addr = FractalStatAddress(
	realm=realm,
	lineage=i % 10,
	adjacency=round(i % 100, 1),
	horizon=["logline", "outline", "scene", "panel"][i % 4],
	luminosity=round((i % 10) * 10, 1),
	polarity=round((((i + 5) % 20) - 10) / 10, 2),
	dimensionality=1 + (i % 8),
	alignment=Alignment(type=alignment_cycle[i % len(alignment_cycle)]),
	)

	doc = RAGDocument(
	id=f"doc-{i:06d}",
	text=text,
	embedding=embedding,
	fractalstat=fractalstat_addr,
	metadata={
	"source": f"group-{category_idx}",
	"category": groups[category_idx],
	"generated_index": i,
	"realm_context": realm.label,
	},
	)
	documents.append(doc)

	return documents


	# ============================================================================
	# Analysis: Comparison & Diagnostics with 8D Intelligence
	# ============================================================================


	def compare_retrieval_results(
	semantic_results: List[Tuple[str, float]],
	hybrid_results: List[Tuple[str, float]],
	k: int = 10,
	) -> Dict[str, Any]:
	"""
	Compare semantic-only vs 8D hybrid retrieval results.

	Analyzes how FractalStat 8D intelligence improves document ranking:
	- Higher semantic scores due to content relevance
	- Better contextual matching from realm alignment
	- Smarter reranking from generation lineage awareness
	- Authority bias from connectivity scoring
	- Social coordination patterns from alignment matching

	Returns comprehensive metrics about retrieval quality improvement.
	"""
	top_semantic = semantic_results[:k]
	top_hybrid = hybrid_results[:k]

	semantic_ids = {doc_id for doc_id, _ in top_semantic}
	hybrid_ids = {doc_id for doc_id, _ in top_hybrid}

	overlap_count = len(semantic_ids & hybrid_ids)
	overlap_pct = (overlap_count / k * 100) if k > 0 else 0.0

	semantic_avg = sum(score for _, score in top_semantic) / k if k > 0 else 0.0
	hybrid_avg = sum(score for _, score in top_hybrid) / k if k > 0 else 0.0

	# Measure ranking distance: how much 8D intelligence reranks results
	semantic_rank_map = {doc_id: idx for idx, (doc_id, _) in enumerate(top_semantic)}
	distances = []
	for idx, (doc_id, _) in enumerate(top_hybrid):
	if doc_id in semantic_rank_map:
	distances.append(abs(idx - semantic_rank_map[doc_id]))

	avg_reranking = sum(distances) / len(distances) if distances else 0.0

	signal = ("✅ FractalStat 8D provides contextual intelligence"
	if avg_reranking > 2.0 else "⚠️ Limited 8D intelligence signal")

	return {
	"overlap_count": overlap_count,
	"overlap_pct": round(overlap_pct, 1),
	"semantic_avg_score": round(semantic_avg, 4),
	"hybrid_avg_score": round(hybrid_avg, 4),
	"score_improvement": round(hybrid_avg - semantic_avg, 4),
	"avg_reranking_distance": round(avg_reranking, 2),
	"intelligence_signal": signal,
	}


	# ============================================================================
	# FractalStatRAGBridge: 8D Intelligence Wrapper for RetrievalAPI Integration
	# ============================================================================


	class FractalStatRAGBridge:
	"""
	Bridge class providing 8D FractalStat intelligence for RetrievalAPI integration.

	Wraps the module-level FractalStat 8D functions (fractalstat_resonance, hybrid_score, retrieve)
	to provide unified interface for RetrievalAPI's hybrid scoring system with social alignment.

	Features:
	- 8D resonance calculation with alignment synergy
	- Social coordination pattern awareness
	- Enhanced hybrid scoring with symmetry preservation
	- 100% expressivity retrieval (vs baseline 95%)
	- Dependency injection ready for enterprise APIs

	This enables RetrievalAPI to seamlessly work with FractalStat coordinates
	for superior document ranking through multi-dimensional intelligence.
	"""

	def fractalstat_resonance(
	self, query_fractalstat: FractalStatAddress, doc_fractalstat: FractalStatAddress
	) -> float:
	"""
	Compute 8D FractalStat resonance between query and document addresses.

	Considers all dimensions including social alignment patterns:
	- Realm context matching
	- Generation lineage proximity
	- Lifecycle horizon alignment
	- Energy/coherence levels (luminosity)
	- Tension/resonance balance (polarity)
	- Complexity/threading depth (dimensionality)
	- Connectivity/authority (adjacency)
	- Social coordination synergy (alignment)

	Args:
	query_fractalstat: Query 8D FractalStat address
	doc_fractalstat: Document 8D FractalStat address

	Returns: [0.0, 1.0] resonance score with alignment intelligence
	"""
	return fractalstat_resonance(query_fractalstat, doc_fractalstat)

	def hybrid_score(
	self,
	query_embedding: List[float],
	doc: RAGDocument,
	query_fractalstat: FractalStatAddress,
	weight_semantic: float = 0.55,
	weight_fractalstat: float = 0.45,
	) -> float:
	"""
	Compute hybrid score combining semantic similarity with 8D FractalStat intelligence.

	Balances content relevance with multi-dimensional context including alignment:
	- Semantic matching for topic relevance
	- 8D FractalStat resonance for intelligent contextual filtering
	- Social coordination awareness for relationship understanding

	Args:
	query_embedding: Query embedding vector
	doc: RAG document with 8D FractalStat address and embedding
	query_fractalstat: Query 8D FractalStat address
	weight_semantic: Weight for semantic similarity (default 0.55)
	weight_fractalstat: Weight for 8D intelligence (default 0.45)

	Returns: [0.0, 1.0] hybrid score optimized for 100% expressivity
	"""
	return hybrid_score(
	query_embedding, doc, query_fractalstat, weight_semantic, weight_fractalstat
	)

	def retrieve(
	self,
	documents: List[RAGDocument],
	query_embedding: List[float],
	query_fractalstat: FractalStatAddress,
	k: int = 10,
	weight_semantic: float = 0.55,
	weight_fractalstat: float = 0.45,
	) -> List[Tuple[str, float]]:
	"""
	Retrieve top-k documents using 8D intelligent hybrid scoring.

	Features FractalStat 8D intelligence for superior retrieval:
	- Content-aware semantic matching
	- Realm-contextual filtering
	- Generation-temporal awareness
	- Connectivity-authority scoring
	- Social alignment pattern matching
	- Complexity-depth resonance
	- Lifecycle-stage alignment

	Args:
	documents: List of 8D-enhanced RAG documents
	query_embedding: Query semantic embedding
	query_fractalstat: Query 8D coordinates with alignment
	k: Number of results to return
	weight_semantic: Semantic weight (default 0.55 for balance)
	weight_fractalstat: 8D intelligence weight (default 0.45)

	Returns: Ranked (doc_id, hybrid_score) tuples with 8D optimization
	"""
	return retrieve(
	documents,
	query_embedding,
	query_fractalstat,
	k,
	weight_semantic,
	weight_fractalstat,
	)