Spaces:

HUBioDataLab
/

ASCARIS

Sleeping

App Files Files Community

fatmacankara commited on Aug 24, 2023

Commit

2a5322f

1 Parent(s): 162f5ed

Update code/add_alignment.py

Browse files

Files changed (1) hide show

code/add_alignment.py +24 -2

code/add_alignment.py CHANGED Viewed

@@ -5,7 +5,27 @@ from pathlib import Path
 aligner = Align.PairwiseAligner()
 from Bio.pairwise2 import format_alignment
 def do_alignment(identifier, uniprotSequence, pdbSequence, alignment_path):
     print(f'Aligning Datapoint: {identifier}')
     print(pdbSequence)
@@ -13,6 +33,8 @@ def do_alignment(identifier, uniprotSequence, pdbSequence, alignment_path):
     print(uniprotSequence)
     #if len(pdbSequence) >= 1:
     #f = open(Path(alignment_path / f'{identifier}_alignment.txt'),"w")
     aligner.mode = 'local'
     print('1')
     aligner.substitution_matrix = substitution_matrices.load("BLOSUM62")
@@ -21,8 +43,8 @@ def do_alignment(identifier, uniprotSequence, pdbSequence, alignment_path):
     print('3')
     aligner.extend_gap_score = -1
     print('4')
-    print(aligner.align(uniprotSequence, pdbSequence)[0])
-    alignments = aligner.align(uniprotSequence, pdbSequence)[0]
     print('Alignments')
     print(alignments)
     """

 aligner = Align.PairwiseAligner()
 from Bio.pairwise2 import format_alignment
+def convert_non_standard_amino_acids(sequence):
+    """
+    Convert non-standard or ambiguous amino acid codes to their closest relatives.
+    """
+    # Define a dictionary to map non-standard codes to standard amino acids
+    conversion_dict = {
+        'B': 'D',  # Aspartic Acid (D) is often used for B (Asx)
+        'Z': 'E',  # Glutamic Acid (E) is often used for Z (Glx)
+        'X': 'A',  # Alanine (A) is a common placeholder for unknown/ambiguous
+        'U': 'C',  # Cysteine (C) is often used for Selenocysteine (U)
+        'J': 'L',  # Leucine (L) is often used for J (Leu/Ile)
+        'O': 'K',  # Lysine (K) is often used for O (Pyrrolysine)
+        # '*' or 'Stop' represents a stop codon; you may replace with '' to remove
+        '*': '',
+    }
+    # Replace non-standard codes with their closest relatives
+    converted_sequence = ''.join([conversion_dict.get(aa, aa) for aa in sequence])
+    return converted_sequence
 def do_alignment(identifier, uniprotSequence, pdbSequence, alignment_path):
     print(f'Aligning Datapoint: {identifier}')
     print(pdbSequence)
     print(uniprotSequence)
     #if len(pdbSequence) >= 1:
     #f = open(Path(alignment_path / f'{identifier}_alignment.txt'),"w")
+    uniprotSequence = convert_non_standard_amino_acids(uniprotSequence)
+    pdbSequence = convert_non_standard_amino_acids(pdbSequence)
     aligner.mode = 'local'
     print('1')
     aligner.substitution_matrix = substitution_matrices.load("BLOSUM62")
     print('3')
     aligner.extend_gap_score = -1
     print('4')
+    print(aligner.align(uniprotSequence, pdbSequence))
+    alignments = aligner.align(uniprotSequence, pdbSequence)
     print('Alignments')
     print(alignments)
     """