Spaces:

HUBioDataLab
/

ASCARIS

Sleeping

App Files Files Community

fatmacankara commited on Dec 11, 2023

Commit

f44aa18

1 Parent(s): 84bc25a

Update code/pdb_featureVector.py

Browse files

Files changed (1) hide show

code/pdb_featureVector.py +86 -79

code/pdb_featureVector.py CHANGED Viewed

@@ -82,8 +82,10 @@ def pdb(input_set, mode, impute):
     out_path = path_to_output_files / 'log.txt'
     #sys.stdout = open(out_path, 'w')
     data = clean_data(input_set)
     data = add_uniprot_sequence(data)
     match = data[(data.wt_sequence_match == 'm')]
     iso = data[(data.wt_sequence_match == 'i')]
     noMatch = data[(data.wt_sequence_match != 'm') & (data.wt_sequence_match != 'i')]
     if len(data) == 0:
@@ -233,24 +235,28 @@ def pdb(input_set, mode, impute):
                     modbase.replace({'[]': np.NaN, 'nan-nan': np.NaN, '': np.NaN}, inplace=True)
                     modbase = modbase.fillna(np.NaN)
                     print('\n>> Adding Modbase residue positions...\n')
-                    modbase_simple = modbase[['uniprotID', 'wt', 'pos', 'datapoint']]
-                    modbase_simple = modbase_simple.drop_duplicates(['uniprotID', 'wt', 'pos' ,'datapoint'])
                     modbaseOut, no_modbase_models_updated = addModbaseModels(modbase_simple, path_to_input_files, path_to_output_files)
-                    modbase = modbase.merge(modbaseOut, on = ['uniprotID', 'wt', 'pos', 'datapoint'], how = 'left')
-                    no_modbase_models_updated['sasa'] = np.NaN
-                    modbase.reset_index(inplace=True, drop=True)
-                    no_modbase_add = modbase[pd.isna(modbase.coordinates)]
-                    modbase = modbase[~pd.isna(modbase.coordinates)]
-                    no_modbase_models_updated = pd.concat([no_modbase_models_updated, no_modbase_add])
-                    print('\n>> Mapping to Modbase models...\n')
-                    modbase = changeUPtoModels(modbase)
-                    print('\n>> Calculating 3D distances for Modbase models...\n')
-                    modbase = isZeroDistance(modbase)
-                    modbase = match3DModels(modbase)
-                    modbase = selectMaxAnnot(modbase)
-                    modbase = modbase.sort_values(by=['datapoint', 'quality_score', 'distance','hitTotal', 'annotTotal'], ascending=[True, True, True, True, True])
-                    modbase = modbase.drop_duplicates(['datapoint'])
-                    modbase.replace({'[]': np.NaN, 'hit': 0.0}, inplace=True)
                 else:
                     modbase = modbase[SIMPLE_COLS]
@@ -266,7 +272,7 @@ def pdb(input_set, mode, impute):
                     'lipidationBinary', 'siteBinary', 'transmembraneBinary', 'crosslinkBinary', 'mutagenesisBinary', 'strandBinary', 'helixBinary', 'turnBinary', 'metalBindingBinary',
                     'repeatBinary', 'topologicalDomainBinary', 'caBindingBinary', 'bindingSiteBinary', 'regionBinary', 'signalPeptideBinary', 'modifiedResidueBinary', 'zincFingerBinary',
                     'motifBinary', 'coiledCoilBinary', 'peptideBinary', 'transitPeptideBinary', 'glycosylationBinary', 'propeptideBinary', 'sasa']
             if len(pdb)>0:
                 pdb = pdb[COLS]
                 pdb['Source'] = 'PDB'
@@ -282,7 +288,8 @@ def pdb(input_set, mode, impute):
                 modbase['Source'] = 'Modbase'
             else:
                 modbase = pd.DataFrame()
-            no_modbase_models_updated = pd.DataFrame()
             # st.write('======PDB==========')
             # st.write(pdb.to_string())
@@ -291,13 +298,13 @@ def pdb(input_set, mode, impute):
             # st.write('======MODBASE==========')
             # st.write(modbase.to_string())
             allData = pd.concat([pdb, swiss, modbase])
             allData.reset_index(inplace=True, drop=True)
             allData.replace({np.NaN: ''}, inplace=True)
-            # print('======ALL DATA==========')
-            # print(allData.to_string())
             if len(allData)>0:
                 allData.distance.replace({-1000: ''}, inplace=True)
@@ -318,52 +325,52 @@ def pdb(input_set, mode, impute):
                     k = pd.Series((key, str(list(set(val)))))
                     interface_dataframe = interface_dataframe.append(k, ignore_index=True)
                 interface_dataframe.columns = ['uniprotID', 'positions']
-                data = finalTouch(allData)
-                data = data.merge(interface_dataframe, on='uniprotID', how='left')
-                data.positions = data.positions.astype('str')
-                for i in data.index:
-                    if (str(data.at[i, 'pos']) in data.at[i, 'positions']) and data.at[i, 'trsh4'] == 'surface':
-                        data.at[i, 'threeState_trsh4_HQ'] = 'interface'
-                    elif (str(data.at[i, 'pos']) not in data.at[i, 'positions']) and data.at[i, 'trsh4'] == 'surface':
-                        data.at[i, 'threeState_trsh4_HQ'] = 'surface'
-                    elif (str(data.at[i, 'pos']) not in data.at[i, 'positions']) and data.at[i, 'trsh4'] == 'core':
-                        data.at[i, 'threeState_trsh4_HQ'] = 'core'
-                    elif (str(data.at[i, 'pos']) in data.at[i, 'positions']) and data.at[i, 'trsh4'] == 'core':
-                        data.at[i, 'threeState_trsh4_HQ'] = 'conflict'
-                    elif data.at[i, 'trsh4'] == 'nan':
-                        data.at[i, 'threeState_trsh4_HQ'] = 'nan'
-                data.drop(['positions'], axis=1, inplace=True)
                 fisherResult = pd.read_csv(fisher_path, sep='\t')
                 significant_domains = fisherResult.domain.to_list()
-                for i in data.index:
-                    if data.at[i, 'domain'] in significant_domains:
-                        data.at[i, 'domain_fisher'] = data.at[i, 'domain']
                     else:
-                        data.at[i, 'domain_fisher'] = 'NULL'
                 print('Final adjustments are being done...\n')
                 binaryCols = UNIPROT_ANNOTATION_COLS[-30:]
-                data = data.astype(str)
-                data.replace({'NaN': 'nan'}, inplace=True)
-                for i in data.index:
                     for j in binaryCols:
-                        data[j] = data[j].astype('str')
-                        if (data.at[i, j] == '0') or (data.at[i, j] == '0.0'):
-                            data.at[i, j] = '1'
-                        elif data.at[i, j] == 'nan':
-                            data.at[i, j] = '0'
-                        elif (data.at[i, j] == '1') or (data.at[i, j] == '1.0'):
-                            data.at[i, j] = '2'
                 annotCols = UNIPROT_ANNOTATION_COLS[:30]
-                for i in data.index:
                     for annot in annotCols:
                         binaryName = str(annot) + 'Binary'
-                        if data.at[i, binaryName] == '2':
-                            data.at[i, annot] = '0.0'
-                data.rename(
                     columns={'uniprotID': 'prot_uniprotAcc', 'wt': 'wt_residue', 'pos': 'position', 'mut': 'mut_residue',
                              'datapoint': 'meta_merged', 'datapoint_disease': 'meta-lab_merged', 'label': 'source_db',
                              'family': 'prot_family', 'domain': 'domains_all', 'domain_fisher': 'domains_sig',
@@ -403,7 +410,7 @@ def pdb(input_set, mode, impute):
                              'peptide': 'peptide_dist', 'transitPeptide': 'transitPeptide_dist',
                              'glycosylation': 'glycosylation_dist', 'propeptide': 'propeptide_dist'}, inplace=True)
-                data = data[
                     ['prot_uniprotAcc', 'wt_residue', 'mut_residue', 'position','Source', 'meta_merged', 'composition', 'polarity',
                      'volume',
                      'granthamScore', 'domains_all',
@@ -432,33 +439,33 @@ def pdb(input_set, mode, impute):
                               16.82,
                               20.46, 24.58, 9.99, 17.43, 20.08, 30.91, 20.86, 22.14, 21.91, 28.45, 17.81, 25.12, 20.33, 22.36]
                     col_index = 0
-                    for col_ in data.columns[-30:]:
-                        data[col_] = data[col_].fillna(filler[col_index])
-                        data[col_] = data[col_].replace({'nan': filler[col_index]})
                         col_index += 1
-                    data['domains_3Ddist'] = data['domains_3Ddist'].fillna(24.5)
-                    data['sasa'] = data['sasa'].fillna(29.5)
-                    data['location_3state'] = data['location_3state'].fillna('unknown')
                 elif (impute == 'False') or (impute == 'false'):
                     pass
-                data = data.replace({'nan': np.NaN})
-                data.domains_all = data.domains_all.replace({-1: 'NULL'})
                 # ready.to_csv(path_to_output_files / 'featurevector_pdb.txt', sep='\t', index=False)
-                if len(data) == 0:
                     print(
                         'No feature vector could be produced for input data. Please check the presence of a structure for the input proteins.')
-            data.to_csv(path_to_output_files / 'featurevector_pdb.txt', sep='\t', index=False)
-            print('Feature vector successfully created...')
-            return data
-            end = timer()
-            hours, rem = divmod(end - start, 3600)
-            minutes, seconds = divmod(rem, 60)
-            print("Time passed: {:0>2}:{:0>2}:{:05.2f}".format(int(hours), int(minutes), seconds))
-            #sys.stdout.close()
-            return data

     out_path = path_to_output_files / 'log.txt'
     #sys.stdout = open(out_path, 'w')
     data = clean_data(input_set)
     data = add_uniprot_sequence(data)
     match = data[(data.wt_sequence_match == 'm')]
+    org_len = len(match)
     iso = data[(data.wt_sequence_match == 'i')]
     noMatch = data[(data.wt_sequence_match != 'm') & (data.wt_sequence_match != 'i')]
     if len(data) == 0:
                     modbase.replace({'[]': np.NaN, 'nan-nan': np.NaN, '': np.NaN}, inplace=True)
                     modbase = modbase.fillna(np.NaN)
                     print('\n>> Adding Modbase residue positions...\n')
+                    modbase_simple = modbase[['uniprotID', 'wt', 'pos', 'mut','datapoint']]
+                    modbase_simple = modbase_simple.drop_duplicates(['uniprotID', 'wt', 'pos' ,'mut','datapoint'])
                     modbaseOut, no_modbase_models_updated = addModbaseModels(modbase_simple, path_to_input_files, path_to_output_files)
+                    if len(modbaseOut) > 0:
+                        modbase = modbase.merge(modbaseOut, on = ['uniprotID', 'wt', 'pos', 'mut','datapoint'], how = 'left')
+                        no_modbase_models_updated['sasa'] = np.NaN
+                        modbase.reset_index(inplace=True, drop=True)
+                        no_modbase_add = modbase[pd.isna(modbase.coordinates)]
+                        modbase = modbase[~pd.isna(modbase.coordinates)]
+                        no_modbase_models_updated = pd.concat([no_modbase_models_updated, no_modbase_add])
+                        print('\n>> Mapping to Modbase models...\n')
+                        modbase = changeUPtoModels(modbase)
+                        print('\n>> Calculating 3D distances for Modbase models...\n')
+                        modbase = isZeroDistance(modbase)
+                        modbase = match3DModels(modbase)
+                        modbase = selectMaxAnnot(modbase)
+                        modbase = modbase.sort_values(by=['datapoint', 'quality_score', 'distance','hitTotal', 'annotTotal'], ascending=[True, True, True, True, True])
+                        modbase = modbase.drop_duplicates(['datapoint'])
+                        modbase.replace({'[]': np.NaN, 'hit': 0.0}, inplace=True)
+                    else:
+                        modbase = pd.DataFrame(columns = SIMPLE_COLS)
                 else:
                     modbase = modbase[SIMPLE_COLS]
                     'lipidationBinary', 'siteBinary', 'transmembraneBinary', 'crosslinkBinary', 'mutagenesisBinary', 'strandBinary', 'helixBinary', 'turnBinary', 'metalBindingBinary',
                     'repeatBinary', 'topologicalDomainBinary', 'caBindingBinary', 'bindingSiteBinary', 'regionBinary', 'signalPeptideBinary', 'modifiedResidueBinary', 'zincFingerBinary',
                     'motifBinary', 'coiledCoilBinary', 'peptideBinary', 'transitPeptideBinary', 'glycosylationBinary', 'propeptideBinary', 'sasa']
+            no_modbase_models_updated = no_modbase_models_updated.drop_duplicates()
             if len(pdb)>0:
                 pdb = pdb[COLS]
                 pdb['Source'] = 'PDB'
                 modbase['Source'] = 'Modbase'
             else:
                 modbase = pd.DataFrame()
+            if len(no_modbase_models_updated) == 0:
+                no_modbase_models_updated = pd.DataFrame()
             # st.write('======PDB==========')
             # st.write(pdb.to_string())
             # st.write('======MODBASE==========')
             # st.write(modbase.to_string())
             allData = pd.concat([pdb, swiss, modbase])
             allData.reset_index(inplace=True, drop=True)
             allData.replace({np.NaN: ''}, inplace=True)
+            # st.write('======ALL DATA==========')
+            # st.write(allData.to_string())
             if len(allData)>0:
                 allData.distance.replace({-1000: ''}, inplace=True)
                     k = pd.Series((key, str(list(set(val)))))
                     interface_dataframe = interface_dataframe.append(k, ignore_index=True)
                 interface_dataframe.columns = ['uniprotID', 'positions']
+                final_data = finalTouch(allData)
+                final_data = final_data.merge(interface_dataframe, on='uniprotID', how='left')
+                final_data.positions = final_data.positions.astype('str')
+                for i in final_data.index:
+                    if (str(final_data.at[i, 'pos']) in final_data.at[i, 'positions']) and final_data.at[i, 'trsh4'] == 'surface':
+                        final_data.at[i, 'threeState_trsh4_HQ'] = 'interface'
+                    elif (str(final_data.at[i, 'pos']) not in final_data.at[i, 'positions']) and final_data.at[i, 'trsh4'] == 'surface':
+                        final_data.at[i, 'threeState_trsh4_HQ'] = 'surface'
+                    elif (str(final_data.at[i, 'pos']) not in final_data.at[i, 'positions']) and final_data.at[i, 'trsh4'] == 'core':
+                        final_data.at[i, 'threeState_trsh4_HQ'] = 'core'
+                    elif (str(final_data.at[i, 'pos']) in final_data.at[i, 'positions']) and final_data.at[i, 'trsh4'] == 'core':
+                        final_data.at[i, 'threeState_trsh4_HQ'] = 'conflict'
+                    elif final_data.at[i, 'trsh4'] == 'nan':
+                        final_data.at[i, 'threeState_trsh4_HQ'] = 'nan'
+                final_data.drop(['positions'], axis=1, inplace=True)
                 fisherResult = pd.read_csv(fisher_path, sep='\t')
                 significant_domains = fisherResult.domain.to_list()
+                for i in final_data.index:
+                    if final_data.at[i, 'domain'] in significant_domains:
+                        final_data.at[i, 'domain_fisher'] = final_data.at[i, 'domain']
                     else:
+                        final_data.at[i, 'domain_fisher'] = 'NULL'
                 print('Final adjustments are being done...\n')
                 binaryCols = UNIPROT_ANNOTATION_COLS[-30:]
+                final_data = final_data.astype(str)
+                final_data.replace({'NaN': 'nan'}, inplace=True)
+                for i in final_data.index:
                     for j in binaryCols:
+                        final_data[j] = final_data[j].astype('str')
+                        if (final_data.at[i, j] == '0') or (final_data.at[i, j] == '0.0'):
+                            final_data.at[i, j] = '1'
+                        elif final_data.at[i, j] == 'nan':
+                            final_data.at[i, j] = '0'
+                        elif (final_data.at[i, j] == '1') or (final_data.at[i, j] == '1.0'):
+                            final_data.at[i, j] = '2'
                 annotCols = UNIPROT_ANNOTATION_COLS[:30]
+                for i in final_data.index:
                     for annot in annotCols:
                         binaryName = str(annot) + 'Binary'
+                        if final_data.at[i, binaryName] == '2':
+                            final_data.at[i, annot] = '0.0'
+                final_data.rename(
                     columns={'uniprotID': 'prot_uniprotAcc', 'wt': 'wt_residue', 'pos': 'position', 'mut': 'mut_residue',
                              'datapoint': 'meta_merged', 'datapoint_disease': 'meta-lab_merged', 'label': 'source_db',
                              'family': 'prot_family', 'domain': 'domains_all', 'domain_fisher': 'domains_sig',
                              'peptide': 'peptide_dist', 'transitPeptide': 'transitPeptide_dist',
                              'glycosylation': 'glycosylation_dist', 'propeptide': 'propeptide_dist'}, inplace=True)
+                final_data = final_data[
                     ['prot_uniprotAcc', 'wt_residue', 'mut_residue', 'position','Source', 'meta_merged', 'composition', 'polarity',
                      'volume',
                      'granthamScore', 'domains_all',
                               16.82,
                               20.46, 24.58, 9.99, 17.43, 20.08, 30.91, 20.86, 22.14, 21.91, 28.45, 17.81, 25.12, 20.33, 22.36]
                     col_index = 0
+                    for col_ in final_data.columns[-30:]:
+                        final_data[col_] = final_data[col_].fillna(filler[col_index])
+                        final_data[col_] = final_data[col_].replace({'nan': filler[col_index]})
                         col_index += 1
+                    final_data['domains_3Ddist'] = final_data['domains_3Ddist'].fillna(24.5)
+                    final_data['sasa'] = final_data['sasa'].fillna(29.5)
+                    final_data['location_3state'] = final_data['location_3state'].fillna('unknown')
                 elif (impute == 'False') or (impute == 'false'):
                     pass
+                final_data = final_data.replace({'nan': np.NaN})
+                final_data.domains_all = final_data.domains_all.replace({-1: 'NULL'})
                 # ready.to_csv(path_to_output_files / 'featurevector_pdb.txt', sep='\t', index=False)
+                if len(final_data) == 0:
                     print(
                         'No feature vector could be produced for input data. Please check the presence of a structure for the input proteins.')
+                final_data.to_csv(path_to_output_files / 'featurevector_pdb.txt', sep='\t', index=False)
+                print('Feature vector successfully created...')
+                end = timer()
+                hours, rem = divmod(end - start, 3600)
+                minutes, seconds = divmod(rem, 60)
+                print("Time passed: {:0>2}:{:0>2}:{:05.2f}".format(int(hours), int(minutes), seconds))
+                return final_data
+            elif len(no_modbase_models_updated) >0 and (len(no_modbase_models_updated) !=org_len):
+                st.write(f'{len(no_modbase_models_updated)} of {org_len} datapoins could not be mapped to any structures.')
+                st.write(f'{org_len-len(no_modbase_models_updated)} of {org_len} datapoins could not be mapped to any structures.')
+            elif len(no_modbase_models_updated) == org_len:
+                st.write(f'0 of {org_len} datapoins could not be mapped to any structures. Feature vector could not be created.')