Spaces:

semmyk
/

parserPDF

Sleeping

App Files Files Community

semmyk commited on Sep 28

Commit

b5547bd

1 Parent(s): 74018a1

baseline08_beta01.5_28Sept25: fix oauth_token.token (convert_batch), log in

Browse files

Files changed (5) hide show

README.md +2 -7
converters/extraction_converter.py +1 -1
llm/llm_login.py +1 -1
requirements.txt +1 -1
ui/gradio_ui.py +57 -28

README.md CHANGED Viewed

@@ -7,13 +7,14 @@ sdk: gradio
 command: python main.py
 app_file: main.py
 hf_oauth: true
 python_version: 3.12
 license: mit
 pinned: true
 short_description: PDF & HTML parser to markdown
 models: [meta-llama/Llama-4-Maverick-17B-128E-Instruct, openai/gpt-oss-120b, openai/gpt-oss-20b]
 tags: [markdown, PDF, parser, converter, extractor]
-#preload_from_hub: [https://huggingface.co/datalab-to/surya_layout, https://huggingface.co/datalab-to/surya_tablerec, huggingface.co/datalab-to/line_detector0, https://huggingface.co/tarun-menta/ocr_error_detection/blob/main/config.json]
 owner: research-semmyk
 #---
 #
@@ -39,18 +40,12 @@ version: 0.1.0
 readme: README.md
 requires-python: ">=3.12"
 #dependencies: []
-#owner: research-semmyk
 #preload_from_hub:
 #  - https://huggingface.co/datalab-to/surya_layout
 #  - https://huggingface.co/datalab-to/surya_tablerec
 #  - huggingface.co/datalab-to/line_detector0
 #  - https://huggingface.co/tarun-menta/ocr_error_detection/blob/main/config.json
 #owner: research-semmyk
-#preload_from_hub:
-#  - https://huggingface.co/datalab-to/surya_layout
-#  - https://huggingface.co/datalab-to/surya_tablerec
-#  - huggingface.co/datalab-to/line_detector0
-#  - https://huggingface.co/tarun-menta/ocr_error_detection/blob/main/config.json
 ---
 # parserPDF

 command: python main.py
 app_file: main.py
 hf_oauth: true
+oauth_scopes: [read-access]
 python_version: 3.12
 license: mit
 pinned: true
 short_description: PDF & HTML parser to markdown
 models: [meta-llama/Llama-4-Maverick-17B-128E-Instruct, openai/gpt-oss-120b, openai/gpt-oss-20b]
 tags: [markdown, PDF, parser, converter, extractor]
+preload_from_hub: [https://huggingface.co/datalab-to/surya_layout, https://huggingface.co/datalab-to/surya_tablerec, huggingface.co/datalab-to/line_detector0, https://huggingface.co/tarun-menta/ocr_error_detection/blob/main/config.json]
 owner: research-semmyk
 #---
 #
 readme: README.md
 requires-python: ">=3.12"
 #dependencies: []
 #preload_from_hub:
 #  - https://huggingface.co/datalab-to/surya_layout
 #  - https://huggingface.co/datalab-to/surya_tablerec
 #  - huggingface.co/datalab-to/line_detector0
 #  - https://huggingface.co/tarun-menta/ocr_error_detection/blob/main/config.json
 #owner: research-semmyk
 ---
 # parserPDF

converters/extraction_converter.py CHANGED Viewed

@@ -133,7 +133,7 @@ class DocumentConverter:
             llm_service_str = str(self.llm_service).split("'")[1]  ## SMY: split and slicing  ##Gets the string value
             # sets api_key required by Marker
-            os.environ["OPENAI_API_KEY"] = self.openai_api_key or api_token  ## to handle Marker's assertion test on OpenAI
             logger.log(level=20, msg="self.converter: instantiating MarkerConverter:", extra={"llm_service_str": llm_service_str, "api_token": api_token})  ##debug
             #self.converter: MarkerConverter = MarkerConverter(

             llm_service_str = str(self.llm_service).split("'")[1]  ## SMY: split and slicing  ##Gets the string value
             # sets api_key required by Marker
+            os.environ["OPENAI_API_KEY"] = api_token if api_token !='' or None else self.openai_api_key  ## to handle Marker's assertion test on OpenAI
             logger.log(level=20, msg="self.converter: instantiating MarkerConverter:", extra={"llm_service_str": llm_service_str, "api_token": api_token})  ##debug
             #self.converter: MarkerConverter = MarkerConverter(

llm/llm_login.py CHANGED Viewed

@@ -47,7 +47,7 @@ def login_huggingface(token: Optional[str] = None):
             #return True
     except Exception as exc:
         # Respect common env var names; prefer explicit token arg when provided
-        fallback_token = token or os.getenv("HF_TOKEN") or os.getenv("HUGGINGFACEHUB_API_TOKEN") or get_token()
         if fallback_token:
             try:
                 login(token=fallback_token)

             #return True
     except Exception as exc:
         # Respect common env var names; prefer explicit token arg when provided
+        fallback_token = token if token else get_token() or os.getenv("HF_TOKEN") or os.getenv("HUGGINGFACEHUB_API_TOKEN")
         if fallback_token:
             try:
                 login(token=fallback_token)

requirements.txt CHANGED Viewed

@@ -1,4 +1,4 @@
-gradio>=4.0
 marker-pdf[full]>=1.3.0           # pip install marker (GitHub: https://github.com/datalab-to/marker)
 weasyprint>=59.0       # optional fallback if pandoc is not available
 #pandoc==2.3            # for Markdown → PDF conversion

+gradio>=5.40.0
 marker-pdf[full]>=1.3.0           # pip install marker (GitHub: https://github.com/datalab-to/marker)
 weasyprint>=59.0       # optional fallback if pandoc is not available
 #pandoc==2.3            # for Markdown → PDF conversion

ui/gradio_ui.py CHANGED Viewed

@@ -43,7 +43,7 @@ def get_login_token( api_token_arg, oauth_token: gr.OAuthToken | None=None,):
         oauth_token = oauth_token
     else: get_token()
-    return oauth_token
 # pool executor to convert files called by Gradio
 ##SMY: TODO: future: refactor to gradio_process.py
@@ -74,6 +74,7 @@ def convert_batch(
     use_llm: bool = False,   #Optional[bool] = False,  #True,
     page_range: str = None,  #Optional[str] = None,
     tz_hours: str = None,
     ): #-> str:
     """
     Handles the conversion process using multiprocessing.
@@ -86,7 +87,7 @@ def convert_batch(
     yield gr.update(interactive=False), f"Commencing Processing ... Getting login", {"process": "Commencing Processing"}, f"__init__.py"
     # get token from logged-in user:
-    api_token = get_login_token(api_token_gr)
     ##SMY: Strictly debug. Must not be live
     logger.log(level=30, msg="Commencing: get_login_token", extra={"api_token]": api_token, "api_token_gr": api_token_gr})
@@ -262,8 +263,9 @@ def convert_batch(
         #return "\n".join(logs), "\n".join(logs_files_images)    #"\n".join(logs_files)
         #return logs_return_formatted_json_string, logs_return_formatted_json_string, logs_files_images_return
         #return gr.update(interactive=True), gr.update(value=logs_return_formatted_json_string), gr.update(value=logs_return_formatted_json_string, visible=True), gr.update(value=logs_files_images_return, visible=True)
-        yield  gr.update(interactive=True), gr.update(), gr.update(visible=True), gr.update(visible=True)
-        yield gr.update(interactive=True), logs_return_formatted_json_string, logs_return_formatted_json_string, logs_files_images_return
     except Exception as exc:
         tb = traceback.format_exc()
@@ -450,12 +452,6 @@ def build_interface() -> gr.Blocks:
         return updated_files, message
-    def clear_state():
-        """
-        Clears the accumulated state of uloaded file list, output textbox, files and directory upload.
-        """
-        return [], "Files list cleared.", [], []
     # with gr.Blocks(title=TITLE) as demo
     with gr.Blocks(title=TITLE, css=custom_css) as demo:
         gr.Markdown(f"## {DESCRIPTION}")
@@ -584,11 +580,12 @@ def build_interface() -> gr.Blocks:
         with gr.Accordion("🤗 HuggingFace Client Logout", open=True):  #, open=False):
             # Logout controls
-            logout_status = gr.Markdown(visible=True)  #visible=False)
             with gr.Row():
-                hf_login_logout_btn = gr.LoginButton(value="Sign in to HuggingFace 🤗", logout_value="Clear Session & Logout of HF: ({})", variant="huggingface")
-                #logout_btn = gr.Button("Logout from session and Hugging Face (inference) Client", variant="stop", )
         # The gr.State component to hold the accumulated list of files
         uploaded_file_list = gr.State([])   ##NB: initial value of `gr.State` must be able to be deepcopied
@@ -759,7 +756,35 @@ def build_interface() -> gr.Blocks:
                 )
         hf_provider_dd.change(on_provider_change, inputs=hf_provider_dd, outputs=None)
         # HuggingFace Client Logout
         def do_logout_hf():
             try:
                 ok = docconverter.client.logout()
@@ -772,18 +797,9 @@ def build_interface() -> gr.Blocks:
                 msg = "⚠️ Logout. No HF session"
                 return msg
                 #yield msg   ## generator for string
-        '''def get_login_token(state_api_token_arg, oauth_token: gr.OAuthToken | None=None):
-            #oauth_token = get_token() if oauth_token is not None else state_api_token
-            #oauth_token = oauth_token if oauth_token else state_api_token_arg
-            if oauth_token:
-                print(oauth_token)
-                return oauth_token
-            else:
-                oauth_token = get_token()
-                print(oauth_token)
-                return oauth_token'''
-        def custom_do_logout(hf_login_logout_btn_arg: gr.LoginButton, state_api_token_arg: gr.State):
             #global state_api_token
             '''  ##SMY: TO DELETE
             try:
@@ -797,12 +813,25 @@ def build_interface() -> gr.Blocks:
             msg = do_logout_hf()
             ##debug
             #msg = "✅ Session Cleared. Remember to close browser." if "Clear Session & Logout of HF" in hf_login_logout_btn else "⚠️ Logout"  # & Session Cleared"
-            return gr.update(value="Sign in to HuggingFace 🤗"), gr.update(value=""), gr.update(visible=True, value=msg), state_api_token_arg
             #yield gr.update(value="Sign in to HuggingFace 🤗"), gr.update(value=""), gr.update(visible=True, value=msg)
         #hf_login_logout_btn.click(fn=custom_do_logout, inputs=None, outputs=hf_login_logout_btn)
-        hf_login_logout_btn.click(fn=custom_do_logout, inputs=[hf_login_logout_btn, state_api_token], outputs=[hf_login_logout_btn, api_token_tb, logout_status, state_api_token])
-        #logout_btn.click(fn=do_logout, inputs=None, outputs=[api_token_tb, logout_status, hf_login_logout_btn, logout_btn])
         # --- PDF & HTML → Markdown tab ---
         # Event handler for the multiple file upload button

         oauth_token = oauth_token
     else: get_token()
+    return oauth_token.token  ##token value
 # pool executor to convert files called by Gradio
 ##SMY: TODO: future: refactor to gradio_process.py
     use_llm: bool = False,   #Optional[bool] = False,  #True,
     page_range: str = None,  #Optional[str] = None,
     tz_hours: str = None,
+    oauth_token: gr.OAuthToken | None=None,
     ): #-> str:
     """
     Handles the conversion process using multiprocessing.
     yield gr.update(interactive=False), f"Commencing Processing ... Getting login", {"process": "Commencing Processing"}, f"__init__.py"
     # get token from logged-in user:
+    api_token = get_login_token(api_token_arg=api_token_gr, oauth_token=oauth_token)
     ##SMY: Strictly debug. Must not be live
     logger.log(level=30, msg="Commencing: get_login_token", extra={"api_token]": api_token, "api_token_gr": api_token_gr})
         #return "\n".join(logs), "\n".join(logs_files_images)    #"\n".join(logs_files)
         #return logs_return_formatted_json_string, logs_return_formatted_json_string, logs_files_images_return
         #return gr.update(interactive=True), gr.update(value=logs_return_formatted_json_string), gr.update(value=logs_return_formatted_json_string, visible=True), gr.update(value=logs_files_images_return, visible=True)
+        #yield  gr.update(interactive=True), gr.update(), gr.update(visible=True), gr.update(visible=True)
+        #yield gr.update(interactive=True), logs_return_formatted_json_string, logs_return_formatted_json_string, logs_files_images_return
+        return gr.update(interactive=True), logs_return_formatted_json_string, logs_return_formatted_json_string, logs_files_images_return
     except Exception as exc:
         tb = traceback.format_exc()
         return updated_files, message
     # with gr.Blocks(title=TITLE) as demo
     with gr.Blocks(title=TITLE, css=custom_css) as demo:
         gr.Markdown(f"## {DESCRIPTION}")
         with gr.Accordion("🤗 HuggingFace Client Logout", open=True):  #, open=False):
             # Logout controls
             with gr.Row():
+                #hf_login_logout_btn = gr.LoginButton(value="Sign in to HuggingFace 🤗", logout_value="Clear Session & Logout of HF: ({})", variant="huggingface")
+                hf_login_logout_btn = gr.LoginButton(value="Sign in to HuggingFace 🤗", logout_value="Logout of HF: ({}) 🤗", variant="huggingface")
+                #logout_btn = gr.Button("Logout from session & HF (inference) Client", variant="stop", )
+            logout_status_md = gr.Markdown(visible=True)  #visible=False)
         # The gr.State component to hold the accumulated list of files
         uploaded_file_list = gr.State([])   ##NB: initial value of `gr.State` must be able to be deepcopied
                 )
         hf_provider_dd.change(on_provider_change, inputs=hf_provider_dd, outputs=None)
         # HuggingFace Client Logout
+        '''def get_login_token(state_api_token_arg, oauth_token: gr.OAuthToken | None=None):
+            #oauth_token = get_token() if oauth_token is not None else state_api_token
+            #oauth_token = oauth_token if oauth_token else state_api_token_arg
+            if oauth_token:
+                print(oauth_token)
+                return oauth_token
+            else:
+                oauth_token = get_token()
+                print(oauth_token)
+                return oauth_token'''
+        #'''
+        def do_logout():    ##SMY: use with clear_state() as needed
+            try:
+                #ok = docextractor.client.logout()
+                ok = docconverter.client.logout()
+                # Reset token textbox on successful logout
+                #msg = "✅ Logged out of HuggingFace and cleared tokens. Remember to log out of HuggingFace completely." if ok else "⚠️ Logout failed."
+                msg = "✅ Session Cleared. Remember to close browser." if ok else "⚠️ HF client closing failed."
+                return msg
+                #return gr.update(value=""), gr.update(visible=True, value=msg), gr.update(value="Sign in to HuggingFace 🤗"), gr.update(value="Clear session")
+            except AttributeError:
+                msg = "⚠️ HF client closing failed."
+                return msg
+                #return gr.update(value=""), gr.update(visible=True, value=msg), gr.update(value="Sign in to HuggingFace 🤗"), gr.update(value="Clear session", interactive=False)
+        #'''
         def do_logout_hf():
             try:
                 ok = docconverter.client.logout()
                 msg = "⚠️ Logout. No HF session"
                 return msg
                 #yield msg   ## generator for string
+        #def custom_do_logout(hf_login_logout_btn_arg: gr.LoginButton, state_api_token_arg: gr.State):
+        def custom_do_logout():
             #global state_api_token
             '''  ##SMY: TO DELETE
             try:
             msg = do_logout_hf()
             ##debug
             #msg = "✅ Session Cleared. Remember to close browser." if "Clear Session & Logout of HF" in hf_login_logout_btn else "⚠️ Logout"  # & Session Cleared"
+            return gr.update(value="Sign in to HuggingFace 🤗"), gr.update(value=""), gr.update(visible=True, value=msg)  #, state_api_token_arg
             #yield gr.update(value="Sign in to HuggingFace 🤗"), gr.update(value=""), gr.update(visible=True, value=msg)
+        # Files, status, session clearing
+        def clear_state():
+            """
+            Clears the accumulated state of uploaded file list, output textbox, files and directory upload.
+            """
+            #msg = f"Files list cleared: {do_logout()}"  ## use as needed
+            msg = f"Files list cleared."
+            yield [], msg, '', ''
+            #return [], f"Files list cleared.", [], []
         #hf_login_logout_btn.click(fn=custom_do_logout, inputs=None, outputs=hf_login_logout_btn)
+        ##unused
+        ###hf_login_logout_btn.click(fn=custom_do_logout, inputs=[hf_login_logout_btn, state_api_token], outputs=[hf_login_logout_btn, api_token_tb, logout_status_md, state_api_token])
+        ###logout_btn.click(fn=do_logout, inputs=None, outputs=[api_token_tb, logout_status_md, hf_login_logout_btn, logout_btn])
+        #logout_btn.click(fn=clear_state, inputs=None, outputs=[uploaded_file_list, output_textbox, log_output, api_token_tb])
+        hf_login_logout_btn.click(fn=custom_do_logout, inputs=None, outputs=[hf_login_logout_btn, api_token_tb, logout_status_md])  #, state_api_token])
         # --- PDF & HTML → Markdown tab ---
         # Event handler for the multiple file upload button