Spaces:

aletrn
/

lisa-on-cuda

Paused

App Files Files Community

alessandro trinca tornidor commited on Mar 18, 2024

Commit

2640499

1 Parent(s): ca22ec3

[debug] now some functions can use an external logger, bump to version 1.0.5

Browse files

Files changed (4) hide show

lisa_on_cuda/app/main.py +5 -5
lisa_on_cuda/utils/app_helpers.py +31 -20
poetry.lock +3 -3
pyproject.toml +2 -2

lisa_on_cuda/app/main.py CHANGED Viewed

@@ -21,12 +21,12 @@ app.mount("/static", StaticFiles(directory=utils.FASTAPI_STATIC), name="static")
 templates = Jinja2Templates(directory="templates")
-logging.info(f"sys.argv:{sys.argv}.")
 args = app_helpers.parse_args([])
-logging.info(f"prepared default arguments:{args}.")
 inference_fn = app_helpers.get_inference_model_by_args(args)
-logging.info(f"prepared inference_fn function:{inference_fn.__name__}, creating gradio interface...")
 io = app_helpers.get_gradio_interface(inference_fn)
-logging.info("created gradio interface")
 app = gr.mount_gradio_app(app, io, path=CUSTOM_GRADIO_PATH)
-logging.info("mounted gradio app within fastapi")

 templates = Jinja2Templates(directory="templates")
+app_helpers.app_logger.info(f"sys.argv:{sys.argv}.")
 args = app_helpers.parse_args([])
+app_helpers.app_logger.info(f"prepared default arguments:{args}.")
 inference_fn = app_helpers.get_inference_model_by_args(args)
+app_helpers.app_logger.info(f"prepared inference_fn function:{inference_fn.__name__}, creating gradio interface...")
 io = app_helpers.get_gradio_interface(inference_fn)
+app_helpers.app_logger.info("created gradio interface")
 app = gr.mount_gradio_app(app, io, path=CUSTOM_GRADIO_PATH)
+app_helpers.app_logger.info("mounted gradio app within fastapi")

lisa_on_cuda/utils/app_helpers.py CHANGED Viewed

@@ -17,13 +17,15 @@ from lisa_on_cuda.llava import conversation as conversation_lib
 from lisa_on_cuda.llava.mm_utils import tokenizer_image_token
 from lisa_on_cuda.segment_anything.utils.transforms import ResizeLongestSide
 placeholders = utils.create_placeholder_variables()
 @session_logger.set_uuid_logging
-def parse_args(args_to_parse):
-    logging.info(f"ROOT_PROJECT:{utils.PROJECT_ROOT_FOLDER}.")
     parser = argparse.ArgumentParser(description="LISA chat")
     parser.add_argument("--version", default="xinlai/LISA-13B-llama2-v1-explanatory")
     parser.add_argument("--vis_save_path", default=str(utils.VIS_OUTPUT), type=str)
@@ -54,8 +56,10 @@ def parse_args(args_to_parse):
 @session_logger.set_uuid_logging
-def get_cleaned_input(input_str):
-    logging.info(f"start cleaning of input_str: {input_str}.")
     input_str = nh3.clean(
         input_str,
         tags={
@@ -80,7 +84,7 @@ def get_cleaned_input(input_str):
         url_schemes={"http", "https", "mailto"},
         link_rel=None,
     )
-    logging.info(f"cleaned input_str: {input_str}.")
     return input_str
@@ -207,16 +211,20 @@ def get_inference_model_by_args(args_to_parse):
     no_seg_out = placeholders["no_seg_out"]
     @session_logger.set_uuid_logging
-    def inference(input_str: str, input_image: str | np.ndarray):
-        ## filter out special chars
         input_str = get_cleaned_input(input_str)
-        logging.info(f"input_str type: {type(input_str)}, input_image type: {type(input_image)}.")
-        logging.info(f"input_str: {input_str}, input_image: {type(input_image)}.")
-        ## input valid check
         if not re.match(r"^[A-Za-z ,.!?\'\"]+$", input_str) or len(input_str) < 1:
             output_str = f"[Error] Unprocessable Entity input: {input_str}."
-            logging.error(output_str)
             from fastapi import status
             from fastapi.responses import JSONResponse
@@ -241,6 +249,7 @@ def get_inference_model_by_args(args_to_parse):
         conv.append_message(conv.roles[1], "")
         prompt = conv.get_prompt()
         image_np = input_image
         if isinstance(input_image, str):
             image_np = cv2.imread(input_image)
@@ -254,7 +263,7 @@ def get_inference_model_by_args(args_to_parse):
             .unsqueeze(0)
             .cuda()
         )
-        logging.info(f"image_clip type: {type(image_clip)}.")
         image_clip = set_image_precision_by_args(image_clip, args_to_parse.precision)
         image = transform.apply_image(image_np)
@@ -265,12 +274,13 @@ def get_inference_model_by_args(args_to_parse):
             .unsqueeze(0)
             .cuda()
         )
-        logging.info(f"image_clip type: {type(image_clip)}.")
         image = set_image_precision_by_args(image, args_to_parse.precision)
         input_ids = tokenizer_image_token(prompt, tokenizer, return_tensors="pt")
         input_ids = input_ids.unsqueeze(0).cuda()
         output_ids, pred_masks = model.evaluate(
             image_clip,
             image,
@@ -280,14 +290,15 @@ def get_inference_model_by_args(args_to_parse):
             max_new_tokens=512,
             tokenizer=tokenizer,
         )
         output_ids = output_ids[0][output_ids[0] != utils.IMAGE_TOKEN_INDEX]
         text_output = tokenizer.decode(output_ids, skip_special_tokens=False)
         text_output = text_output.replace("\n", "").replace("  ", " ")
         text_output = text_output.split("ASSISTANT: ")[-1]
-        logging.info(
-            f"found n {len(pred_masks)} prediction masks, "
             f"text_output type: {type(text_output)}, text_output: {text_output}."
         )
         output_image = no_seg_out
@@ -301,15 +312,15 @@ def get_inference_model_by_args(args_to_parse):
             output_image = image_np.copy()
             output_image[pred_mask_bool] = (
-                image_np * 0.5
-                + pred_mask_bool[:, :, None].astype(np.uint8) * np.array([255, 0, 0]) * 0.5
             )[pred_mask_bool]
         output_str = f"ASSISTANT: {text_output} ..."
-        logging.info(f"output_image type: {type(output_mask)}.")
         return output_image, output_mask, output_str
-    logging.info("prepared inference function!")
     return inference

 from lisa_on_cuda.llava.mm_utils import tokenizer_image_token
 from lisa_on_cuda.segment_anything.utils.transforms import ResizeLongestSide
 placeholders = utils.create_placeholder_variables()
+app_logger = logging.getLogger(__name__)
 @session_logger.set_uuid_logging
+def parse_args(args_to_parse, internal_logger=None):
+    if internal_logger is None:
+        internal_logger = app_logger
+    internal_logger.info(f"ROOT_PROJECT:{utils.PROJECT_ROOT_FOLDER}, default vis_output:{utils.VIS_OUTPUT}.")
     parser = argparse.ArgumentParser(description="LISA chat")
     parser.add_argument("--version", default="xinlai/LISA-13B-llama2-v1-explanatory")
     parser.add_argument("--vis_save_path", default=str(utils.VIS_OUTPUT), type=str)
 @session_logger.set_uuid_logging
+def get_cleaned_input(input_str, internal_logger=None):
+    if internal_logger is None:
+        internal_logger = app_logger
+    internal_logger.info(f"start cleaning of input_str: {input_str}.")
     input_str = nh3.clean(
         input_str,
         tags={
         url_schemes={"http", "https", "mailto"},
         link_rel=None,
     )
+    internal_logger.info(f"cleaned input_str: {input_str}.")
     return input_str
     no_seg_out = placeholders["no_seg_out"]
     @session_logger.set_uuid_logging
+    def inference(input_str: str, input_image: str | np.ndarray, internal_logger: logging = None):
+        if internal_logger is None:
+            internal_logger = app_logger
+        # filter out special chars
         input_str = get_cleaned_input(input_str)
+        internal_logger.info(f" input_str type: {type(input_str)}, input_image type: {type(input_image)}.")
+        internal_logger.info(f"input_str: {input_str}, input_image: {type(input_image)}.")
+        # input valid check
         if not re.match(r"^[A-Za-z ,.!?\'\"]+$", input_str) or len(input_str) < 1:
             output_str = f"[Error] Unprocessable Entity input: {input_str}."
+            internal_logger.error(output_str)
             from fastapi import status
             from fastapi.responses import JSONResponse
         conv.append_message(conv.roles[1], "")
         prompt = conv.get_prompt()
+        internal_logger.info("read and preprocess image.")
         image_np = input_image
         if isinstance(input_image, str):
             image_np = cv2.imread(input_image)
             .unsqueeze(0)
             .cuda()
         )
+        internal_logger.info(f"image_clip type: {type(image_clip)}.")
         image_clip = set_image_precision_by_args(image_clip, args_to_parse.precision)
         image = transform.apply_image(image_np)
             .unsqueeze(0)
             .cuda()
         )
+        internal_logger.info(f"image_clip type: {type(image_clip)}.")
         image = set_image_precision_by_args(image, args_to_parse.precision)
         input_ids = tokenizer_image_token(prompt, tokenizer, return_tensors="pt")
         input_ids = input_ids.unsqueeze(0).cuda()
+        internal_logger.info("start model evaluation...")
         output_ids, pred_masks = model.evaluate(
             image_clip,
             image,
             max_new_tokens=512,
             tokenizer=tokenizer,
         )
+        internal_logger.info("model evaluation done, start token decoding...")
         output_ids = output_ids[0][output_ids[0] != utils.IMAGE_TOKEN_INDEX]
         text_output = tokenizer.decode(output_ids, skip_special_tokens=False)
         text_output = text_output.replace("\n", "").replace("  ", " ")
         text_output = text_output.split("ASSISTANT: ")[-1]
+        internal_logger.info(
+            f"token decoding ended,found n {len(pred_masks)} prediction masks, "
             f"text_output type: {type(text_output)}, text_output: {text_output}."
         )
         output_image = no_seg_out
             output_image = image_np.copy()
             output_image[pred_mask_bool] = (
+                    image_np * 0.5
+                    + pred_mask_bool[:, :, None].astype(np.uint8) * np.array([255, 0, 0]) * 0.5
             )[pred_mask_bool]
         output_str = f"ASSISTANT: {text_output} ..."
+        internal_logger.info(f"output_image type: {type(output_mask)}.")
         return output_image, output_mask, output_str
+    app_logger.info("prepared inference function!")
     return inference

poetry.lock CHANGED Viewed

@@ -659,13 +659,13 @@ files = [
 [[package]]
 name = "fsspec"
-version = "2024.3.0"
 description = "File-system specification"
 optional = false
 python-versions = ">=3.8"
 files = [
-    {file = "fsspec-2024.3.0-py3-none-any.whl", hash = "sha256:779001bd0122c9c4975cf03827d5e86c3afb914a3ae27040f15d341ab506a693"},
-    {file = "fsspec-2024.3.0.tar.gz", hash = "sha256:f13a130c0ed07e15c4e1aeb0472a823e9c426b0b5792a1f40d902b0a71972d43"},
 ]
 [package.extras]

 [[package]]
 name = "fsspec"
+version = "2024.3.1"
 description = "File-system specification"
 optional = false
 python-versions = ">=3.8"
 files = [
+    {file = "fsspec-2024.3.1-py3-none-any.whl", hash = "sha256:918d18d41bf73f0e2b261824baeb1b124bcf771767e3a26425cd7dec3332f512"},
+    {file = "fsspec-2024.3.1.tar.gz", hash = "sha256:f39780e282d7d117ffb42bb96992f8a90795e4d0fb0f661a70ca39fe9c43ded9"},
 ]
 [package.extras]

pyproject.toml CHANGED Viewed

@@ -1,6 +1,6 @@
 [tool.poetry]
 name = "lisa-on-cuda"
-version = "1.0.4"
 description = ""
 authors = ["alessandro trinca tornidor <alessandro@trinca.tornidor.com>"]
 license = "Apache 2.0"
@@ -8,7 +8,7 @@ readme = "README.md"
 [metadata]
 name = "lisa-on-cuda"
-version = "1.0.4"
 [tool.poetry.dependencies]
 python = "~3.10"

 [tool.poetry]
 name = "lisa-on-cuda"
+version = "1.0.5"
 description = ""
 authors = ["alessandro trinca tornidor <alessandro@trinca.tornidor.com>"]
 license = "Apache 2.0"
 [metadata]
 name = "lisa-on-cuda"
+version = "1.0.5"
 [tool.poetry.dependencies]
 python = "~3.10"