Spaces:

AZILS
/

Selenium-Script

Build error

App Files Files Community

Container commited on Jun 20, 2024

Commit

efebe44

verified ·

1 Parent(s): 0d8732a

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -16

app.py CHANGED Viewed

@@ -8,24 +8,21 @@ from urllib.parse import unquote, urlparse
 app = FastAPI()
 def convert_cookies_to_dict(cookies):
-    cookies = dict([l.split("=", 1) for l in cookies.split("; ")])
-    return cookies
 def get_root_domain(url):
-    # 解析URL
     parsed_url = urlparse(url)
-    # 获取域名部分
     domain = parsed_url.netloc
-    # 分割域名部分以获取根域名
-    # 假设根域名是域名的最后两个部分
     parts = domain.split('.')
     if len(parts) > 1:
-        # 返回根域名部分
         return '.'.join(parts[-2:])
     else:
-        # 如果域名部分少于两个部分，返回整个域名
         return domain
 @app.get("/")
@@ -60,39 +57,49 @@ def chrome(url:str=None,wait:int=5,header:str=None,cookie:str=None):
     # 如果输入了cookie
     if type(cookie) == str:
         header_array.update({"cookie":unquote(cookie)})
     options = Options()
     options.add_argument('--headless')
     driver = webdriver.Chrome(options=options)
     driver.get(target_url)
     if 'cookie' in header_array:
         cookie_array = convert_cookies_to_dict(header_array['cookie'])
         del header_array['cookie']
         for key, value in cookie_array.items():
             driver.add_cookie({"name": key, "value": value, "domain": f'.{target_domain}', "path": "/", "secure": False})
     driver.header_overrides = header_array
     driver.get(target_url)
     print(driver.page_source)
     if wait_time > 0:
         time.sleep(wait_time)
-    # 获取当前URL
     current_url = driver.current_url
-    # 获取页面源代码
     page_source = driver.page_source
-    # 获取cookie
     cookies = driver.get_cookies()
-    # 是否有跳转过
     is_jump = (target_url != current_url)
     data = {

 app = FastAPI()
+# 解析cookie字符串为字典
 def convert_cookies_to_dict(cookies):
+    cookie_items = cookies.split("; ")
+    parsed_cookies = {item.split("=", 1)[0].strip(): item.split("=", 1)[1].strip() if "=" in item else "" for item in cookie_items}
+    return parsed_cookies#
+# 获取域名字符串的根域
 def get_root_domain(url):
     parsed_url = urlparse(url)
     domain = parsed_url.netloc
     parts = domain.split('.')
     if len(parts) > 1:
         return '.'.join(parts[-2:])
     else:
         return domain
 @app.get("/")
     # 如果输入了cookie
     if type(cookie) == str:
         header_array.update({"cookie":unquote(cookie)})
+    # 初始化浏览器
     options = Options()
+    # 设置为无头模式
     options.add_argument('--headless')
+    # 实例化
     driver = webdriver.Chrome(options=options)
+    # 需要打开网址页面，才能用 driver.add_cookie 进行cookie追加
     driver.get(target_url)
+    # 对浏览器追加指定域名的cookie
     if 'cookie' in header_array:
         cookie_array = convert_cookies_to_dict(header_array['cookie'])
         del header_array['cookie']
         for key, value in cookie_array.items():
             driver.add_cookie({"name": key, "value": value, "domain": f'.{target_domain}', "path": "/", "secure": False})
+    # 覆写下次访问的请求头（没有修改的则保持原样）
     driver.header_overrides = header_array
+    # 再次访问网址
     driver.get(target_url)
+    # 输出此时访问的网页源码
     print(driver.page_source)
+    # 等待多少秒，来预估网页完全的加载完成（执行完内部的所有js，因为部分js可能涉及到请求后的动态处理，或者延时跳转）
     if wait_time > 0:
         time.sleep(wait_time)
+    # 获取完全加载完成时，页面的URL
     current_url = driver.current_url
+    # 获取完全加载完成时，页面的源代码
     page_source = driver.page_source
+    # 获取完全加载完成时，页面的cookie
     cookies = driver.get_cookies()
+    # 完全加载完成时，页面是否有发生过 301 302 跳转过
     is_jump = (target_url != current_url)
     data = {