Spaces:

AzureModels4AI
/

PeopleModelsDatasets2X

Sleeping

App Files Files Community

awacke1 commited on Sep 20, 2024

Commit

c0a3424

verified ·

1 Parent(s): f549614

Update app.py

Browse files

Files changed (1) hide show

app.py +173 -114

app.py CHANGED Viewed

@@ -8,6 +8,12 @@ import plotly.express as px
 import zipfile
 import tempfile
 import shutil
 # Initialize the Hugging Face API
 api = HfApi()
@@ -89,126 +95,179 @@ def perform_snapshot_download(repo_id, repo_type):
     except Exception as e:
         return str(e)
-st.title("Hugging Face User Page Downloader & Zipper 📄➕📦")
-user_input = st.text_area(
-    "Enter Hugging Face usernames (one per line):",
-    value="\n".join(default_users["users"]),
-    height=300
-)
-if st.button("Show User Content and Download Snapshots"):
-    if user_input:
-        username_list = [username.strip() for username in user_input.split('\n') if username.strip()]
-        user_data_list = asyncio.run(fetch_all_users(username_list))
-        stats = {"username": [], "models_count": [], "datasets_count": []}
-        successful_html_files = []
-        snapshot_downloads = []
-        st.markdown("### User Content Overview")
-        for user_data in user_data_list:
-            username = user_data["username"]
-            with st.container():
-                st.markdown(f"**{username}** [🔗 Profile](https://huggingface.co/{username})")
-                if "error" in user_data:
-                    st.warning(f"{username}: {user_data['error']} - Something went wrong! ⚠️")
-                else:
-                    models = user_data["models"]
-                    datasets = user_data["datasets"]
-                    html_file_path, html_content, download_error = download_user_page(username)
-                    if html_file_path and html_content:
-                        successful_html_files.append(html_file_path)
-                        st.success(f"✅ Successfully downloaded {username}'s page.")
-                        # Add expander to view HTML content
-                        with st.expander(f"View {username}'s HTML page"):
-                            st.markdown(html_content, unsafe_allow_html=True)
                     else:
-                        st.error(f"❌ Failed to download {username}'s page: {download_error}")
-                    stats["username"].append(username)
-                    stats["models_count"].append(len(models))
-                    stats["datasets_count"].append(len(datasets))
-                    with st.expander(f"🧠 Models ({len(models)})", expanded=False):
-                        if models:
-                            for model in models:
-                                model_name = model.modelId.split("/")[-1]
-                                st.markdown(f"- [{model_name}](https://huggingface.co/{model.modelId})")
-                                if st.button(f"Download Snapshot: {model_name}", key=f"model_{model.modelId}"):
-                                    with st.spinner(f"Downloading snapshot for {model_name}..."):
-                                        result = perform_snapshot_download(model.modelId, "model")
-                                        if isinstance(result, str):
-                                            st.error(f"Failed to download {model_name}: {result}")
-                                        else:
-                                            snapshot_downloads.append(result)
-                                            st.success(f"Successfully downloaded snapshot for {model_name}")
                         else:
-                            st.markdown("No models found. 🤷‍♂️")
-                    with st.expander(f"📚 Datasets ({len(datasets)})", expanded=False):
-                        if datasets:
-                            for dataset in datasets:
-                                dataset_name = dataset.id.split("/")[-1]
-                                st.markdown(f"- [{dataset_name}](https://huggingface.co/datasets/{dataset.id})")
-                                if st.button(f"Download Snapshot: {dataset_name}", key=f"dataset_{dataset.id}"):
-                                    with st.spinner(f"Downloading snapshot for {dataset_name}..."):
-                                        result = perform_snapshot_download(dataset.id, "dataset")
-                                        if isinstance(result, str):
-                                            st.error(f"Failed to download {dataset_name}: {result}")
-                                        else:
-                                            snapshot_downloads.append(result)
-                                            st.success(f"Successfully downloaded snapshot for {dataset_name}")
-                        else:
-                            st.markdown("No datasets found. 🤷‍♀️")
-                st.markdown("---")
-        if successful_html_files:
-            html_zip_path = create_zip_of_files(successful_html_files, "HuggingFace_User_Pages.zip")
-            html_download_link = get_download_link(html_zip_path, "📥 Download All HTML Pages as ZIP")
-            st.markdown(html_download_link, unsafe_allow_html=True)
-        else:
-            st.warning("No HTML files were successfully downloaded to create a ZIP archive.")
-        if snapshot_downloads:
-            snapshot_zip_path = create_zip_of_files(snapshot_downloads, "HuggingFace_Snapshots.zip")
-            snapshot_download_link = get_download_link(snapshot_zip_path, "📥 Download All Snapshots as ZIP")
-            st.markdown(snapshot_download_link, unsafe_allow_html=True)
-        if stats["username"]:
-            st.markdown("### User Content Statistics")
-            fig_models = px.bar(
-                x=stats["username"],
-                y=stats["models_count"],
-                labels={'x': 'Username', 'y': 'Number of Models'},
-                title="Number of Models per User"
-            )
-            st.plotly_chart(fig_models)
-            fig_datasets = px.bar(
-                x=stats["username"],
-                y=stats["datasets_count"],
-                labels={'x': 'Username', 'y': 'Number of Datasets'},
-                title="Number of Datasets per User"
-            )
-            st.plotly_chart(fig_datasets)
-    else:
-        st.warning("Please enter at least one username. Don't be shy! 😅")
-st.sidebar.markdown("""
-## How to use:
-1. The text area is pre-filled with a list of Hugging Face usernames. You can edit this list or add more usernames.
-2. Click **'Show User Content and Download Snapshots'**.
-3. View each user's models and datasets along with a link to their Hugging Face profile.
-4. For each model or dataset, you can click the "Download Snapshot" button to download a snapshot.
-5. **Download ZIP archives** containing all the HTML pages and snapshots by clicking the download links.
-6. Check out the statistics visualizations below!
-7. **New feature:** You can now view the HTML content of each user's page by clicking on the expander.
-""")

 import zipfile
 import tempfile
 import shutil
+from bs4 import BeautifulSoup
+from PIL import Image
+import glob
+from datetime import datetime
+import pytz
+from urllib.parse import quote
 # Initialize the Hugging Face API
 api = HfApi()
     except Exception as e:
         return str(e)
+# New function to display HTML files in a grid
+def display_html_grid(html_files):
+    num_columns = 3  # You can adjust this number
+    for i in range(0, len(html_files), num_columns):
+        cols = st.columns(num_columns)
+        for j in range(num_columns):
+            if i + j < len(html_files):
+                with cols[j]:
+                    with open(html_files[i+j], 'r', encoding='utf-8') as file:
+                        html_content = file.read()
+                    soup = BeautifulSoup(html_content, 'html.parser')
+                    st.subheader(f"Page: {os.path.basename(html_files[i+j])}")
+                    st.components.v1.html(str(soup.body), height=300, scrolling=True)
+# New function to extract and display images from HTML
+def display_images_from_html(html_file):
+    with open(html_file, 'r', encoding='utf-8') as file:
+        html_content = file.read()
+    soup = BeautifulSoup(html_content, 'html.parser')
+    images = soup.find_all('img')
+    for img in images:
+        src = img.get('src')
+        if src and src.startswith('http'):
+            st.image(src, use_column_width=True)
+# New function to extract and display videos from HTML
+def display_videos_from_html(html_file):
+    with open(html_file, 'r', encoding='utf-8') as file:
+        html_content = file.read()
+    soup = BeautifulSoup(html_content, 'html.parser')
+    videos = soup.find_all('video')
+    for video in videos:
+        src = video.find('source').get('src')
+        if src and src.startswith('http'):
+            st.video(src)
+def main():
+    st.title("Hugging Face User Page Downloader & Zipper 📄➕📦")
+    user_input = st.text_area(
+        "Enter Hugging Face usernames (one per line):",
+        value="\n".join(default_users["users"]),
+        height=300
+    )
+    if st.button("Show User Content and Download Snapshots"):
+        if user_input:
+            username_list = [username.strip() for username in user_input.split('\n') if username.strip()]
+            user_data_list = asyncio.run(fetch_all_users(username_list))
+            stats = {"username": [], "models_count": [], "datasets_count": []}
+            successful_html_files = []
+            snapshot_downloads = []
+            st.markdown("### User Content Overview")
+            for user_data in user_data_list:
+                username = user_data["username"]
+                with st.container():
+                    st.markdown(f"**{username}** [🔗 Profile](https://huggingface.co/{username})")
+                    if "error" in user_data:
+                        st.warning(f"{username}: {user_data['error']} - Something went wrong! ⚠️")
                     else:
+                        models = user_data["models"]
+                        datasets = user_data["datasets"]
+                        html_file_path, html_content, download_error = download_user_page(username)
+                        if html_file_path and html_content:
+                            successful_html_files.append(html_file_path)
+                            st.success(f"✅ Successfully downloaded {username}'s page.")
+                            # Add expander to view HTML content
+                            with st.expander(f"View {username}'s HTML page"):
+                                st.markdown(html_content, unsafe_allow_html=True)
                         else:
+                            st.error(f"❌ Failed to download {username}'s page: {download_error}")
+                        stats["username"].append(username)
+                        stats["models_count"].append(len(models))
+                        stats["datasets_count"].append(len(datasets))
+                        with st.expander(f"🧠 Models ({len(models)})", expanded=False):
+                            if models:
+                                for model in models:
+                                    model_name = model.modelId.split("/")[-1]
+                                    st.markdown(f"- [{model_name}](https://huggingface.co/{model.modelId})")
+                                    if st.button(f"Download Snapshot: {model_name}", key=f"model_{model.modelId}"):
+                                        with st.spinner(f"Downloading snapshot for {model_name}..."):
+                                            result = perform_snapshot_download(model.modelId, "model")
+                                            if isinstance(result, str):
+                                                st.error(f"Failed to download {model_name}: {result}")
+                                            else:
+                                                snapshot_downloads.append(result)
+                                                st.success(f"Successfully downloaded snapshot for {model_name}")
+                            else:
+                                st.markdown("No models found. 🤷‍♂️")
+                        with st.expander(f"📚 Datasets ({len(datasets)})", expanded=False):
+                            if datasets:
+                                for dataset in datasets:
+                                    dataset_name = dataset.id.split("/")[-1]
+                                    st.markdown(f"- [{dataset_name}](https://huggingface.co/datasets/{dataset.id})")
+                                    if st.button(f"Download Snapshot: {dataset_name}", key=f"dataset_{dataset.id}"):
+                                        with st.spinner(f"Downloading snapshot for {dataset_name}..."):
+                                            result = perform_snapshot_download(dataset.id, "dataset")
+                                            if isinstance(result, str):
+                                                st.error(f"Failed to download {dataset_name}: {result}")
+                                            else:
+                                                snapshot_downloads.append(result)
+                                                st.success(f"Successfully downloaded snapshot for {dataset_name}")
+                            else:
+                                st.markdown("No datasets found. 🤷‍♀️")
+                    st.markdown("---")
+            if successful_html_files:
+                st.markdown("### HTML Grid View")
+                display_html_grid(successful_html_files)
+                st.markdown("### Image Gallery")
+                for html_file in successful_html_files:
+                    display_images_from_html(html_file)
+                st.markdown("### Video Gallery")
+                for html_file in successful_html_files:
+                    display_videos_from_html(html_file)
+                html_zip_path = create_zip_of_files(successful_html_files, "HuggingFace_User_Pages.zip")
+                html_download_link = get_download_link(html_zip_path, "📥 Download All HTML Pages as ZIP")
+                st.markdown(html_download_link, unsafe_allow_html=True)
+            else:
+                st.warning("No HTML files were successfully downloaded to create a ZIP archive.")
+            if snapshot_downloads:
+                snapshot_zip_path = create_zip_of_files(snapshot_downloads, "HuggingFace_Snapshots.zip")
+                snapshot_download_link = get_download_link(snapshot_zip_path, "📥 Download All Snapshots as ZIP")
+                st.markdown(snapshot_download_link, unsafe_allow_html=True)
+            if stats["username"]:
+                st.markdown("### User Content Statistics")
+                fig_models = px.bar(
+                    x=stats["username"],
+                    y=stats["models_count"],
+                    labels={'x': 'Username', 'y': 'Number of Models'},
+                    title="Number of Models per User"
+                )
+                st.plotly_chart(fig_models)
+                fig_datasets = px.bar(
+                    x=stats["username"],
+                    y=stats["datasets_count"],
+                    labels={'x': 'Username', 'y': 'Number of Datasets'},
+                    title="Number of Datasets per User"
+                )
+                st.plotly_chart(fig_datasets)
+        else:
+            st.warning("Please enter at least one username. Don't be shy! 😅")
+    st.sidebar.markdown("""
+    ## How to use:
+    1. The text area is pre-filled with a list of Hugging Face usernames. You can edit this list or add more usernames.
+    2. Click **'Show User Content and Download Snapshots'**.
+    3. View each user's models and datasets along with a link to their Hugging Face profile.
+    4. For each model or dataset, you can click the "Download Snapshot" button to download a snapshot.
+    5. **Download ZIP archives** containing all the HTML pages and snapshots by clicking the download links.
+    6. Check out the statistics visualizations below!
+    7. **New features:**
+       - View all downloaded HTML pages in a grid layout
+       - Browse through image and video galleries extracted from the HTML pages
+    """)
+if __name__ == "__main__":
+    main()