Add a /free route to unload models or free all memory.

A POST request to /free with: {"unload_models":true} will unload models from vram. A POST request to /free with: {"free_memory":true} will unload models and free all cached data from the last run workflow.
2024-01-04 14:28:11 -05:00 · 2024-01-04 14:28:11 -05:00 · 6d281b4ff4
parent 8c6493578b
commit 6d281b4ff4
3 changed files with 44 additions and 2 deletions
--- a/execution.py
+++ b/execution.py
@ -268,11 +268,14 @@ def recursive_output_delete_if_changed(prompt, old_prompt, outputs, current_item

 class PromptExecutor:
    def __init__(self, server):
+        self.server = server
+        self.reset()
+
+    def reset(self):
        self.outputs = {}
        self.object_storage = {}
        self.outputs_ui = {}
        self.old_prompt = {}
-        self.server = server

    def handle_execution_error(self, prompt_id, prompt, current_outputs, executed, error, ex):
        node_id = error["node_id"]
@ -706,6 +709,7 @@ class PromptQueue:
        self.queue = []
        self.currently_running = {}
        self.history = {}
+        self.flags = {}
        server.prompt_queue = self

    def put(self, item):
@ -792,3 +796,17 @@ class PromptQueue:
    def delete_history_item(self, id_to_delete):
        with self.mutex:
            self.history.pop(id_to_delete, None)
+
+    def set_flag(self, name, data):
+        with self.mutex:
+            self.flags[name] = data
+            self.not_empty.notify()
+
+    def get_flags(self, reset=True):
+        with self.mutex:
+            if reset:
+                ret = self.flags
+                self.flags = {}
+                return ret
+            else:
+                return self.flags.copy()
--- a/main.py
+++ b/main.py
@ -97,7 +97,7 @@ def prompt_worker(q, server):
    gc_collect_interval = 10.0

    while True:
-        timeout = None
+        timeout = 1000.0
        if need_gc:
            timeout = max(gc_collect_interval - (current_time - last_gc_collect), 0.0)

@ -118,6 +118,19 @@ def prompt_worker(q, server):
            execution_time = current_time - execution_start_time
            print("Prompt executed in {:.2f} seconds".format(execution_time))

+        flags = q.get_flags()
+        free_memory = flags.get("free_memory", False)
+
+        if flags.get("unload_models", free_memory):
+            comfy.model_management.unload_all_models()
+            need_gc = True
+            last_gc_collect = 0
+
+        if free_memory:
+            e.reset()
+            need_gc = True
+            last_gc_collect = 0
+
        if need_gc:
            current_time = time.perf_counter()
            if (current_time - last_gc_collect) > gc_collect_interval:
--- a/server.py
+++ b/server.py
@ -507,6 +507,17 @@ class PromptServer():
            nodes.interrupt_processing()
            return web.Response(status=200)

+        @routes.post("/free")
+        async def post_interrupt(request):
+            json_data = await request.json()
+            unload_models = json_data.get("unload_models", False)
+            free_memory = json_data.get("free_memory", False)
+            if unload_models:
+                self.prompt_queue.set_flag("unload_models", unload_models)
+            if free_memory:
+                self.prompt_queue.set_flag("free_memory", free_memory)
+            return web.Response(status=200)
+
        @routes.post("/history")
        async def post_history(request):
            json_data =  await request.json()