Merge pull request #2068 from FedML-AI/dev/v0.7.0

fedml-alex · web-flow · commit 4ebc61ea5000 · 2024-04-30T10:07:21.000+08:00
Dev/v0.7.0
diff --git a/python/fedml/computing/scheduler/comm_utils/container_utils.py b/python/fedml/computing/scheduler/comm_utils/container_utils.py
@@ -1,6 +1,8 @@
 import logging
 import os
 import traceback
+import datetime
+from dateutil.parser import isoparse
 
 import docker
 from docker import errors
@@ -363,3 +365,34 @@ def gpu_stats(gpu_ids):
             logging.error(f"Failed to get GPU stats: {e}")
 
         return gpu_stats_map
+
+    @staticmethod
+    def get_container_deploy_time_offset(container_name) -> int:
+        """
+        Diff between the host machine's time and the container's time, in seconds
+        """
+        time_diff = 0
+        try:
+            client = docker.from_env()
+            container = client.containers.get(container_name)
+            logs_content = container.logs(stdout=True, stderr=True, stream=False, follow=False, timestamps=True)
+            logs_content = sys_utils.decode_our_err_result(logs_content)
+            line_of_logs = logs_content.split("\n")
+
+            for line in line_of_logs:
+                if line == "":
+                    continue
+
+                container_time = line.split(" ")[0]
+                nano_second_str = container_time.split(".")[1][:9]
+                t_container_datetime_obj = isoparse(container_time)
+                curr_host_time = datetime.datetime.now()
+
+                # Calculate the time difference between the container time and the host time
+                # The time difference is in seconds
+                time_diff = (curr_host_time - t_container_datetime_obj.replace(tzinfo=None)).total_seconds()
+                break
+        except Exception as e:
+            logging.error(f"Failed to get container deploy time offset: {e}")
+
+        return time_diff
diff --git a/python/fedml/computing/scheduler/comm_utils/job_monitor.py b/python/fedml/computing/scheduler/comm_utils/job_monitor.py
@@ -3,9 +3,9 @@
 import os
 import time
 import traceback
+import datetime
 
 import re
-from datetime import datetime
 from dateutil.parser import isoparse
 
 from urllib.parse import urlparse
@@ -1056,6 +1056,13 @@ def monitor_endpoint_logs(self):
                         endpoint_logs = ContainerUtils.get_instance().get_container_logs(endpoint_container_name,
                                                                                          timestamps=True)
 
+                        # Sync Time by setting the offset
+                        if endpoint_logs is not None:
+                            t_sec_offset = ContainerUtils.get_instance().get_container_deploy_time_offset(
+                                endpoint_container_name)
+                            self.replica_log_channels[job.job_id][job.edge_id][i]["deploy_container_t_offset"] = (
+                                t_sec_offset)
+
                     if (endpoint_logs is None or endpoint_logs == "\n" or endpoint_logs == "\r\n" or
                             endpoint_logs == "\r" or endpoint_logs == "" or endpoint_logs == " "):
                         continue
@@ -1066,13 +1073,26 @@ def monitor_endpoint_logs(self):
                     with open(log_file_path, "a") as f:
                         line_of_logs = endpoint_logs.split("\n")
 
+                        # Add NTP offset
+                        channel_info = self.replica_log_channels[job.job_id][job.edge_id][i]
+                        t_sec_offset = channel_info.get("deploy_container_t_offset", None)
+
                         for line in line_of_logs:
                             if line == "":
                                 continue
 
-                            container_time = line.split(" ")[0]
-                            nano_second_str = container_time.split(".")[1][:9]
-                            t_datetime_obj = isoparse(container_time)
+                            try:
+                                container_time = line.split(" ")[0]
+                                nano_second_str = container_time.split(".")[1][:9]
+                                t_datetime_obj = isoparse(container_time)
+
+                                if t_sec_offset is not None:
+                                    t_datetime_obj = t_datetime_obj + datetime.timedelta(seconds=t_sec_offset)
+                            except Exception as e:
+                                logging.error(f"Exception when parsing the container log time {e}")
+                                t_datetime_obj = datetime.datetime.now()
+                                nano_second_str = "000000000"
+
                             t_sec = t_datetime_obj.strftime("%a, %d %b %Y %H:%M:%S")
                             t_nano_sec = f"[{t_sec}.{nano_second_str}]"
 
diff --git a/python/fedml/computing/scheduler/model_scheduler/device_model_db.py b/python/fedml/computing/scheduler/model_scheduler/device_model_db.py
@@ -272,6 +272,12 @@ def open_job_db(self):
         except Exception as e:
             pass
 
+        try:
+            # Also for current_latency = Column(Float)
+            self.db_connection.execute(text("ALTER TABLE end_point_metrics ADD current_latency FLOAT default 1;"))
+        except Exception as e:
+            pass
+
     def close_job_db(self):
         if self.db_connection is not None:
             self.db_connection.close()
diff --git a/python/fedml/computing/scheduler/model_scheduler/device_model_inference.py b/python/fedml/computing/scheduler/model_scheduler/device_model_inference.py
@@ -282,14 +282,16 @@ async def send_inference_request(idle_device, endpoint_id, inference_url, input_
                 http_infer_available = False
 
         if http_infer_available:
-            response_ok = await FedMLHttpInference.is_inference_ready(inference_url, timeout=5)
+            response_ok = await FedMLHttpInference.is_inference_ready(
+                inference_url, timeout=os.getenv("FEDML_GATEWAY_HTTP_READY_TIMEOUT", 20))
             if response_ok:
                 response_ok, inference_response = await FedMLHttpInference.run_http_inference_with_curl_request(
                     inference_url, input_list, output_list, inference_type=inference_type)
                 logging.info(f"Use http inference. return {response_ok}")
                 return inference_response
 
-        response_ok = await FedMLHttpProxyInference.is_inference_ready(inference_url, timeout=10)
+        response_ok = await FedMLHttpProxyInference.is_inference_ready(
+            inference_url, timeout=os.getenv("FEDML_GATEWAY_HTTP_PROXY_READY_TIMEOUT", 20))
         if response_ok:
             response_ok, inference_response = await FedMLHttpProxyInference.run_http_proxy_inference_with_request(
                 endpoint_id, inference_url, input_list, output_list, inference_type=inference_type)