xenit-eu · wimfabri · Nov 15, 2024 · Nov 14, 2024 · Nov 14, 2024 · Nov 14, 2024
diff --git a/build.gradle b/build.gradle
@@ -5,8 +5,8 @@ plugins {
 
 ext {
     base_img = 'open-source.docker.xenit.eu/oracle-python'
-    base_img_version = 'main-2.1.1'
-    img_version = '2.1.0'
+    base_img_version = 'main-2.1.2'
+    img_version = '2.2.0'
 }
 
 createDockerFile {

diff --git a/src/main/docker/docker_root/requirements.txt b/src/main/docker/docker_root/requirements.txt
@@ -2,3 +2,8 @@ configargparse
 requests[socks]
 records
 humanfriendly
+python-dateutil
+pytimeparse2
+types-python-dateutil
+types-requests
+types-humanfriendly
diff --git a/src/main/docker/docker_root/swarmclean.py b/src/main/docker/docker_root/swarmclean.py
@@ -1,22 +1,23 @@
 #!/usr/bin/python3
-import configargparse
+import configargparse  # type: ignore
 import requests
 import re
 import logging
 import time
 import sys
-import socket
-from datetime import datetime
+from datetime import datetime, timezone
 import os
 import random
 import urllib.parse
-import records
-from dataclasses import dataclass, asdict
+import records  # type: ignore
 import humanfriendly
 import binascii
+from dateutil.parser import parse as parsedate
+import pytimeparse2  # type: ignore
+from attr import define, field
 
 sys.path.insert(0,sys.path[0]+'/castorsdk')
-import scspHeaders
+import scspHeaders  # type: ignore
 
 def yes_or_no(question):
     reply = str(input(question+' (y/n): ')).lower().strip()
@@ -52,18 +53,15 @@ def yes_or_no(question):
   r'^X-Castor-Meta-Error-Message'
 ]
 
-headersAllow = "(" + ")|(".join(headersToCopy) + ")"
-#print('allow='+headersAllow)
-headersAllow = re.compile(headersAllow, re.IGNORECASE) 
+headersAllow_string = "(" + ")|(".join(headersToCopy) + ")"
+headersAllow = re.compile(headersAllow_string, re.IGNORECASE) 
 
-headersSkip = "(" + ")|(".join(headersToSkip) + ")"
-#print('skip='+headersSkip)
-headersSkip = re.compile(headersSkip, re.IGNORECASE) 
+headersSkip_string = "(" + ")|(".join(headersToSkip) + ")"
+headersSkip = re.compile(headersSkip_string, re.IGNORECASE) 
 
 
 
 def script_init():
-  hostname = socket.gethostname()
   parser = configargparse.ArgumentParser(
     default_config_files = ['swarmclean.conf'],
     description = """
@@ -122,7 +120,7 @@ def script_init():
     '-R',
     '--report_folder',
     env_var = 'SCL_REPORT_FOLDER',
-    default = f"/tmp/swarmclean",
+    default = "/tmp/swarmclean",
     help = 'folder where report files will be written'
   )
 
@@ -186,6 +184,16 @@ def script_init():
     required = True,
     help = 'alfresco_db | regex'
   )
+
+  parser.add_argument(
+    '-a',
+    '--min_age',
+    env_var = 'SCL_MIN_AGE',
+    default = '1 week',
+    help = 'minimum age for objects, objects that are older will be deleted (string duration parsed with pytimeparse2)'
+  )
+
+  # regex
   parser.add_argument(
     '-f',
     '--filter_regex',
@@ -228,7 +236,7 @@ def script_init():
   addLoggingLevel('TRACE', logging.DEBUG + 5) # level between info and debug
   numeric_level = getattr(logging, args.loglevel.upper(), None)
   if not isinstance(numeric_level, int):
-    raise ValueError( f"Invalid log level: { loglevel }")
+    raise ValueError( f"Invalid log level: { args.loglevel }")
   logging.basicConfig(level=numeric_level,format='%(asctime)s %(name)-5s %(levelname)-8s - %(message)s',datefmt='%Y-%m-%d %H:%M:%S')
 
   return args
@@ -308,10 +316,15 @@ def query_single_value(self, query: str, arg_values={}):
     return self.do_query(query, arg_values)[0][0]
 #end class AlfrescoDB
 
-@dataclass
+
+def parse_http_timestamp(timestamp: str) -> datetime:
+    return parsedate(timestamp).astimezone()
+
+@define
 class SwarmObject:
   name: str
   bytes: int
+  last_modified: datetime = field(converter=parse_http_timestamp)
 
 
 class Swarm:
@@ -327,7 +340,7 @@ def __init__(self, args):
 
     # if using swarm gateway, set up basic AUTH
     if args['swarm_use_contentgateway']:
-      logging.debug(f"Using Swarm gateway, setting up basic auth.")
+      logging.debug("Using Swarm gateway, setting up basic auth.")
       self.swarm_session.auth = (args['swarm_user'], args['swarm_password'])
 
     if args['swarm_proxy']:
@@ -346,7 +359,8 @@ def list_bucket_contents_filtered(self, filter_function, max_batch_size):
     batch_size = 0
     paging_marker = ''
     while True:
-      response = self.swarm_session.get(self.make_swarm_url(self.args['swarm_bucket'], f"fields=name,content-length&format=json&size={ self.paging_size }&marker={ paging_marker }"))
+      # field tmBorn is named last_modified in the json result
+      response = self.swarm_session.get(self.make_swarm_url(self.args['swarm_bucket'], f"fields=name,content-length,tmBorn&format=json&size={ self.paging_size }&marker={ paging_marker }"))
       response.raise_for_status()
       logging.debug(response.content)
       objects = response.json()
@@ -356,6 +370,7 @@ def list_bucket_contents_filtered(self, filter_function, max_batch_size):
 
       for object in objects:
         swarm_object = SwarmObject(**object)
+
         if filter_function(swarm_object):
           if batch_size + swarm_object.bytes > max_batch_size:
             if batch_size == 0:
@@ -381,7 +396,7 @@ def is_object_deletable(self, object_info):
     if 'Lifepoint' in object_info:
       lifepoints=scspHeaders.lifepointsFromString(object_info['Lifepoint'])
       for lp in lifepoints:
-        if lp.end == None or time.time() <= lp.end.sinceEpoch():
+        if lp.end is None or time.time() <= lp.end.sinceEpoch():
           if lp.constraint == 'deletable=no':
             logging.debug(f"{ object_info['Castor-System-Name'] } has 'deletable=no' lifepoint")
             return False
@@ -424,8 +439,11 @@ def delete_object(self, object_name):
 
 class SwarmClean:
   def __init__(self, args):
-    self.args = args
     logging.debug(f"args={ args }")
+    self.args = args
+
+    self.max_creation_date = datetime.now(timezone.utc) - pytimeparse2.parse(args.min_age, as_timedelta=True)
+    logging.info(f"max_creation_date={self.max_creation_date}")
 
     if self.args.execute:
       self.args.dryrun = False
@@ -456,7 +474,10 @@ def __init__(self, args):
   #end def __init__
 
   def isDeletionCandidate(self, swarm_object):
-    if args.filter_method == 'alfresco_db':
+    logging.debug(f"modified={swarm_object.last_modified}")
+    if swarm_object.last_modified > self.max_creation_date:
+      result=False
+    elif args.filter_method == 'alfresco_db':
       content_url_short = swarm_object.name[-12:]
       content_url_crc = binascii.crc32(bytes(f"swarm://{self.args.swarm_domain}/{swarm_object.name}", 'ascii'))
       # table has an index on content_url_short + content_url_crc
@@ -469,7 +490,7 @@ def isDeletionCandidate(self, swarm_object):
       ) == 0
     elif args.filter_method == 'regex':
       result = self.filterRegex.match(swarm_object.name)
-    logging.trace(f"filter { swarm_object.name }: { bool(result) } - size { humanfriendly.format_size(swarm_object.bytes, binary=True) }")
+    logging.trace(f"filter { swarm_object.name }: { bool(result) } - last_modified={swarm_object.last_modified} - size={ humanfriendly.format_size(swarm_object.bytes, binary=True) }")
     return result
   #end def filter