A perfect job considered as failed because of excessive memory use

condor_q -debug -userlog job_log.NNN NNN
cd  /data01/glidecondor/condor_local/spool/2767/0/cluster862767.proc0.subproc0
condor_q -debug -l -userlog job_log 863008
[vocms20] /data01/glidecondor/condor_local/spool/2767/0/cluster862767.proc0.subproc0 > condor_q -debug -l -userlog job_log 863008
03/13/14 12:08:33 Can't open directory "/config" as PRIV_UNKNOWN, errno: 2 (No such file or directory)
EnteredCurrentStatus = 1394595529
ImageSize = 2727460
LocalSysCpu = 0.0
NumJobStarts = 3
CompletionDate = 0
LocalUserCpu = 0.0
RemoteUserCpu = 4.000000
StartdIpAddr = "<18.12.8.216:56220?CCBID=169.228.38.39:9976#155538%20169.228.130.23:9976#45412&noUDP>"
LastVacateReason = "Assertion ERROR on (result)"
JobStatus = 3
Owner = "cms535"
ProportionalSetSize = -1
UserLog = "job_log"
MyType = "Job"
Cmd = "???"
JobCurrentStartDate = 1394595516
GlobalJobId = "localhost#863008.0#1394560535"
RemoteSysCpu = 0.0
LastSuspensionTime = 0
LastJobStatus = 2
TotalSuspensions = 0
RemoteHost = "<18.12.8.216:56220?CCBID=169.228.38.39:9976#155538%20169.228.130.23:9976#45412&noUDP>"
ResidentSetSize = 2018592
CurrentTime = time()
QDate = 1394560535
SubmitHost = "<128.142.229.43:4080?sock=3486_9443_16>"
LastVacateTime = 1394595217
ClusterId = 863008
JOBGLIDEIN_CMSSite = "$$([ifThenElse(GLIDEIN_CMSSite is undefined, \"Unknown\", GLIDEIN_CMSSite)])"
RemoteWallClockTime = 0.0
TargetType = "Machine"
NumSystemHolds = 0
RemoveReason = "Removed due to memory use"
JobPrio = 0
ProcId = 0
ServerTime = 1394708913
MATCH_EXP_JOBGLIDEIN_CMSSite = "T2_US_MIT"
condor_history -l 863008.0
ClusterId = 863008
DAGNodeName = "Job46"
CRAB_Workflow = "140311_175214_vocms20:pkonst_crab_postfeb_scale_PK_6h_01"
CRAB_SaveLogsFlag = 0
JOB_GLIDEIN_ProcId = "$$(GLIDEIN_ProcId:Unknown)"
StreamOut = false
JOB_GLIDEIN_Entry_Name = "$$(GLIDEIN_Entry_Name:Unknown)"
CRAB_ReqName = "140311_175214_vocms20:pkonst_crab_postfeb_scale_PK_6h_01"
JOB_CMSSite = "$$(GLIDEIN_CMSSite:Unknown)"
CRAB_SiteBlacklist = {  }
CRAB_UserRole = undefined
TaskType = "Job"
NumRestarts = 0
MATCH_GLIDEIN_Schedd = "schedd_glideins1@gfactory-1.t2.ucsd.edu"
SubmitEventNotes = "DAG Node: Job46"
x509UserProxyVOName = "cms"
DAGParentNodeNames = ""
MATCH_GLIDEIN_Site = "MIT"
LastVacateTime = 1394600000
LocalUserCpu = 0.0
RemoteUserCpu = 4.000000
MATCH_GLIDEIN_Max_Walltime = 84600
MATCH_EXP_JOB_GLIDEIN_ClusterId = "1796851"
CRAB_StageoutPolicy = "local,remote"
CRAB_Workflow = "140311_175214_vocms20:pkonst_crab_postfeb_scale_PK_6h_01"
CurrentHosts = 0
MATCH_GLIDEIN_ProcId = 1
x509UserProxyExpiration = 1395165177
Iwd = "/data01/glidecondor/condor_local/spool/2767/0/cluster862767.proc0.subproc0"
MATCH_EXP_JOB_GLIDEIN_Entry_Name = "CMS_T2_US_MIT_ce02"
NumShadowStarts = 7
JobPrio = 10
DiskUsage = 1250000
StartdPrincipal = "execute-side@matchsession/18.12.8.216"
JOB_GLIDEIN_ToDie = "$$(GLIDEIN_ToDie:Unknown)"
JobRunCount = 7
CurrentTime = time()
MachineAttrSlotWeight0 = 1
JOB_Site = "$$(GLIDEIN_Site:Unknown)"
WantCheckpoint = false
RequestDisk = 1
TotalSuspensions = 0
DAGNodeName = "Job46"
LastPublicClaimId = "<18.12.8.216:56220>#1394574543#1#..."
PeriodicRemove = ( ( JobStatus =?= 5 ) && ( time() - EnteredCurrentStatus > 7 * 60 ) ) || ( ( JobStatus =?= 2 ) && ( ( MemoryUsage > RequestMemory ) || ( MaxWallTimeMins * 60 < time() - EnteredCurrentStatus ) ) )
JOBGLIDEIN_CMSSite = "$$([ifThenElse(GLIDEIN_CMSSite is undefined, \"Unknown\", GLIDEIN_CMSSite)])"
MATCH_GLIDEIN_CMSSite = "T2_US_MIT"
RemoteSysCpu = 0.0
CRAB_Retry = 0
MyType = "Job"
CRAB_JobType = "analysis"
PeriodicHold = false
ResidentSetSize_RAW = 2018592
JOB_GLIDEIN_Job_Max_Time = "$$(GLIDEIN_Job_Max_Time:Unknown)"
EnvDelim = ";"
MATCH_EXP_JOB_GLIDEIN_Memory = "2500"
Owner = "cms535"
MATCH_GLIDEIN_Entry_Name = "CMS_T2_US_MIT_ce02"
LastJobLeaseRenewal = 1394595529
MATCH_EXP_JOB_GLIDEIN_CMSSite = "T2_US_MIT"
CRAB_AdditionalOutputFiles = {  }
OnExitHold = false
CRAB_ASOURL = "https://cmsweb-testbed.cern.ch/couchdb"
AccountingGroup = "pkonst"
WantRemoteSyscalls = false
ExitStatus = 0
User = "cms535@cmsanalysis"
JobLeaseDuration = 1200
MATCH_GLIDEIN_SEs = "se01.cmsaf.mit.edu"
JOB_Gatekeeper = ifthenelse(substr(Used_Gatekeeper,0,1) =!= "$",Used_Gatekeeper,ifthenelse(MATCH_GLIDEIN_Gatekeeper =!= undefined,MATCH_GLIDEIN_Gatekeeper,"Unknown"))
MATCH_Memory = 2500
CompletionDate = 0
WhenToTransferOutput = "ON_EXIT"
RequestCpus = 1
ExecutableSize = 5
x509UserProxyFirstFQAN = "/cms/Role=NULL/Capability=NULL"
CommittedSuspensionTime = 0
MATCH_GLIDEIN_Factory = "SDSC"
GlobalJobId = "vocms20.cern.ch#863008.0#1394560535"
CRAB_ISB = "https://cmsweb.cern.ch/crabcache/file"
StreamErr = false
DAGManNodesLog = "/data01/glidecondor/condor_local/spool/2767/0/cluster862767.proc0.subproc0/RunJobs.dag.nodes.log"
Rank = 0.0
TransferInput = "CMSRunAnalysis.sh,cmscp.py,CMSRunAnalysis.tar.gz,sandbox.tar.gz"
JobUniverse = 5
MATCH_GLIDEIN_ClusterId = 1796851
PeriodicRelease = ( HoldReasonCode == 28 ) || ( HoldReasonCode == 30 ) || ( HoldReasonCode == 13 ) || ( HoldReasonCode == 6 )
MATCH_EXP_JOB_GLIDEIN_Job_Max_Time = "34800"
JobCurrentStartExecutingDate = 1394595516
CRAB_oneEventMode = 0
x509userproxy = "/data01/glidecondor/condor_local/spool/2767/0/cluster862767.proc0.subproc0/188cb4f967148c26081018493b593e73a67389e6"
MATCH_EXP_JOB_GLIDEIN_ToRetire = "1394623404"
MATCH_EXP_JOB_GLIDEIN_Factory = "SDSC"
JOB_GLIDEIN_SEs = "$$(GLIDEIN_SEs:Unknown)"
JobNotification = 0
CRAB_DBSURL = "https://cmsweb.cern.ch/dbs/prod/global/DBSReader"
RemoveReason = "Removed due to memory use"
ProcId = 0
JOB_GLIDEIN_MaxMemMBs = "$$(GLIDEIN_MaxMemMBs:Unknown)"
Used_Gatekeeper = "$$(GLIDEIN_Gatekeeper:Unknown)"
CondorVersion = "$CondorVersion: 8.0.4 Oct 19 2013 BuildID: 189770 $"
BytesRecvd = 7850727.000000
Arguments = "-a sandbox.tar.gz --sourceURL=https://cmsweb.cern.ch/crabcache/file --jobNumber=46 --cmsswVersion=CMSSW_5_3_4 --scramArch=slc5_amd64_gcc462 --inputFile=[\"MCFakeFile\"] --runAndLumis={} --lheInputFiles=None --firstEvent=540001 --firstLumi=46 --lastEvent=552001 --firstRun=1 --seeding=AutomaticSeeding -o {}"
ShouldTransferFiles = "YES"
Out = "job_out.46"
JOB_GLIDEIN_Memory = "$$(Memory:Unknown)"
NumJobMatches = 7
CumulativeSlotTime = 33457.000000
OnExitRemove = true
ResidentSetSize = 2250000
JOB_GLIDEIN_Max_Walltime = "$$(GLIDEIN_Max_Walltime:Unknown)"
JobAdInformationAttrs = "MATCH_EXP_JOBGLIDEIN_CMSSite, JOBGLIDEIN_CMSSite, RemoteSysCpu, RemoteUserCpu"
In = "/dev/null"
LastJobStatus = 2
CumulativeSuspensionTime = 0
MemoryUsage = ( ( ResidentSetSize + 1023 ) / 1024 )
MATCH_EXP_JOB_CMSSite = "T2_US_MIT"
CRAB_TaskWorker = "vocms245"
OrigMaxHosts = 1
TransferIn = false
CRAB_Id = 46
JOB_GLIDEIN_Name = "$$(GLIDEIN_Name:Unknown)"
WantRemoteIO = true
MATCH_EXP_JOB_GLIDEIN_MaxMemMBs = "2500"
MATCH_GLIDEIN_ToRetire = 1394623404
ImageSize = 2750000
ExecutableSize_RAW = 5
JobCurrentStartDate = 1394595478
x509userproxysubject = "/DC=ch/DC=cern/OU=Organic Units/OU=Users/CN=pkonst/CN=592300/CN=Preslav Borislavov Konstantinov"
NumJobStarts = 3
AutoClusterAttrs = "DESIRED_Gatekeepers,DESIRED_SEs,DESIRED_Sites,DESIRES_HTPC,GLIDEIN_Is_HTPC,JOB_Is_ITB,LastVacateTime,MaxWallTimeMins,NormMaxWallTimeMins,Owner,RequestMemory,JobUniverse,LastCheckpointPlatform,NumCkpts,ImageSize,DynamicSlot,PartitionableSlot,Slot1_TotalTimeClaimedBusy,Slot1_TotalTimeUnclaimedIdle,x509userproxyfirstfqan,x509userproxysubject,Slot2_TotalTimeClaimedBusy,Slot3_TotalTimeClaimedBusy,Slot4_TotalTimeClaimedBusy,Slot5_TotalTimeClaimedBusy,Slot6_TotalTimeClaimedBusy,Slot7_TotalTimeClaimedBusy,Slot8_TotalTimeClaimedBusy,Slot2_TotalTimeUnclaimedIdle,Slot3_TotalTimeUnclaimedIdle,Slot4_TotalTimeUnclaimedIdle,Slot5_TotalTimeUnclaimedIdle,Slot6_TotalTimeUnclaimedIdle,Slot7_TotalTimeUnclaimedIdle,Slot8_TotalTimeUnclaimedIdle,CMS_ALLOW_OVERFLOW,MemoryUsage,RequestDisk,Requirements,NiceUser,ConcurrencyLimits"
Cmd = "/data01/glidecondor/condor_local/spool/2767/0/cluster862767.proc0.subproc0/gWMS-CMSRunAnalysis.sh"
JobStartDate = 1394561501
LastMatchTime = 1394595478
MATCH_EXP_JOB_GLIDEIN_ToDie = "1394658204"
JOB_GLIDEIN_CMSSite = "$$(GLIDEIN_CMSSite:Unknown)"
CoreSize = 0
MATCH_EXP_JOB_GLIDEIN_Schedd = "schedd_glideins1@gfactory-1.t2.ucsd.edu"
TargetType = "Machine"
TransferOutput = "jobReport.json.46"
job_ad_information_attrs = MATCH_GLIDEIN_Gatekeeper
CommittedSlotTime = 0
JobStatus = 3
x509UserProxyEmail = "Preslav.Konstantinov@cern.ch"
DAGManJobId = 862767
RemoteWallClockTime = 33457.000000
NumSystemHolds = 0
CRAB_UserDN = "/DC=ch/DC=cern/OU=Organic Units/OU=Users/CN=pkonst/CN=592300/CN=Preslav Borislavov Konstantinov"
LastRemoteHost = "glidein_14760@T2BAT0216.CMSAF.MIT.EDU"
MATCH_EXP_JOB_GLIDEIN_Name = "v3_0"
JOB_GLIDEIN_Site = "$$(GLIDEIN_Site:Unknown)"
Requirements = ( ( ( target.IS_GLIDEIN =!= true ) || ( target.GLIDEIN_CMSSite =!= undefined ) ) ) && ( ( Memory >= 1 ) && ( Disk >= 1 ) ) && ( TARGET.Arch == "X86_64" ) && ( TARGET.OpSys == "LINUX" ) && ( TARGET.Disk >= RequestDisk ) && ( TARGET.Memory >= RequestMemory ) && ( TARGET.HasFileTransfer )
CRAB_EDMOutputFiles = { "MyTTBarTauolaTest.root" }
DESIRED_SITES = "T3_US_PuertoRico,T2_FI_HIP,T2_UK_SGrid_RALPP,T2_FR_GRIF_LLR,T3_US_Baylor,T3_UK_London_QMUL,T3_TW_NTU_HEP,T3_US_Omaha,T2_KR_KNU,T2_RU_SINP,T3_US_UMD,T2_CH_CERN_AI,T1_TW_ASGC,T3_US_Colorado,T3_US_UB,T1_UK_RAL_Disk,T3_IT_Napoli,T3_NZ_UOA,T2_TH_CUNSTDA,T3_US_Kansas,T3_US_ParrotTest,T3_GR_IASA,T3_US_Parrot,T2_IT_Bari,T2_US_UCSD,T1_RU_JINR,T3_US_Vanderbilt_EC2,T2_RU_IHEP,T2_RU_RRC_KI,T2_CH_CERN,T3_BY_NCPHEP,T3_US_TTU,T3_GR_Demokritos,T3_US_UTENN,T3_US_UCR,T3_TW_NCU,T2_CH_CSCS,T2_UA_KIPT,T3_RU_FIAN,T2_RU_PNPI,T2_IN_TIFR,T3_UK_London_UCL,T3_US_Brown,T3_US_UCD,T3_CO_Uniandes,T3_KR_KNU,T2_FR_IPHC,T3_US_OSU,T3_US_TAMU,T1_US_FNAL,T2_IT_Rome,T2_UK_London_Brunel,T3_IN_PUHEP,T3_IT_Trieste,T2_EE_Estonia,T3_UK_ScotGrid_ECDF,T2_CN_Beijing,T2_US_Florida,T3_US_Princeton_ICSE,T3_IT_MIB,T3_US_FNALXEN,T3_US_Rutgers,T1_DE_KIT,T3_IR_IPM,T2_US_Wisconsin,T2_HU_Budapest,T2_DE_RWTH,T2_US_Vanderbilt,T2_BR_SPRACE,T3_UK_SGrid_Oxford,T3_US_NU,T2_BR_UERJ,T3_MX_Cinvestav,T3_US_FNALLPC,T1_US_FNAL_Disk,T3_US_UIowa,T3_IT_Firenze,T3_US_Cornell,T2_ES_IFCA,T3_US_UVA,T3_ES_Oviedo,T3_US_NotreDame,T2_DE_DESY,T1_UK_RAL,T2_US_Caltech,T3_FR_IPNL,T2_TW_Taiwan,T3_US_NEU,T3_UK_London_RHUL,T0_CH_CERN,T1_RU_JINR_Disk,T3_CN_PKU,T2_UK_London_IC,T2_US_Nebraska,T2_ES_CIEMAT,T3_US_Princeton,T2_PK_NCP,T2_CH_CERN_T0,T3_US_FSU,T3_KR_UOS,T3_IT_Perugia,T1_IT_CNAF,T3_US_Minnesota,T2_TR_METU,T2_AT_Vienna,T2_US_Purdue,T3_US_Rice,T3_HR_IRB,T2_BE_UCL,T3_US_FIT,T2_UK_SGrid_Bristol,T2_PT_NCG_Lisbon,T1_ES_PIC,T3_US_JHU,T2_IT_Legnaro,T2_RU_INR,T3_US_FIU,T3_EU_Parrot,T2_RU_JINR,T2_IT_Pisa,T2_GR_Ioannina,T3_UK_ScotGrid_GLA,T3_US_MIT,T2_CH_CERN_HLT,T2_MY_UPM_BIRUNI,T1_FR_CCIN2P3,T2_FR_GRIF_IRFU,T3_US_UMiss,T2_FR_CCIN2P3,T2_PL_Warsaw,T3_AS_Parrot,T2_US_MIT,T2_BE_IIHE,T2_RU_ITEP,T1_CH_CERN,T3_CH_PSI,T3_IT_Bologna"
NumCkpts = 0
CRAB_AsyncDestSE = "stormfe1.pi.infn.it"
DiskUsage_RAW = 1076296
DAGManNodesMask = "0,1,2,4,5,7,9,10,11,12,13,16,17,24,27"
MATCH_EXP_JOB_GLIDEIN_ProcId = "1"
CRAB_localOutputFiles = "MyTTBarTauolaTest.root=MyTTBarTauolaTest_46.root"
MaxHosts = 1
CRAB_UserHN = "pkonst"
MATCH_EXP_JOB_GLIDEIN_Max_Walltime = "84600"
MATCH_EXP_JOB_GLIDEIN_SEs = "se01.cmsaf.mit.edu"
CRAB_InputData = "/GenericTTbar/HC-CMSSW_5_3_1_START53_V5-v1/GEN-SIM-RECO"
CondorPlatform = "$CondorPlatform: x86_64_RedHat5 $"
MATCH_GLIDEIN_Job_Max_Time = 34800
ImageSize_RAW = 2727460
MATCH_EXP_Used_Gatekeeper = "ce02.cmsaf.mit.edu:2119/jobmanager-condor"
LocalSysCpu = 0.0
LastSuspensionTime = 0
MATCH_GLIDEIN_Gatekeeper = "ce02.cmsaf.mit.edu:2119/jobmanager-condor"
MATCH_EXP_JOB_GLIDEIN_Site = "MIT"
UserLog = "/data01/glidecondor/condor_local/spool/2767/0/cluster862767.proc0.subproc0/job_log"
CRAB_DataBlock = "MCFackBlock"
Env = "CRAB_TASKMANAGER_TARBALL=local;SCRAM_ARCH=slc5_amd64_gcc462;CRAB_RUNTIME_TARBALL=local"
CRAB_BlacklistT1 = 0
JOB_GLIDEIN_Factory = "$$(GLIDEIN_Factory:Unknown)"
TransferInputSizeMB = 2
MachineAttrCpus0 = 1
CRAB_JobArch = "slc5_amd64_gcc462"
QDate = 1394560535
CRAB_OutputData = "140311_175214_crab_postfeb_scale_PK_6h_01-ed42d010850f24b9614161fd19b49e93"
CRAB_PublishDBSURL = undefined
x509UserProxyFQAN = "/DC=ch/DC=cern/OU=Organic Units/OU=Users/CN=pkonst/CN=592300/CN=Preslav Borislavov Konstantinov,/cms/Role=NULL/Capability=NULL"
Err = "job_err.46"
CRAB_SiteWhitelist = {  }
CRAB_Destination = "srm://stormfe1.pi.infn.it:8444/srm/managerv2?SFN=/cms/store/user/pkonst/GenericTTbar/140311_175214_crab_postfeb_scale_PK_6h_01/140311_175214/0000/log/cmsRun_46.log.tar.gz, srm://stormfe1.pi.infn.it:8444/srm/managerv2?SFN=/cms/store/user/pkonst/GenericTTbar/140311_175214_crab_postfeb_scale_PK_6h_01/140311_175214/0000/MyTTBarTauolaTest_46.root"
CRAB_TFileOutputFiles = {  }
AutoClusterId = 1410
ExitBySignal = false
CRAB_UserGroup = undefined
PeriodicRemoveReason = ifThenElse(MemoryUsage > RequestMemory,"Removed due to memory use",ifThenElse(MaxWallTimeMins * 60 < time() - EnteredCurrentStatus,"Removed due to wall clock limit","Removed due to job being held"))
MATCH_EXP_JOB_Site = "MIT"
BufferBlockSize = 32768
CRAB_AsyncDest = "T2_IT_Pisa"
ClusterId = 863008
BytesSent = 2356900.000000
CRAB_Dest = "/store/temp/user/pkonst.0d6c0ae7ff2f278e23a483dc3e15d3995c788519/GenericTTbar/140311_175214_crab_postfeb_scale_PK_6h_01/140311_175214"
MATCH_EXP_JOBGLIDEIN_CMSSite = "T2_US_MIT"
JobLastStartDate = 1394595409
MATCH_GLIDEIN_MaxMemMBs = 2500
RequestMemory = 2000
EnteredCurrentStatus = 1394595529
JOB_GLIDEIN_ToRetire = "$$(GLIDEIN_ToRetire:Unknown)"
CRAB_JobSW = "CMSSW_5_3_4"
BufferSize = 524288
JOB_GLIDEIN_Schedd = "$$(GLIDEIN_Schedd:Unknown)"
MaxWallTimeMins = 1315
LeaveJobInQueue = false
NumCkpts_RAW = 0
JobFinishedHookDone = 1394595529
MinHosts = 1
NumShadowExceptions = 3
JOB_GLIDEIN_ClusterId = "$$(GLIDEIN_ClusterId:Unknown)"
MATCH_GLIDEIN_Name = "v3_0"
MATCH_GLIDEIN_ToDie = 1394658204
NiceUser = false
RootDir = "/"
LastVacateTime_RAW = 1394595529
CommittedTime = 0
NumShadowStarts = 7
JobRunCount = 7
NumJobMatches = 7
'46': {
  'Retries': 0,
  'WallDurations': [33147.0, 46.0, 14.0],
  'StartTimes': [1394562070.0, 1394595422.0, 1394595516.0],
  'SubmitTimes': [1394560535.0, -1, -1],
  'JobIds': ['863008.0', '863008.0', '863008.0'],
  'EndTimes': [1394595217.0, 1394595468.0],
  'Restarts': 2,
  'RecordedSite': True,
  'State': 'failed',
  'ResidentSetSize': [1940796, 0, 2046344],
  'TotalUserCpuTimeHistory': [24343.0, 24343.0, 4.0],
  'SiteHistory': ['T2_US_Florida', 'T2_DE_DESY', 'T2_US_MIT'],
  'TotalSysCpuTimeHistory': [332.0, 332.0, 0.0]
}

dmwm / CRABServer

A perfect job considered as failed because of excessive memory use #4241