sparkDriverMemory memory for driver process sparkExecutorMemory memory for individual executor sparkExecutorCores number of cores used by single executor crossrefdumpfilename the Crossref input path crossrefDumpPath the Crossref dump path

${jobTracker}

${nameNode}

oozie.action.sharelib.for.spark ${oozieActionShareLibForSpark2} Action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]

${jobTracker}

${nameNode}

mapred.job.queue.name ${queueName} download.sh ${url} ${crossrefDumpPath} ${crossrefdumpfilename}

HADOOP_USER_NAME=${wf:user()}

download.sh

${jobTracker}

${nameNode}

eu.dnetlib.doiboost.crossref.ExtractCrossrefRecords

--hdfsServerUri${nameNode} --crossrefFileNameTarGz${crossrefdumpfilename} --workingPath${crossrefDumpPath} --outputPath${crossrefDumpPath}/files/ yarn-cluster cluster SparkUnpackCrossrefEntries eu.dnetlib.doiboost.crossref.UnpackCrtossrefEntries dhp-doiboost-${projectVersion}.jar

--executor-memory=${sparkExecutorMemory} --executor-cores=${sparkExecutorCores} --driver-memory=${sparkDriverMemory} --conf spark.sql.shuffle.partitions=3840 --conf spark.extraListeners=${spark2ExtraListeners} --conf spark.sql.queryExecutionListeners=${spark2SqlQueryExecutionListeners} --conf spark.yarn.historyServer.address=${spark2YarnHistoryServerAddress} --conf spark.eventLog.dir=${nameNode}${spark2EventLogDir}

--masteryarn-cluster --sourcePath${crossrefDumpPath}/files --targetPath${crossrefDumpPath}/crossref_unpack/