all actions from download lambda file to merge updated data into one wf

2020-12-15 10:42:55 +01:00 · 2020-12-15 10:42:55 +01:00 · b2de598c1a
parent efe4c2a9c5
commit b2de598c1a
9 changed files with 146 additions and 649 deletions
--- a/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/OrcidDownloader.java
+++ b/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/OrcidDownloader.java
@ -1,208 +0,0 @@
 package eu.dnetlib.doiboost.orcid;
 import java.io.*;
 import java.text.SimpleDateFormat;
 import java.util.Arrays;
 import java.util.Date;
 import java.util.List;
 import org.apache.commons.compress.archivers.tar.TarArchiveEntry;
 import org.apache.commons.compress.archivers.tar.TarArchiveInputStream;
 import org.apache.commons.compress.compressors.gzip.GzipCompressorInputStream;
 import org.apache.commons.io.IOUtils;
 import org.apache.hadoop.conf.Configuration;
 import org.apache.hadoop.fs.FSDataInputStream;
 import org.apache.hadoop.fs.FileSystem;
 import org.apache.hadoop.fs.Path;
 import org.apache.hadoop.io.SequenceFile;
 import org.apache.hadoop.io.Text;
 import org.apache.hadoop.io.compress.GzipCodec;
 import org.apache.http.client.methods.CloseableHttpResponse;
 import org.apache.http.client.methods.HttpGet;
 import org.apache.http.impl.client.CloseableHttpClient;
 import org.apache.http.impl.client.HttpClients;
 import org.mortbay.log.Log;
 import eu.dnetlib.dhp.application.ArgumentApplicationParser;
 public class OrcidDownloader extends OrcidDSManager {
 	static final int REQ_LIMIT = 24;
 	static final int REQ_MAX_TEST = -1;
 	static final int RECORD_PARSED_COUNTER_LOG_INTERVAL = 500;
 	static final String DATE_FORMAT = "yyyy-MM-dd HH:mm:ss";
 	static final String lastUpdate = "2020-09-29 00:00:00";
 	private String lambdaFileName;
 	private String outputPath;
 	private String token;
 	public static void main(String[] args) throws IOException, Exception {
 		OrcidDownloader orcidDownloader = new OrcidDownloader();
 		orcidDownloader.loadArgs(args);
 		orcidDownloader.parseLambdaFile();
 	}
 	private String downloadRecord(String orcidId) throws IOException {
 		try (CloseableHttpClient client = HttpClients.createDefault()) {
 			HttpGet httpGet = new HttpGet("https://api.orcid.org/v3.0/" + orcidId + "/record");
 			httpGet.addHeader("Accept", "application/vnd.orcid+xml");
 			httpGet.addHeader("Authorization", String.format("Bearer %s", token));
 			CloseableHttpResponse response = client.execute(httpGet);
 			if (response.getStatusLine().getStatusCode() != 200) {
 				Log
 					.info(
 						"Downloading " + orcidId + " status code: " + response.getStatusLine().getStatusCode());
 				return new String("");
 			}
 //			return IOUtils.toString(response.getEntity().getContent());
 			return xmlStreamToString(response.getEntity().getContent());
 		}
 	}
 	private String xmlStreamToString(InputStream xmlStream) throws IOException {
 		BufferedReader br = new BufferedReader(new InputStreamReader(xmlStream));
 		String line;
 		StringBuffer buffer = new StringBuffer();
 		while ((line = br.readLine()) != null) {
 			buffer.append(line);
 		}
 		return buffer.toString();
 	}
 	public void parseLambdaFile() throws Exception {
 		int parsedRecordsCounter = 0;
 		int downloadedRecordsCounter = 0;
 		int savedRecordsCounter = 0;
 		long startDownload = 0;
 		Configuration conf = initConfigurationObject();
 		FileSystem fs = initFileSystemObject(conf);
 		String lambdaFileUri = hdfsServerUri.concat(workingPath).concat(lambdaFileName);
 		Path hdfsreadpath = new Path(lambdaFileUri);
 		FSDataInputStream lambdaFileStream = fs.open(hdfsreadpath);
 		Path hdfsoutputPath = new Path(
 			hdfsServerUri
 				.concat(workingPath)
 				.concat(outputPath)
 				.concat("updated_xml_authors.seq"));
 		try (TarArchiveInputStream tais = new TarArchiveInputStream(
 			new GzipCompressorInputStream(lambdaFileStream))) {
 			TarArchiveEntry entry = null;
 			StringBuilder sb = new StringBuilder();
 			try (SequenceFile.Writer writer = SequenceFile
 				.createWriter(
 					conf,
 					SequenceFile.Writer.file(hdfsoutputPath),
 					SequenceFile.Writer.keyClass(Text.class),
 					SequenceFile.Writer.valueClass(Text.class),
 					SequenceFile.Writer.compression(SequenceFile.CompressionType.BLOCK, new GzipCodec()))) {
 				startDownload = System.currentTimeMillis();
 				while ((entry = tais.getNextTarEntry()) != null) {
 					BufferedReader br = new BufferedReader(new InputStreamReader(tais)); // Read directly from tarInput
 					String line;
 					while ((line = br.readLine()) != null) {
 						String[] values = line.split(",");
 						List<String> recordInfo = Arrays.asList(values);
 						int nReqTmp = 0;
 						long startReqTmp = System.currentTimeMillis();
 						// skip headers line
 						if (parsedRecordsCounter == 0) {
 							parsedRecordsCounter++;
 							continue;
 						}
 						parsedRecordsCounter++;
 						String orcidId = recordInfo.get(0);
 						if (isModified(orcidId, recordInfo.get(3))) {
 							String record = downloadRecord(orcidId);
 							downloadedRecordsCounter++;
 							if (!record.isEmpty()) {
 //							String compressRecord = ArgumentApplicationParser.compressArgument(record);
 								final Text key = new Text(recordInfo.get(0));
 								final Text value = new Text(record);
 								writer.append(key, value);
 								savedRecordsCounter++;
 							}
 						} else {
 							break;
 						}
 						long endReq = System.currentTimeMillis();
 						nReqTmp++;
 						if (nReqTmp == REQ_LIMIT) {
 							long reqSessionDuration = endReq - startReqTmp;
 							if (reqSessionDuration <= 1000) {
 								Log
 									.info(
 										"\nreqSessionDuration: "
 											+ reqSessionDuration
 											+ " nReqTmp: "
 											+ nReqTmp
 											+ " wait ....");
 								Thread.sleep(1000 - reqSessionDuration);
 							} else {
 								nReqTmp = 0;
 								startReqTmp = System.currentTimeMillis();
 							}
 						}
 						if ((parsedRecordsCounter % RECORD_PARSED_COUNTER_LOG_INTERVAL) == 0) {
 							Log
 								.info(
 									"Current parsed: "
 										+ parsedRecordsCounter
 										+ " downloaded: "
 										+ downloadedRecordsCounter
 										+ " saved: "
 										+ savedRecordsCounter);
 							if (REQ_MAX_TEST != -1 && parsedRecordsCounter > REQ_MAX_TEST) {
 								break;
 							}
 						}
 					}
 					long endDownload = System.currentTimeMillis();
 					long downloadTime = endDownload - startDownload;
 					Log.info("Download time: " + ((downloadTime / 1000) / 60) + " minutes");
 				}
 			}
 		}
 		Log.info("Download started at: " + new Date(startDownload).toString());
 		Log.info("Download ended at: " + new Date(System.currentTimeMillis()).toString());
 		Log.info("Parsed Records Counter: " + parsedRecordsCounter);
 		Log.info("Downloaded Records Counter: " + downloadedRecordsCounter);
 		Log.info("Saved Records Counter: " + savedRecordsCounter);
 	}
 	private void loadArgs(String[] args) throws IOException, Exception {
 		final ArgumentApplicationParser parser = new ArgumentApplicationParser(
 			IOUtils
 				.toString(
 					OrcidDownloader.class
 						.getResourceAsStream(
 							"/eu/dnetlib/dhp/doiboost/download_orcid_data.json")));
 		parser.parseArgument(args);
 		hdfsServerUri = parser.get("hdfsServerUri");
 		Log.info("HDFS URI: " + hdfsServerUri);
 		workingPath = parser.get("workingPath");
 		Log.info("Default Path: " + workingPath);
 		lambdaFileName = parser.get("lambdaFileName");
 		Log.info("Lambda File Name: " + lambdaFileName);
 		outputPath = parser.get("outputPath");
 		Log.info("Output Data: " + outputPath);
 		token = parser.get("token");
 	}
 	public boolean isModified(String orcidId, String modifiedDate) {
 		Date modifiedDateDt = null;
 		Date lastUpdateDt = null;
 		try {
 			if (modifiedDate.length() != 19) {
 				modifiedDate = modifiedDate.substring(0, 19);
 			}
 			modifiedDateDt = new SimpleDateFormat(DATE_FORMAT).parse(modifiedDate);
 			lastUpdateDt = new SimpleDateFormat(DATE_FORMAT).parse(lastUpdate);
 		} catch (Exception e) {
 			Log.info("[" + orcidId + "] Parsing date: ", e.getMessage());
 			return true;
 		}
 		return modifiedDateDt.after(lastUpdateDt);
 	}
 }
--- a/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/SparkDownloadOrcidAuthors.java
+++ b/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/SparkDownloadOrcidAuthors.java
@ -34,7 +34,7 @@ public class SparkDownloadOrcidAuthors {
 	static Logger logger = LoggerFactory.getLogger(SparkDownloadOrcidAuthors.class);
 	static final String DATE_FORMAT = "yyyy-MM-dd HH:mm:ss";
-	static final String lastUpdate = "2020-09-29 00:00:00";
+	static final String lastUpdate = "2020-11-18 00:00:05";
 	public static void main(String[] args) throws IOException, Exception {
@ -69,6 +69,7 @@ public class SparkDownloadOrcidAuthors {
 				LongAccumulator modifiedRecordsAcc = spark.sparkContext().longAccumulator("to_download_records");
 				LongAccumulator downloadedRecordsAcc = spark.sparkContext().longAccumulator("downloaded_records");
 				LongAccumulator errorHTTP403Acc = spark.sparkContext().longAccumulator("error_HTTP_403");
 				LongAccumulator errorHTTP404Acc = spark.sparkContext().longAccumulator("error_HTTP_404");
 				LongAccumulator errorHTTP409Acc = spark.sparkContext().longAccumulator("error_HTTP_409");
 				LongAccumulator errorHTTP503Acc = spark.sparkContext().longAccumulator("error_HTTP_503");
 				LongAccumulator errorHTTP525Acc = spark.sparkContext().longAccumulator("error_HTTP_525");
@ -113,6 +114,8 @@ public class SparkDownloadOrcidAuthors {
 							switch (statusCode) {
 								case 403:
 									errorHTTP403Acc.add(1);
 								case 404:
 									errorHTTP404Acc.add(1);
 								case 409:
 									errorHTTP409Acc.add(1);
 								case 503:
@ -149,7 +152,7 @@ public class SparkDownloadOrcidAuthors {
 				logger.info("Authors modified count: " + authorsModifiedRDD.count());
 				logger.info("Start downloading ...");
 				authorsModifiedRDD
-					.repartition(10)
+					.repartition(100)
 					.map(downloadRecordFunction)
 					.mapToPair(t -> new Tuple2(new Text(t._1()), new Text(t._2())))
 					.saveAsNewAPIHadoopFile(
@ -158,10 +161,12 @@ public class SparkDownloadOrcidAuthors {
 						Text.class,
 						SequenceFileOutputFormat.class,
 						sc.hadoopConfiguration());
 				logger.info("parsedRecordsAcc: " + parsedRecordsAcc.value().toString());
 				logger.info("modifiedRecordsAcc: " + modifiedRecordsAcc.value().toString());
 				logger.info("downloadedRecordsAcc: " + downloadedRecordsAcc.value().toString());
 				logger.info("errorHTTP403Acc: " + errorHTTP403Acc.value().toString());
 				logger.info("errorHTTP404Acc: " + errorHTTP404Acc.value().toString());
 				logger.info("errorHTTP409Acc: " + errorHTTP409Acc.value().toString());
 				logger.info("errorHTTP503Acc: " + errorHTTP503Acc.value().toString());
 				logger.info("errorHTTP525Acc: " + errorHTTP525Acc.value().toString());
--- a/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/SparkDownloadOrcidWorks.java
+++ b/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/SparkDownloadOrcidWorks.java
@ -43,7 +43,7 @@ public class SparkDownloadOrcidWorks {
 	public static final String ORCID_XML_DATETIME_FORMAT = "yyyy-MM-dd'T'HH:mm:ss.SSS'Z'";
 	public static final DateTimeFormatter ORCID_XML_DATETIMEFORMATTER = DateTimeFormatter
 		.ofPattern(ORCID_XML_DATETIME_FORMAT);
-	public static final String lastUpdateValue = "2020-09-29 00:00:00";
+	public static final String lastUpdateValue = "2020-11-18 00:00:05";
 	public static void main(String[] args) throws IOException, Exception {
@ -89,6 +89,7 @@ public class SparkDownloadOrcidWorks {
 					.longAccumulator("error_parsing_xml_found");
 				LongAccumulator downloadedRecordsAcc = spark.sparkContext().longAccumulator("downloaded_records");
 				LongAccumulator errorHTTP403Acc = spark.sparkContext().longAccumulator("error_HTTP_403");
 				LongAccumulator errorHTTP404Acc = spark.sparkContext().longAccumulator("error_HTTP_404");
 				LongAccumulator errorHTTP409Acc = spark.sparkContext().longAccumulator("error_HTTP_409");
 				LongAccumulator errorHTTP503Acc = spark.sparkContext().longAccumulator("error_HTTP_503");
 				LongAccumulator errorHTTP525Acc = spark.sparkContext().longAccumulator("error_HTTP_525");
@ -163,6 +164,8 @@ public class SparkDownloadOrcidWorks {
 							switch (statusCode) {
 								case 403:
 									errorHTTP403Acc.add(1);
 								case 404:
 									errorHTTP404Acc.add(1);
 								case 409:
 									errorHTTP409Acc.add(1);
 								case 503:
@ -186,29 +189,19 @@ public class SparkDownloadOrcidWorks {
 									.compressArgument(IOUtils.toString(response.getEntity().getContent())));
 					} catch (Throwable e) {
 						logger.info("Downloading " + orcidId, e.getMessage());
 						if (downloaded.getStatusCode() == 503) {
 							throw new RuntimeException("Orcid request rate limit reached (HTTP 503)");
 						}
 						downloaded.setErrorMessage(e.getMessage());
 						return downloaded.toTuple2();
 					}
 					return downloaded.toTuple2();
 				};
 //				sc.hadoopConfiguration().set("mapreduce.output.fileoutputformat.compress", "true");
 				updatedAuthorsRDD
 					.flatMap(retrieveWorkUrlFunction)
 					.repartition(100)
 					.map(downloadWorkFunction)
 					.mapToPair(t -> new Tuple2(new Text(t._1()), new Text(t._2())))
 					.saveAsTextFile(workingPath.concat(outputPath), GzipCodec.class);
-//						.saveAsNewAPIHadoopFile(
+
 //						workingPath.concat(outputPath),
 //						Text.class,
 //						Text.class,
 //						SequenceFileOutputFormat.class,
 //						sc.hadoopConfiguration());
 				logger.info("updatedAuthorsAcc: " + updatedAuthorsAcc.value().toString());
 				logger.info("parsedAuthorsAcc: " + parsedAuthorsAcc.value().toString());
 				logger.info("parsedWorksAcc: " + parsedWorksAcc.value().toString());
--- a/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/SparkUpdateOrcidAuthors.java
+++ b/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/SparkUpdateOrcidAuthors.java
@ -36,12 +36,12 @@ public class SparkUpdateOrcidAuthors {
 		.setSerializationInclusion(JsonInclude.Include.NON_NULL);
 	public static void main(String[] args) throws IOException, Exception {
-		Logger logger = LoggerFactory.getLogger(SparkUpdateOrcidDatasets.class);
+		Logger logger = LoggerFactory.getLogger(SparkUpdateOrcidAuthors.class);
 		final ArgumentApplicationParser parser = new ArgumentApplicationParser(
 			IOUtils
 				.toString(
-					SparkUpdateOrcidDatasets.class
+					SparkUpdateOrcidAuthors.class
 						.getResourceAsStream(
 							"/eu/dnetlib/dhp/doiboost/download_orcid_data.json")));
 		parser.parseArgument(args);
@ -95,7 +95,7 @@ public class SparkUpdateOrcidAuthors {
 								authorSummary = XMLRecordParser
 									.VTDParseAuthorSummary(xmlAuthor.getBytes());
 								authorSummary.setStatusCode(statusCode);
-								authorSummary.setDownloadDate("2020-11-18 00:00:05.644768");
+								authorSummary.setDownloadDate("2020-12-15 00:00:01.000000");
 								authorSummary.setBase64CompressData(compressedData);
 								return authorSummary;
 							} catch (Exception e) {
@ -105,7 +105,7 @@ public class SparkUpdateOrcidAuthors {
 						}
 					} else {
 						authorSummary.setStatusCode(statusCode);
-						authorSummary.setDownloadDate("2020-11-18 00:00:05.644768");
+						authorSummary.setDownloadDate("2020-12-15 00:00:01.000000");
 						errorCodeAuthorsFoundAcc.add(1);
 					}
 					return authorSummary;
--- a/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/SparkUpdateOrcidDatasets.java
+++ b/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/SparkUpdateOrcidDatasets.java
@ -1,317 +0,0 @@
 package eu.dnetlib.doiboost.orcid;
 import static eu.dnetlib.dhp.common.SparkSessionSupport.runWithSparkSession;
 import java.io.IOException;
 import java.util.Objects;
 import java.util.Optional;
 import org.apache.commons.io.IOUtils;
 import org.apache.commons.lang3.StringUtils;
 import org.apache.hadoop.io.Text;
 import org.apache.hadoop.io.compress.GzipCodec;
 import org.apache.spark.SparkConf;
 import org.apache.spark.api.java.JavaSparkContext;
 import org.apache.spark.api.java.function.Function;
 import org.apache.spark.sql.Dataset;
 import org.apache.spark.sql.Encoders;
 import org.apache.spark.util.LongAccumulator;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 import com.fasterxml.jackson.annotation.JsonInclude;
 import com.fasterxml.jackson.databind.ObjectMapper;
 import com.google.gson.JsonElement;
 import com.google.gson.JsonParser;
 import eu.dnetlib.dhp.application.ArgumentApplicationParser;
 import eu.dnetlib.dhp.schema.orcid.AuthorSummary;
 import eu.dnetlib.dhp.schema.orcid.Work;
 import eu.dnetlib.dhp.schema.orcid.WorkDetail;
 import eu.dnetlib.doiboost.orcid.xml.XMLRecordParser;
 import eu.dnetlib.doiboost.orcidnodoi.xml.XMLRecordParserNoDoi;
 import scala.Tuple2;
 public class SparkUpdateOrcidDatasets {
 	private static final ObjectMapper OBJECT_MAPPER = new ObjectMapper()
 		.setSerializationInclusion(JsonInclude.Include.NON_NULL);
 	public static void main(String[] args) throws IOException, Exception {
 		Logger logger = LoggerFactory.getLogger(SparkUpdateOrcidDatasets.class);
 		final ArgumentApplicationParser parser = new ArgumentApplicationParser(
 			IOUtils
 				.toString(
 					SparkUpdateOrcidDatasets.class
 						.getResourceAsStream(
 							"/eu/dnetlib/dhp/doiboost/download_orcid_data.json")));
 		parser.parseArgument(args);
 		Boolean isSparkSessionManaged = Optional
 			.ofNullable(parser.get("isSparkSessionManaged"))
 			.map(Boolean::valueOf)
 			.orElse(Boolean.TRUE);
 		final String workingPath = parser.get("workingPath");
 //		final String outputPath = parser.get("outputPath");
 		SparkConf conf = new SparkConf();
 		runWithSparkSession(
 			conf,
 			isSparkSessionManaged,
 			spark -> {
 				JavaSparkContext sc = JavaSparkContext.fromSparkContext(spark.sparkContext());
 				LongAccumulator oldAuthorsFoundAcc = spark
 					.sparkContext()
 					.longAccumulator("old_authors_found");
 				LongAccumulator updatedAuthorsFoundAcc = spark
 					.sparkContext()
 					.longAccumulator("updated_authors_found");
 				LongAccumulator newAuthorsFoundAcc = spark
 					.sparkContext()
 					.longAccumulator("new_authors_found");
 				LongAccumulator errorCodeAuthorsFoundAcc = spark
 					.sparkContext()
 					.longAccumulator("error_code_authors_found");
 				LongAccumulator errorLoadingAuthorsJsonFoundAcc = spark
 					.sparkContext()
 					.longAccumulator("error_loading_authors_json_found");
 				LongAccumulator errorParsingAuthorsXMLFoundAcc = spark
 					.sparkContext()
 					.longAccumulator("error_parsing_authors_xml_found");
 				LongAccumulator oldWorksFoundAcc = spark
 					.sparkContext()
 					.longAccumulator("old_works_found");
 				LongAccumulator updatedWorksFoundAcc = spark
 					.sparkContext()
 					.longAccumulator("updated_works_found");
 				LongAccumulator newWorksFoundAcc = spark
 					.sparkContext()
 					.longAccumulator("new_works_found");
 				LongAccumulator errorCodeWorksFoundAcc = spark
 					.sparkContext()
 					.longAccumulator("error_code_works_found");
 				LongAccumulator errorLoadingWorksJsonFoundAcc = spark
 					.sparkContext()
 					.longAccumulator("error_loading_works_json_found");
 				LongAccumulator errorParsingWorksXMLFoundAcc = spark
 					.sparkContext()
 					.longAccumulator("error_parsing_works_xml_found");
 //				JavaPairRDD<Text, Text> xmlSummariesRDD = sc
 //					.sequenceFile(workingPath.concat("xml/authors/xml_authors.seq"), Text.class, Text.class);
 //				xmlSummariesRDD
 //					.map(seq -> {
 //						AuthorSummary authorSummary = XMLRecordParser
 //							.VTDParseAuthorSummary(seq._2().toString().getBytes());
 //						authorSummary
 //							.setBase64CompressData(ArgumentApplicationParser.compressArgument(seq._2().toString()));
 //						return authorSummary;
 //					})
 //					.filter(authorSummary -> authorSummary != null)
 //					.map(authorSummary -> JsonWriter.create(authorSummary))
 //					.saveAsTextFile(workingPath.concat("orcid_dataset/authors"), GzipCodec.class);
 //
 //				JavaPairRDD<Text, Text> xmlWorksRDD = sc
 //					.sequenceFile(workingPath.concat("xml/works/*"), Text.class, Text.class);
 //
 //				xmlWorksRDD
 //					.map(seq -> {
 //						WorkDetail workDetail = XMLRecordParserNoDoi.VTDParseWorkData(seq._2().toString().getBytes());
 //						Work work = new Work();
 //						work.setWorkDetail(workDetail);
 //						work.setBase64CompressData(ArgumentApplicationParser.compressArgument(seq._2().toString()));
 //						return work;
 //					})
 //					.filter(work -> work != null)
 //					.map(work -> JsonWriter.create(work))
 //					.saveAsTextFile(workingPath.concat("orcid_dataset/works"), GzipCodec.class);
 //				Function<Tuple2<Text, Text>, AuthorSummary> retrieveAuthorSummaryFunction = data -> {
 //					AuthorSummary authorSummary = new AuthorSummary();
 //					String orcidId = data._1().toString();
 //					String jsonData = data._2().toString();
 //					JsonElement jElement = new JsonParser().parse(jsonData);
 //					String statusCode = getJsonValue(jElement, "statusCode");
 //					String downloadDate = getJsonValue(jElement, "lastModifiedDate");
 //					if (statusCode.equals("200")) {
 //						String compressedData = getJsonValue(jElement, "compressedData");
 //						if (StringUtils.isEmpty(compressedData)) {
 //							errorLoadingAuthorsJsonFoundAcc.add(1);
 //						} else {
 //							String xmlAuthor = ArgumentApplicationParser.decompressValue(compressedData);
 //							try {
 //								authorSummary = XMLRecordParser
 //									.VTDParseAuthorSummary(xmlAuthor.getBytes());
 //								authorSummary.setStatusCode(statusCode);
 //								authorSummary.setDownloadDate("2020-11-18 00:00:05.644768");
 //								authorSummary.setBase64CompressData(compressedData);
 //								return authorSummary;
 //							} catch (Exception e) {
 //								logger.error("parsing xml " + orcidId + " [" + jsonData + "]", e);
 //								errorParsingAuthorsXMLFoundAcc.add(1);
 //							}
 //						}
 //					} else {
 //						authorSummary.setStatusCode(statusCode);
 //						authorSummary.setDownloadDate("2020-11-18 00:00:05.644768");
 //						errorCodeAuthorsFoundAcc.add(1);
 //					}
 //					return authorSummary;
 //				};
 //
 //				Dataset<AuthorSummary> downloadedAuthorSummaryDS = spark
 //					.createDataset(
 //						sc
 //							.sequenceFile(workingPath + "downloads/updated_authors/*", Text.class, Text.class)
 //							.map(retrieveAuthorSummaryFunction)
 //							.rdd(),
 //						Encoders.bean(AuthorSummary.class));
 //				Dataset<AuthorSummary> currentAuthorSummaryDS = spark
 //					.createDataset(
 //						sc
 //							.textFile(workingPath.concat("orcid_dataset/authors/*"))
 //							.map(item -> OBJECT_MAPPER.readValue(item, AuthorSummary.class))
 //							.rdd(),
 //						Encoders.bean(AuthorSummary.class));
 //				currentAuthorSummaryDS
 //					.joinWith(
 //						downloadedAuthorSummaryDS,
 //						currentAuthorSummaryDS
 //							.col("authorData.oid")
 //							.equalTo(downloadedAuthorSummaryDS.col("authorData.oid")),
 //						"full_outer")
 //					.map(value -> {
 //						Optional<AuthorSummary> opCurrent = Optional.ofNullable(value._1());
 //						Optional<AuthorSummary> opDownloaded = Optional.ofNullable(value._2());
 //						if (!opCurrent.isPresent()) {
 //							newAuthorsFoundAcc.add(1);
 //							return opDownloaded.get();
 //						}
 //						if (!opDownloaded.isPresent()) {
 //							oldAuthorsFoundAcc.add(1);
 //							return opCurrent.get();
 //						}
 //						if (opCurrent.isPresent() && opDownloaded.isPresent()) {
 //							updatedAuthorsFoundAcc.add(1);
 //							return opDownloaded.get();
 //						}
 //						return null;
 //					},
 //						Encoders.bean(AuthorSummary.class))
 //					.filter(Objects::nonNull)
 //					.toJavaRDD()
 //					.map(authorSummary -> OBJECT_MAPPER.writeValueAsString(authorSummary))
 //					.saveAsTextFile(workingPath.concat("orcid_dataset/new_authors"), GzipCodec.class);
 //
 //				logger.info("oldAuthorsFoundAcc: " + oldAuthorsFoundAcc.value().toString());
 //				logger.info("newAuthorsFoundAcc: " + newAuthorsFoundAcc.value().toString());
 //				logger.info("updatedAuthorsFoundAcc: " + updatedAuthorsFoundAcc.value().toString());
 //				logger.info("errorCodeFoundAcc: " + errorCodeAuthorsFoundAcc.value().toString());
 //				logger.info("errorLoadingJsonFoundAcc: " + errorLoadingAuthorsJsonFoundAcc.value().toString());
 //				logger.info("errorParsingXMLFoundAcc: " + errorParsingAuthorsXMLFoundAcc.value().toString());
 				Function<String, Work> retrieveWorkFunction = jsonData -> {
 					Work work = new Work();
 					JsonElement jElement = new JsonParser().parse(jsonData);
 					String statusCode = getJsonValue(jElement, "statusCode");
 					work.setStatusCode(statusCode);
 					String downloadDate = getJsonValue(jElement, "lastModifiedDate");
 					work.setDownloadDate("2020-11-18 00:00:05.644768");
 					if (statusCode.equals("200")) {
 						String compressedData = getJsonValue(jElement, "compressedData");
 						if (StringUtils.isEmpty(compressedData)) {
 							errorLoadingWorksJsonFoundAcc.add(1);
 						} else {
 							String xmlWork = ArgumentApplicationParser.decompressValue(compressedData);
 							try {
 								WorkDetail workDetail = XMLRecordParserNoDoi
 									.VTDParseWorkData(xmlWork.getBytes());
 								work.setWorkDetail(workDetail);
 								work.setBase64CompressData(compressedData);
 								return work;
 							} catch (Exception e) {
 								logger.error("parsing xml [" + jsonData + "]", e);
 								errorParsingWorksXMLFoundAcc.add(1);
 							}
 						}
 					} else {
 						errorCodeWorksFoundAcc.add(1);
 					}
 					return work;
 				};
 				Dataset<Work> downloadedWorksDS = spark
 					.createDataset(
 						sc
 							.textFile(workingPath + "downloads/updated_works/*")
 							.map(s -> {
 								return s.substring(21, s.length() - 1);
 							})
 							.map(retrieveWorkFunction)
 							.rdd(),
 						Encoders.bean(Work.class));
 				Dataset<Work> currentWorksDS = spark
 					.createDataset(
 						sc
 							.textFile(workingPath.concat("orcid_dataset/works/*"))
 							.map(item -> OBJECT_MAPPER.readValue(item, Work.class))
 							.rdd(),
 						Encoders.bean(Work.class));
 				currentWorksDS
 					.joinWith(
 						downloadedWorksDS,
 						currentWorksDS
 							.col("workDetail.id")
 							.equalTo(downloadedWorksDS.col("workDetail.id"))
 							.and(
 								currentWorksDS
 									.col("workDetail.oid")
 									.equalTo(downloadedWorksDS.col("workDetail.oid"))),
 						"full_outer")
 					.map(value -> {
 						Optional<Work> opCurrent = Optional.ofNullable(value._1());
 						Optional<Work> opDownloaded = Optional.ofNullable(value._2());
 						if (!opCurrent.isPresent()) {
 							newWorksFoundAcc.add(1);
 							return opDownloaded.get();
 						}
 						if (!opDownloaded.isPresent()) {
 							oldWorksFoundAcc.add(1);
 							return opCurrent.get();
 						}
 						if (opCurrent.isPresent() && opDownloaded.isPresent()) {
 							updatedWorksFoundAcc.add(1);
 							return opDownloaded.get();
 						}
 						return null;
 					},
 						Encoders.bean(Work.class))
 					.filter(Objects::nonNull)
 					.toJavaRDD()
 					.map(work -> OBJECT_MAPPER.writeValueAsString(work))
 					.saveAsTextFile(workingPath.concat("orcid_dataset/new_works"), GzipCodec.class);
 				logger.info("oldWorksFoundAcc: " + oldWorksFoundAcc.value().toString());
 				logger.info("newWorksFoundAcc: " + newWorksFoundAcc.value().toString());
 				logger.info("updatedWorksFoundAcc: " + updatedWorksFoundAcc.value().toString());
 				logger.info("errorCodeWorksFoundAcc: " + errorCodeWorksFoundAcc.value().toString());
 				logger.info("errorLoadingJsonWorksFoundAcc: " + errorLoadingWorksJsonFoundAcc.value().toString());
 				logger.info("errorParsingXMLWorksFoundAcc: " + errorParsingWorksXMLFoundAcc.value().toString());
 			});
 	}
 	private static String getJsonValue(JsonElement jElement, String property) {
 		if (jElement.getAsJsonObject().has(property)) {
 			JsonElement name = null;
 			name = jElement.getAsJsonObject().get(property);
 			if (name != null && !name.isJsonNull()) {
 				return name.getAsString();
 			}
 		}
 		return "";
 	}
 }
--- a/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/SparkUpdateOrcidWorks.java
+++ b/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/SparkUpdateOrcidWorks.java
@ -35,12 +35,12 @@ public class SparkUpdateOrcidWorks {
 		.setSerializationInclusion(JsonInclude.Include.NON_NULL);
 	public static void main(String[] args) throws IOException, Exception {
-		Logger logger = LoggerFactory.getLogger(SparkUpdateOrcidDatasets.class);
+		Logger logger = LoggerFactory.getLogger(SparkUpdateOrcidWorks.class);
 		final ArgumentApplicationParser parser = new ArgumentApplicationParser(
 			IOUtils
 				.toString(
-					SparkUpdateOrcidDatasets.class
+					SparkUpdateOrcidWorks.class
 						.getResourceAsStream(
 							"/eu/dnetlib/dhp/doiboost/download_orcid_data.json")));
 		parser.parseArgument(args);
@ -83,7 +83,7 @@ public class SparkUpdateOrcidWorks {
 					String statusCode = getJsonValue(jElement, "statusCode");
 					work.setStatusCode(statusCode);
 					String downloadDate = getJsonValue(jElement, "lastModifiedDate");
-					work.setDownloadDate("2020-11-18 00:00:05.644768");
+					work.setDownloadDate("2020-12-15 00:00:01.000000");
 					if (statusCode.equals("200")) {
 						String compressedData = getJsonValue(jElement, "compressedData");
 						if (StringUtils.isEmpty(compressedData)) {
--- a/dhp-workflows/dhp-doiboost/src/main/resources/eu/dnetlib/dhp/doiboost/orcid_updates_download/oozie_app/config-default.xml
+++ b/dhp-workflows/dhp-doiboost/src/main/resources/eu/dnetlib/dhp/doiboost/orcid_updates_download/oozie_app/config-default.xml
@ -1,22 +0,0 @@
 <configuration>
    <property>
        <name>jobTracker</name>
        <value>yarnRM</value>
    </property>
    <property>
        <name>nameNode</name>
        <value>hdfs://nameservice1</value>
    </property>
    <property>
        <name>oozie.action.sharelib.for.java</name>
        <value>spark2</value>
    </property>
    <property>
        <name>oozie.launcher.mapreduce.user.classpath.first</name>
        <value>true</value>
    </property>
    <property>
      <name>oozie.launcher.mapreduce.map.java.opts</name>
      <value>-Xmx4g</value>
    </property>
 </configuration>
--- a/dhp-workflows/dhp-doiboost/src/main/resources/eu/dnetlib/dhp/doiboost/orcid_updates_download/oozie_app/workflow.xml
+++ b/dhp-workflows/dhp-doiboost/src/main/resources/eu/dnetlib/dhp/doiboost/orcid_updates_download/oozie_app/workflow.xml
@ -1,9 +1,25 @@
 <workflow-app name="Orcid Updates Download" xmlns="uri:oozie:workflow:0.5">
    <parameters>
        <property>
            <name>spark2UpdateStepMaxExecutors</name>
            <value>50</value>
        </property>
        <property>
            <name>workingPath</name>
            <description>the working dir base path</description>
        </property>
        <property>
            <name>oozie.action.sharelib.for.java</name>
            <value>spark2</value>
        </property>
        <property>
            <name>oozie.launcher.mapreduce.user.classpath.first</name>
            <value>true</value>
        </property>
        <property>
            <name>oozie.launcher.mapreduce.map.java.opts</name>
            <value>-Xmx4g</value>
        </property>
        <property>
            <name>token</name>
            <description>access token</description>
@ -30,7 +46,7 @@
            <description>number of cores used by single executor</description>
        </property>
        <property>
-            <name>spark2MaxExecutors</name>
+            <name>spark2DownloadingMaxExecutors</name>
            <value>10</value>
        </property>
        <property>
@ -58,6 +74,8 @@
    </parameters>
    <global>
        <job-tracker>${jobTracker}</job-tracker>
        <name-node>${nameNode}</name-node>
        <configuration>
            <property>
                <name>oozie.action.sharelib.for.spark</name>
@ -66,18 +84,16 @@
        </configuration>
    </global>
-    <start to="ResetWorkingPath"/>
+    <start to="ResetLambda"/>
-    
+
    <kill name="Kill">
        <message>Action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
    </kill>
-    
+
-    <action name="ResetWorkingPath">
+    <action name="ResetLambda">
        <fs>
            <delete path='${workingPath}/downloads'/>
            <delete path='${workingPath}/last_modified.csv.tar'/>
-            <mkdir path='${workingPath}/downloads'/>
+            <delete path='${workingPath}/last_modified.seq'/>
        </fs>
        <ok to="DownloadLambdaFile"/>
        <error to="Kill"/>
@ -92,7 +108,7 @@
            <argument>${shell_cmd}</argument>
            <capture-output/>
        </shell>
-        <ok to="DownloadUpdatedXMLAuthors"/>
+        <ok to="GenLastModifiedSeq"/>
        <error to="Kill"/>
    </action>
@ -118,7 +134,16 @@
            <arg>-o</arg><arg>last_modified.seq</arg>
            <arg>-t</arg><arg>-</arg>
        </spark>
-        <ok to="End"/>
+        <ok to="ResetDownloads"/>
        <error to="Kill"/>
    </action>
    <action name="ResetDownloads">
        <fs>
            <delete path='${workingPath}/downloads/updated_authors'/>
            <delete path='${workingPath}/downloads/updated_works'/>
        </fs>
        <ok to="DownloadOrcidAuthors"/>
        <error to="Kill"/>
    </action>
@ -131,7 +156,7 @@
            <jar>dhp-doiboost-${projectVersion}.jar</jar>
            <spark-opts>
                --conf spark.dynamicAllocation.enabled=true
-                --conf spark.dynamicAllocation.maxExecutors=${spark2MaxExecutors}
+                --conf spark.dynamicAllocation.maxExecutors=${spark2DownloadingMaxExecutors}
                --executor-memory=${sparkExecutorMemory}
                --driver-memory=${sparkDriverMemory}
                --conf spark.extraListeners=${spark2ExtraListeners}
@ -145,7 +170,7 @@
            <arg>-o</arg><arg>downloads/updated_authors</arg>
            <arg>-t</arg><arg>${token}</arg>
        </spark>
-        <ok to="End"/>
+        <ok to="DownloadOrcidWorks"/>
        <error to="Kill"/>
    </action>
@ -158,7 +183,7 @@
            <jar>dhp-doiboost-${projectVersion}.jar</jar>
            <spark-opts>
                --conf spark.dynamicAllocation.enabled=true
-                --conf spark.dynamicAllocation.maxExecutors=${spark2MaxExecutors}
+                --conf spark.dynamicAllocation.maxExecutors=${spark2DownloadingMaxExecutors}
                --executor-memory=${sparkExecutorMemory}
                --driver-memory=${sparkDriverMemory}
                --conf spark.extraListeners=${spark2ExtraListeners}
@ -172,6 +197,95 @@
            <arg>-o</arg><arg>downloads/updated_works</arg>
            <arg>-t</arg><arg>${token}</arg>
        </spark>
        <ok to="UpdateOrcidAuthors"/>
        <error to="Kill"/>
    </action>
    <action name="UpdateOrcidAuthors">
        <spark xmlns="uri:oozie:spark-action:0.2">
            <master>yarn-cluster</master>
            <mode>cluster</mode>
            <name>UpdateOrcidAuthors</name>
            <class>eu.dnetlib.doiboost.orcid.SparkUpdateOrcidAuthors</class>
            <jar>dhp-doiboost-${projectVersion}.jar</jar>
            <spark-opts>
                --conf spark.dynamicAllocation.enabled=true
                --conf spark.dynamicAllocation.maxExecutors=${spark2UpdateStepMaxExecutors}
                --executor-memory=${sparkExecutorMemory}
                --driver-memory=${sparkDriverMemory}
                --conf spark.extraListeners=${spark2ExtraListeners}
                --conf spark.yarn.historyServer.address=${spark2YarnHistoryServerAddress}
                --conf spark.eventLog.dir=${nameNode}${spark2EventLogDir}
                --conf spark.sql.queryExecutionListeners=${spark2SqlQueryExecutionListeners}
            </spark-opts>
            <arg>-w</arg><arg>${workingPath}/</arg>
            <arg>-n</arg><arg>${nameNode}</arg>
            <arg>-f</arg><arg>-</arg>
            <arg>-o</arg><arg>-</arg>
            <arg>-t</arg><arg>-</arg>
        </spark>
        <ok to="UpdateOrcidWorks"/>
        <error to="Kill"/>
    </action>
    <action name="UpdateOrcidWorks">
        <spark xmlns="uri:oozie:spark-action:0.2">
            <master>yarn-cluster</master>
            <mode>cluster</mode>
            <name>UpdateOrcidWorks</name>
            <class>eu.dnetlib.doiboost.orcid.SparkUpdateOrcidWorks</class>
            <jar>dhp-doiboost-${projectVersion}.jar</jar>
            <spark-opts>
                --conf spark.dynamicAllocation.enabled=true
                --conf spark.dynamicAllocation.maxExecutors=${spark2UpdateStepMaxExecutors}
                --executor-memory=${sparkExecutorMemory}
                --driver-memory=${sparkDriverMemory}
                --conf spark.extraListeners=${spark2ExtraListeners}
                --conf spark.yarn.historyServer.address=${spark2YarnHistoryServerAddress}
                --conf spark.eventLog.dir=${nameNode}${spark2EventLogDir}
                --conf spark.sql.queryExecutionListeners=${spark2SqlQueryExecutionListeners}
            </spark-opts>
            <arg>-w</arg><arg>${workingPath}/</arg>
            <arg>-n</arg><arg>${nameNode}</arg>
            <arg>-f</arg><arg>-</arg>
            <arg>-o</arg><arg>-</arg>
            <arg>-t</arg><arg>-</arg>
        </spark>
        <ok to="promoteOrcidAuthorsDataset"/>
        <error to="Kill"/>
    </action>
    <action name="promoteOrcidAuthorsDataset">
        <distcp xmlns="uri:oozie:distcp-action:0.2">
            <prepare>
                <delete path="${workingPath}/orcid_dataset/authors"/>
                <mkdir path="${workingPath}/orcid_dataset/authors"/>
            </prepare>
            <arg>${workingPath}/orcid_dataset/new_authors/*</arg>
            <arg>${workingPath}/orcid_dataset/authors</arg>
        </distcp>
        <ok to="promoteOrcidWorksDataset"/>
        <error to="Kill"/>
    </action>
    <action name="promoteOrcidWorksDataset">
        <distcp xmlns="uri:oozie:distcp-action:0.2">
            <prepare>
                <delete path="${workingPath}/orcid_dataset/works"/>
                <mkdir path="${workingPath}/orcid_dataset/works"/>
            </prepare>
            <arg>${workingPath}/orcid_dataset/new_works/*</arg>
            <arg>${workingPath}/orcid_dataset/works</arg>
        </distcp>
        <ok to="CleanWorkingPath"/>
        <error to="Kill"/>
    </action>
    <action name="CleanWorkingPath">
        <fs>
            <delete path='${workingPath}/orcid_dataset/new_authors'/>
            <delete path='${workingPath}/orcid_dataset/new_works'/>
        </fs>
        <ok to="End"/>
        <error to="Kill"/>
    </action>
--- a/dhp-workflows/dhp-doiboost/src/test/java/eu/dnetlib/doiboost/orcid/OrcidClientTest.java
+++ b/dhp-workflows/dhp-doiboost/src/test/java/eu/dnetlib/doiboost/orcid/OrcidClientTest.java
@ -51,43 +51,6 @@ public class OrcidClientTest {
 //	-H 'Authorization: Bearer 78fdb232-7105-4086-8570-e153f4198e3d'
 //	'https://api.orcid.org/v3.0/0000-0001-7291-3210/record'
 	@Test
 	private void multipleDownloadTest() throws Exception {
 		int toDownload = 10;
 		long start = System.currentTimeMillis();
 		OrcidDownloader downloader = new OrcidDownloader();
 		TarArchiveInputStream input = new TarArchiveInputStream(
 			new GzipCompressorInputStream(new FileInputStream("/tmp/last_modified.csv.tar")));
 		TarArchiveEntry entry = input.getNextTarEntry();
 		BufferedReader br = null;
 		StringBuilder sb = new StringBuilder();
 		int rowNum = 0;
 		int entryNum = 0;
 		int modified = 0;
 		while (entry != null) {
 			br = new BufferedReader(new InputStreamReader(input)); // Read directly from tarInput
 			String line;
 			while ((line = br.readLine()) != null) {
 				String[] values = line.toString().split(",");
 				List<String> recordInfo = Arrays.asList(values);
 				String orcidId = recordInfo.get(0);
 				if (downloader.isModified(orcidId, recordInfo.get(3))) {
 					slowedDownDownload(orcidId);
 					modified++;
 				}
 				rowNum++;
 				if (modified > toDownload) {
 					break;
 				}
 			}
 			entryNum++;
 			entry = input.getNextTarEntry();
 		}
 		long end = System.currentTimeMillis();
 		logToFile("start test: " + new Date(start).toString());
 		logToFile("end test: " + new Date(end).toString());
 	}
 	@Test
 	private void downloadTest(String orcid) throws Exception {
 		String record = testDownloadRecord(orcid, REQUEST_TYPE_RECORD);
@ -228,37 +191,6 @@ public class OrcidClientTest {
 		}
 	}
 	@Test
 	private void lambdaFileCounterTest() throws Exception {
 		final String lastUpdate = "2020-09-29 00:00:00";
 		OrcidDownloader downloader = new OrcidDownloader();
 		TarArchiveInputStream input = new TarArchiveInputStream(
 			new GzipCompressorInputStream(new FileInputStream("/tmp/last_modified.csv.tar")));
 		TarArchiveEntry entry = input.getNextTarEntry();
 		BufferedReader br = null;
 		StringBuilder sb = new StringBuilder();
 		int rowNum = 0;
 		int entryNum = 0;
 		int modified = 0;
 		while (entry != null) {
 			br = new BufferedReader(new InputStreamReader(input)); // Read directly from tarInput
 			String line;
 			while ((line = br.readLine()) != null) {
 				String[] values = line.toString().split(",");
 				List<String> recordInfo = Arrays.asList(values);
 				String orcidId = recordInfo.get(0);
 				if (downloader.isModified(orcidId, recordInfo.get(3))) {
 					modified++;
 				}
 				rowNum++;
 			}
 			entryNum++;
 			entry = input.getNextTarEntry();
 		}
 		logToFile("rowNum: " + rowNum);
 		logToFile("modified: " + modified);
 	}
 	public static void logToFile(String log)
 		throws IOException {
 		log = log.concat("\n");