added accumulator; last modified date of the record is added to saved data; lambda file is partitioned into 20 parts before starting downloading

2020-05-18 19:51:29 +02:00 · 2020-05-18 19:51:29 +02:00 · fc80e8c7de
parent 0b29bb7e3b
commit fc80e8c7de
4 changed files with 124 additions and 7 deletions
--- a/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/SparkOrcidGenerateAuthors.java
+++ b/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/SparkOrcidGenerateAuthors.java
@ -6,6 +6,7 @@ import static eu.dnetlib.dhp.common.SparkSessionSupport.runWithSparkSession;
 import java.io.IOException;
 import java.text.SimpleDateFormat;
 import java.util.Date;
+import java.util.List;
 import java.util.Optional;

 import org.apache.commons.io.IOUtils;
@ -20,6 +21,7 @@ import org.apache.spark.api.java.JavaSparkContext;
 import org.apache.spark.api.java.function.Function;
 import org.apache.spark.sql.Encoders;
 import org.apache.spark.sql.SaveMode;
+import org.apache.spark.util.LongAccumulator;
 import org.mortbay.log.Log;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@ -61,23 +63,53 @@ public class SparkOrcidGenerateAuthors {
 			isSparkSessionManaged,
 			spark -> {
 				JavaSparkContext sc = JavaSparkContext.fromSparkContext(spark.sparkContext());
-				JavaRDD<String> lamdaFileRDD = sc.textFile(workingPath + "last_modified.csv");
+
+				LongAccumulator parsedRecordsAcc = sc.sc().longAccumulator("parsedRecords");
+				LongAccumulator modifiedRecordsAcc = sc.sc().longAccumulator("modifiedRecords");
+				LongAccumulator downloadedRecordsAcc = sc.sc().longAccumulator("downloadedRecords");
+				LongAccumulator alreadyDownloadedRecords = sc.sc().longAccumulator("alreadyDownloadedRecords");
+				JavaRDD<String> lamdaFileRDD = sc.textFile(workingPath + "lamdafiles");
+
+				JavaRDD<String> downloadedRDD = sc.textFile(workingPath + "downloaded");
+				Function<String, String> getOrcidIdFunction = line -> {
+					try {
+						String[] values = line.split(",");
+						return values[0].substring(1);
+					} catch (Exception e) {
+						return new String("");
+					}
+				};
+				List<String> downloadedRecords = downloadedRDD.map(getOrcidIdFunction).collect();
+
 				Function<String, Boolean> isModifiedAfterFilter = line -> {
 					String[] values = line.split(",");
 					String orcidId = values[0];
+					parsedRecordsAcc.add(1);
 					if (isModified(orcidId, values[3])) {
+						modifiedRecordsAcc.add(1);
 						return true;
 					}
 					return false;
 				};
+				Function<String, Boolean> isNotDownloadedFilter = line -> {
+					String[] values = line.split(",");
+					String orcidId = values[0];
+					if (downloadedRecords.contains(orcidId)) {
+						alreadyDownloadedRecords.add(1);
+						return false;
+					}
+					return true;
+				};
 				Function<String, Tuple2<String, String>> downloadRecordFunction = line -> {
 					String[] values = line.split(",");
 					String orcidId = values[0];
-					return downloadRecord(orcidId, token);
+					String modifiedDate = values[3];
+					return downloadRecord(orcidId, modifiedDate, token, downloadedRecordsAcc);
 				};

 				lamdaFileRDD
 					.filter(isModifiedAfterFilter)
+					.filter(isNotDownloadedFilter)
 					.map(downloadRecordFunction)
 					.rdd()
 					.saveAsTextFile(workingPath.concat(outputAuthorsPath));
@ -101,9 +133,11 @@ public class SparkOrcidGenerateAuthors {
 		return modifiedDateDt.after(lastUpdateDt);
 	}

-	private static Tuple2<String, String> downloadRecord(String orcidId, String token) {
+	private static Tuple2<String, String> downloadRecord(String orcidId, String modifiedDate, String token,
+		LongAccumulator downloadedRecordsAcc) {
 		final DownloadedRecordData data = new DownloadedRecordData();
 		data.setOrcidId(orcidId);
+		data.setModifiedDate(modifiedDate);
 		try (CloseableHttpClient client = HttpClients.createDefault()) {
 			HttpGet httpGet = new HttpGet("https://api.orcid.org/v3.0/" + orcidId + "/record");
 			httpGet.addHeader("Accept", "application/vnd.orcid+xml");
@ -117,6 +151,7 @@ public class SparkOrcidGenerateAuthors {
 						"Downloading " + orcidId + " status code: " + response.getStatusLine().getStatusCode());
 				return data.toTuple2();
 			}
+			downloadedRecordsAcc.add(1);
 			data
 				.setCompressedData(
 					ArgumentApplicationParser.compressArgument(IOUtils.toString(response.getEntity().getContent())));
--- a/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/SparkPartitionLambdaFile.java
+++ b/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/SparkPartitionLambdaFile.java
@ -0,0 +1,50 @@
+
+package eu.dnetlib.doiboost.orcid;
+
+import static eu.dnetlib.dhp.common.SparkSessionSupport.runWithSparkSession;
+
+import java.io.IOException;
+import java.util.Optional;
+
+import org.apache.commons.io.IOUtils;
+import org.apache.spark.SparkConf;
+import org.apache.spark.api.java.JavaRDD;
+import org.apache.spark.api.java.JavaSparkContext;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
+import eu.dnetlib.dhp.application.ArgumentApplicationParser;
+
+public class SparkPartitionLambdaFile {
+
+	public static void main(String[] args) throws IOException, Exception {
+		Logger logger = LoggerFactory.getLogger(SparkOrcidGenerateAuthors.class);
+
+		final ArgumentApplicationParser parser = new ArgumentApplicationParser(
+			IOUtils
+				.toString(
+					SparkOrcidGenerateAuthors.class
+						.getResourceAsStream(
+							"/eu/dnetlib/dhp/doiboost/gen_orcid_authors_parameters.json")));
+		parser.parseArgument(args);
+		Boolean isSparkSessionManaged = Optional
+			.ofNullable(parser.get("isSparkSessionManaged"))
+			.map(Boolean::valueOf)
+			.orElse(Boolean.TRUE);
+		final String workingPath = parser.get("workingPath");
+
+		SparkConf conf = new SparkConf();
+		runWithSparkSession(
+			conf,
+			isSparkSessionManaged,
+			spark -> {
+				JavaSparkContext sc = JavaSparkContext.fromSparkContext(spark.sparkContext());
+				JavaRDD<String> lamdaFileRDD = sc.textFile(workingPath + "last_modified.csv");
+
+				lamdaFileRDD
+					.repartition(20)
+					.saveAsTextFile(workingPath.concat("lamdafiles"));
+			});
+	}
+
+}
--- a/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/model/DownloadedRecordData.java
+++ b/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/model/DownloadedRecordData.java
@ -12,6 +12,7 @@ import scala.Tuple2;
 public class DownloadedRecordData implements Serializable {

 	private String orcidId;
+	private String modifiedDate;
 	private String statusCode;
 	private String compressedData;
 	private String errorMessage;
@ -19,6 +20,7 @@ public class DownloadedRecordData implements Serializable {
 	public Tuple2<String, String> toTuple2() {
 		JsonObject data = new JsonObject();
 		data.addProperty("statusCode", getStatusCode());
+		data.addProperty("modifiedDate", getModifiedDate());
 		if (getCompressedData() != null) {
 			data.addProperty("compressedData", getCompressedData());
 		}
@ -45,7 +47,11 @@ public class DownloadedRecordData implements Serializable {
 	}

 	public int getStatusCode() {
-		return Integer.parseInt(statusCode);
+		try {
+			return Integer.parseInt(statusCode);
+		} catch (Exception e) {
+			return -2;
+		}
 	}

 	public void setStatusCode(int statusCode) {
@ -60,4 +66,11 @@ public class DownloadedRecordData implements Serializable {
 		this.compressedData = compressedData;
 	}

+	public String getModifiedDate() {
+		return modifiedDate;
+	}
+
+	public void setModifiedDate(String modifiedDate) {
+		this.modifiedDate = modifiedDate;
+	}
 }
--- a/dhp-workflows/dhp-doiboost/src/main/resources/eu/dnetlib/dhp/doiboost/orcid_gen_authors/oozie_app/workflow.xml
+++ b/dhp-workflows/dhp-doiboost/src/main/resources/eu/dnetlib/dhp/doiboost/orcid_gen_authors/oozie_app/workflow.xml
@ -37,14 +37,14 @@
        <error to="Kill"/>
    </action>
 	
-	<action name="Gen_Orcid_Authors">
+	<action name="Split_Lambda_File">
        <spark xmlns="uri:oozie:spark-action:0.2">
        	<job-tracker>${jobTracker}</job-tracker>
            <name-node>${nameNode}</name-node>
            <master>yarn</master>
            <mode>cluster</mode>
-            <name>Gen_Orcid_Authors</name>
-            <class>eu.dnetlib.doiboost.orcid.SparkOrcidGenerateAuthors</class>
+            <name>Split_Lambda_File</name>
+            <class>eu.dnetlib.doiboost.orcid.SparkPartitionLambdaFile</class>
            <jar>dhp-doiboost-1.2.1-SNAPSHOT.jar</jar>
            <spark-opts>--num-executors 24 --conf spark.yarn.jars=&quot;hdfs://hadoop-rm1.garr-pa1.d4science.org:8020/user/oozie/share/lib/lib_20180405103059/spark2&quot; --executor-memory=${sparkExecutorMemory} --executor-cores=${sparkExecutorCores} --driver-memory=${sparkDriverMemory}
            </spark-opts>
@ -56,5 +56,24 @@
        <error to="Kill"/>
    </action>
    
+	<action name="Gen_Orcid_Authors">
+        <spark xmlns="uri:oozie:spark-action:0.2">
+        	<job-tracker>${jobTracker}</job-tracker>
+            <name-node>${nameNode}</name-node>
+            <master>yarn</master>
+            <mode>cluster</mode>
+            <name>Gen_Orcid_Authors</name>
+            <class>eu.dnetlib.doiboost.orcid.SparkOrcidGenerateAuthors</class>
+            <jar>dhp-doiboost-1.2.1-SNAPSHOT.jar</jar>
+            <spark-opts>--num-executors 20 --conf spark.yarn.jars=&quot;hdfs://hadoop-rm1.garr-pa1.d4science.org:8020/user/oozie/share/lib/lib_20180405103059/spark2&quot; --executor-memory=${sparkExecutorMemory} --executor-cores=${sparkExecutorCores} --driver-memory=${sparkDriverMemory}
+            </spark-opts>
+            <arg>-w</arg><arg>${workingPath}/</arg>
+            <arg>-o</arg><arg>authors/</arg>
+            <arg>-t</arg><arg>${token}</arg>
+        </spark>
+        <ok to="End"/>
+        <error to="Kill"/>
+    </action>
+    
   <end name="End"/>
 </workflow-app>