removed unuseful accumulator

2022-07-31 01:03:29 +02:00 · 2022-07-31 01:03:29 +02:00 · 64311b8be4
parent 657b0208a2
commit 64311b8be4
3 changed files with 22 additions and 21 deletions
--- a/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/SparkDownloadOrcidWorks.java
+++ b/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/orcid/SparkDownloadOrcidWorks.java
@ -80,17 +80,10 @@ public class SparkDownloadOrcidWorks {
 				LongAccumulator parsedWorksAcc = spark.sparkContext().longAccumulator("parsed_works");
 				LongAccumulator modifiedWorksAcc = spark.sparkContext().longAccumulator("modified_works");
 				LongAccumulator errorCodeFoundAcc = spark.sparkContext().longAccumulator("error_code_found");
 				LongAccumulator errorLoadingJsonFoundAcc = spark
 					.sparkContext()
 					.longAccumulator("error_loading_json_found");
 				LongAccumulator errorLoadingXMLFoundAcc = spark
 					.sparkContext()
 					.longAccumulator("error_loading_xml_found");
 				LongAccumulator errorParsingXMLFoundAcc = spark
 					.sparkContext()
 					.longAccumulator("error_parsing_xml_found");
 				LongAccumulator downloadedRecordsAcc = spark.sparkContext().longAccumulator("downloaded_records");
 				LongAccumulator errorsAcc = spark.sparkContext().longAccumulator("errors");
 				JavaPairRDD<Text, Text> updatedAuthorsRDD = sc
 					.sequenceFile(workingPath + "downloads/updated_authors/*", Text.class, Text.class);
@ -107,11 +100,10 @@ public class SparkDownloadOrcidWorks {
 					if (statusCode.equals("200")) {
 						String compressedData = getJsonValue(jElement, "compressedData");
 						if (StringUtils.isEmpty(compressedData)) {
-							errorLoadingJsonFoundAcc.add(1);
+
 						} else {
 							String authorSummary = ArgumentApplicationParser.decompressValue(compressedData);
 							if (StringUtils.isEmpty(authorSummary)) {
 								errorLoadingXMLFoundAcc.add(1);
 							} else {
 								try {
 									workIdLastModifiedDate = XMLRecordParser
@ -184,7 +176,6 @@ public class SparkDownloadOrcidWorks {
 						} else {
 							downloaded.setStatusCode(-4);
 						}
 						errorsAcc.add(1);
 					}
 					long endReq = System.currentTimeMillis();
 					long reqTime = endReq - startReq;
@ -193,7 +184,6 @@ public class SparkDownloadOrcidWorks {
 					}
 					if (downloadCompleted) {
 						downloaded.setStatusCode(200);
 						downloadedRecordsAcc.add(1);
 						downloaded
 							.setCompressedData(
 								ArgumentApplicationParser
@ -214,9 +204,20 @@ public class SparkDownloadOrcidWorks {
 					String works = ArgumentApplicationParser.decompressValue(compressedData);
 					// split a single xml containing multiple works into multiple xml (a single work for each xml)
-					List<String> splittedWorks = XMLRecordParser
+					List<String> splittedWorks = null;
-						.splitWorks(orcidId, works.getBytes(StandardCharsets.UTF_8));
+					try {
-
+						splittedWorks = XMLRecordParser
 							.splitWorks(orcidId, works.getBytes(StandardCharsets.UTF_8));
 					} catch (Throwable t) {
 						final DownloadedRecordData errDownloaded = new DownloadedRecordData();
 						errDownloaded.setOrcidId(orcidId);
 						errDownloaded.setLastModifiedDate(lastModifiedDate);
 						errDownloaded.setStatusCode(-10);
 						errDownloaded.setErrorMessage(t.getMessage());
 						splittedDownloadedWorks.add(errDownloaded.toTuple2());
 						errorParsingXMLFoundAcc.add(1);
 						return splittedDownloadedWorks.iterator();
 					}
 					splittedWorks.forEach(w -> {
 						final DownloadedRecordData downloaded = new DownloadedRecordData();
 						downloaded.setOrcidId(orcidId);
@ -228,10 +229,12 @@ public class SparkDownloadOrcidWorks {
 								.setCompressedData(
 									ArgumentApplicationParser
 										.compressArgument(w));
-						} catch (IOException e) {
+						} catch (Throwable t) {
-							throw new RuntimeException(e);
+							downloaded.setStatusCode(-11);
 							downloaded.setErrorMessage(t.getMessage());
 						}
 						splittedDownloadedWorks.add(downloaded.toTuple2());
 						downloadedRecordsAcc.add(1);
 					});
 					return splittedDownloadedWorks.iterator();
@ -250,11 +253,8 @@ public class SparkDownloadOrcidWorks {
 				logger.info("parsedWorksAcc: {}", parsedWorksAcc.value());
 				logger.info("modifiedWorksAcc: {}", modifiedWorksAcc.value());
 				logger.info("errorCodeFoundAcc: {}", errorCodeFoundAcc.value());
 				logger.info("errorLoadingJsonFoundAcc: {}", errorLoadingJsonFoundAcc.value());
 				logger.info("errorLoadingXMLFoundAcc: {}", errorLoadingXMLFoundAcc.value());
 				logger.info("errorParsingXMLFoundAcc: {}", errorParsingXMLFoundAcc.value());
 				logger.info("downloadedRecordsAcc: {}", downloadedRecordsAcc.value());
 				logger.info("errorsAcc: {}", errorsAcc.value());
 			});
 	}
--- a/dhp-workflows/dhp-doiboost/src/main/resources/eu/dnetlib/dhp/doiboost/orcid_updates_download/oozie_app/workflow.xml
+++ b/dhp-workflows/dhp-doiboost/src/main/resources/eu/dnetlib/dhp/doiboost/orcid_updates_download/oozie_app/workflow.xml
@ -78,7 +78,7 @@
        </configuration>
    </global>
-    <start to="DownloadOrcidWorks"/>
+    <start to="ResetLambda"/>
    <kill name="Kill">
        <message>Action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
@ -190,7 +190,7 @@
            <arg>-o</arg><arg>downloads/updated_works</arg>
            <arg>-t</arg><arg>${token}</arg>
        </spark>
-        <ok to="End"/>
+        <ok to="ResetNewAuthors"/>
        <error to="Kill"/>
    </action>
--- a/dhp-workflows/dhp-doiboost/src/test/resources/log4j.properties
+++ b/dhp-workflows/dhp-doiboost/src/test/resources/log4j.properties
@ -7,5 +7,6 @@ log4j.appender.A1=org.apache.log4j.ConsoleAppender
 # A1 uses PatternLayout.
 log4j.logger.org = ERROR
 log4j.logger.eu.dnetlib = DEBUG
 log4j.logger.eu.dnetlib.doiboost.orcid = INFO
 log4j.appender.A1.layout=org.apache.log4j.PatternLayout
 log4j.appender.A1.layout.ConversionPattern=%-4r [%t] %-5p %c %x - %m%n