Fix selection of columns in graph creation

2023-05-16 17:34:42 +03:00 · 2023-05-16 17:34:42 +03:00 · 3d69f33c84
parent 3c38f7ba6f
commit 3d69f33c84
1 changed files with 2 additions and 0 deletions
--- a/dhp-workflows/dhp-impact-indicators/src/main/resources/eu/dnetlib/dhp/oa/graph/impact_indicators/oozie_app/create_openaire_ranking_graph.py
+++ b/dhp-workflows/dhp-impact-indicators/src/main/resources/eu/dnetlib/dhp/oa/graph/impact_indicators/oozie_app/create_openaire_ranking_graph.py
@ -131,8 +131,10 @@ cites_df  = spark.read.json(graph_folder + "/relation")\
 				& (F.col('dataInfo.deletedbyinference') == "false")\
                & (F.col('dataInfo.invisible') == "false"))\
 				.drop('dataInfo.deletedbyinference').drop('dataInfo.invisible')\
+				.drop('deletedbyinference').drop('invisible')\
 				.repartition(num_partitions, 'citing').drop('relClass')\
 				.withColumn('collected_lower', F.expr('transform(value, x -> lower(x))'))\
+				.drop('collectedfrom.value')\
 				.drop('value')\
 				.where(
 					(F.array_contains(F.col('collected_lower'), "opencitations"))