initial stage

2024-06-06 19:48:13 +02:00 · 2024-06-06 19:48:13 +02:00 · 94b4add8cd
parent 1bc94cd835
commit 94b4add8cd
1 changed files with 101 additions and 0 deletions
--- a/airflow/dags/OpenDataPortal_harvest.py
+++ b/airflow/dags/OpenDataPortal_harvest.py
@ -0,0 +1,101 @@
 import os
 from datetime import timedelta
 import pendulum
 import requests
 from airflow.decorators import dag
 from airflow.decorators import task
 from airflow.hooks.base import BaseHook
 from opensearchpy import OpenSearch, helpers
 S3_CONN_ID = os.getenv("S3_CONN_ID", "s3_conn")
 EXECUTION_TIMEOUT = int(os.getenv("EXECUTION_TIMEOUT", 6))
 default_args = {
    "execution_timeout": timedelta(hours=EXECUTION_TIMEOUT),
    "retries": int(os.getenv("DEFAULT_TASK_RETRIES", 1)),
    "retry_delay": timedelta(seconds=int(os.getenv("DEFAULT_RETRY_DELAY_SECONDS", 60))),
 }
@dag(
    dag_display_name="Open Data Portal harvest",
    start_date=pendulum.datetime(2021, 1, 1, tz="UTC"),
    schedule=None,
    catchup=False,
    default_args=default_args,
    params={
        "S3_CONN_ID": "s3_conn",
        "OPENSEARCH_CONN_ID": "opensearch_default",
        "OS_INDEX_NAME": "euodp_raw"
    },
    tags=["aggregation"],
 )
 def harvest():
    @task
    def everything(**context):
        indexName = context["params"]["OS_INDEX_NAME"]
        conn = BaseHook.get_connection(context["params"]["OPENSEARCH_CONN_ID"])
        client = OpenSearch(
            hosts=[{'host': conn.host, 'port': conn.port}],
            http_auth=(conn.login, conn.password),
            use_ssl=True,
            verify_certs=False,
            ssl_show_warn=False,
            pool_maxsize=20
        )
        if not client.indices.exists(indexName):
            client.indices.create(indexName, {
                "settings": {
                    "index": {
                        "number_of_shards": 3,
                        "number_of_replicas": 0,
                        "codec": "zstd_no_dict",
                        "replication.type": "SEGMENT"
                    },
                },
                "mappings": {
                    "dynamic": False
                }
            })
            def store_results(hits):
                def _generate_data():
                    for r in hits:
                        r['_index'] = indexName
                        r['_id'] = r['id']
                        yield r
                succeeded = 0
                failed = 0
                for success, item in helpers.parallel_bulk(client, actions=_generate_data(),
                                                           raise_on_exception=False,
                                                           raise_on_error=False,
                                                           chunk_size=5000,
                                                           max_chunk_bytes=50 * 1024 * 1024,
                                                           timeout=180):
                    if success:
                        succeeded = succeeded + 1
                    else:
                        print(item["index"]["error"])
                        failed = failed + 1
            headers = {'Accept': 'application/json'}
            r = requests.get('https://data.europa.eu/api/hub/search/search?filter=dataset&aggregation=false&limit=500&showScore=true&scroll=true', headers=headers).json()
            scroll_id = r['result']['scrollId']
            results = r['result']['results']
            store_results(results)
            while scroll_id:
                r = requests.get('https://data.europa.eu/api/hub/search/scroll?scrollId=' + scroll_id, headers=headers).json()
                scroll_id = r['result']['scrollId']
                results = r['result']['results']
                store_results(results)
    everything()
 harvest()