Auditoria GEO · Premsa en Català

Bots d'IA i CDN a
ara.cat i competidors

Anàlisi tècnica comparativa · Infraestructura + Política de rastreig

Data
Febrer 2026
Dominis analitzats
5 mitjans + 3cat.cat
Elaborat per
498AS / Zoopa GEO
5/6
Sense llms.txt
configurat
6/6
Sense directrius
IA al robots.txt
1
Únic amb
llms.txt vàlid
3
CDN
diferents
01 · Infraestructura CDN

Qui serveix el contingut i des d'on

Un CDN (Content Delivery Network) determina la velocitat de càrrega, la resiliència davant pics de trànsit i, en part, la capacitat de filtrar bots. Cap dels sis mitjans analitzats usa Akamai — domina Amazon CloudFront.

ara.cat
Amazon CloudFront
PoP: MAD56-P5 (Madrid)
Cache intern: CPC + TP layers
Headers: x-amz-cf-id
CloudFront
vilaweb.cat
CloudFront + Varnish
PoP: LHR50-P7 (Londres)
Cache propi: Varnish HIT
Server: VilaWeb
CloudFront
elnacional.cat
Cloudflare
cf-ray: FRA (Frankfurt)
Cache: HIT
Suite: Comitium BAB
Cloudflare
naciodigital.cat
Amazon CloudFront
PoP: LHR50-P2 (Londres)
Origen: Apache 2.4
Headers: x-amz-cf-id
CloudFront
elmon.cat
Fastly
PoP: MAD + FRA
Cache: HIT-CLUSTER
Age: 2190s
Fastly
3cat.cat
Infraestructura pròpia
CCMA (ens públic)
Sense CDN comercial
detectat
Propi
ℹ Observació CDN
Cap dels sis mitjans usa Akamai. La majoria opten per Amazon CloudFront. Cloudflare el fa servir El Nacional, que també té la capa de seguretat més avançada (bot management natiu). Elmon.cat és l'únic amb Fastly, que ofereix capacitats de filtratge de bots de tercera generació però que no té configurat cap filtre específic per a IA.
02 · robots.txt i Bots d'IA

Estat de les directives per a IA

Cap dels sis mitjans analitzats té directives específiques per als bots d'IA als seus arxius robots.txt. Tot el contingut editorial està accessible per a entrenament de models sense restricció ni atribució garantida.

Domini GPTBot ClaudeBot CCBot Perplexity Google-Extended Bytespider
ara.cat ● Lliure ● Lliure ● Lliure ● Lliure ● Lliure ● Lliure
vilaweb.cat ● Lliure ● Lliure ● Lliure ● Lliure ● Lliure ● Lliure
elnacional.cat ● Lliure ● Lliure ● Lliure ● Lliure ● Lliure ● Lliure
naciodigital.cat ● Lliure ● Lliure ● Lliure ● Lliure ● Lliure ● Lliure
elmon.cat ● Lliure ● Lliure ● Lliure ● Lliure ● Lliure ● Lliure
3cat.cat ● Lliure ● Lliure ● Lliure ● Lliure ● Lliure ● Lliure
⚠ Diagnòstic global
Cap dels sis mitjans en català ha implementat directives específiques per a bots d'IA. Tot el contingut editorial —notícies, anàlisis, cultura— és accessible per a entrenament de LLMs de qualsevol empresa, sense restriccions, sense atribució i sense compensació.

El robots.txt d'ara.cat conté exclusions d'URLs de gestió interna (comentaris, stats, botiga, perfils d'usuari) però cap referència als agents d'IA. Una estructura equivalent a la de la majoria de competidors.

# robots.txt actual — ara.cat (extracte)

User-agent: *
Disallow: /bb3comment/        # sistema de comentaris intern
Disallow: /bbtshop/           # botiga
Disallow: /bbtstats/          # estadístiques internes
Disallow: /usuari/            # àrea d'usuari
Disallow: /ediciodeldia/      # edició paper (bloqueig parcial)
Disallow: /cercador/          # cercador intern
# ... URLs específiques bloqueades (legals/polítics)

# ── Absolutament cap directriu per a bots d'IA ──
# GPTBot, ClaudeBot, CCBot, Bytespider... tots lliures
03 · llms.txt

L'estàndard emergent que separa els líders

llms.txt és un arxiu que permet declarar com volen els propietaris web que els models d'IA usin el seu contingut. És l'equivalent del robots.txt però dissenyat específicament per a l'era generativa.

Domini llms.txt Estat Qualitat
ara.cat ✗ 404 No trobat
vilaweb.cat ✗ 404 No trobat
elnacional.cat ✓ 200 Actiu i complet Excel·lent
naciodigital.cat → 301→404 Redirecció trencada
elmon.cat → 301→404 Redirecció trencada
3cat.cat ✗ 404 No trobat
🏆
Líder en GEO entre els mitjans catalans
El Nacional és l'únic amb llms.txt vàlid
Ha implementat un arxiu llms.txt complet amb descripció editorial, llicència (CC-BY-ND), seccions estructurades amb URLs, directrius d'ús (allow-crawl: true, allow-embedding: true) i un format que els LLMs poden llegir i interpretar correctament. Autors: Francesc Invernon & Jack Vargas.
# llms.txt d'elnacional.cat (extracte)

site: https://www.elnacional.cat/
languages: ca, es
organization: ElNacional.cat
description: Mitjà de comunicació digital independent...
content-license: cc-by-nd
allow-crawl: true
allow-embedding: true
preferred-format: html
contact: redaccio@elnacional.cat

section: política - https://www.elnacional.cat/ca/politica.html
section: economia - https://www.elnacional.cat/ca/economia.html
section: tecnologia - https://www.elnacional.cat/ca/tecnologia.html
# ... totes les seccions documentades
⚠ Trampa per a naciodigital i elmon
Tant naciodigital.cat com elmon.cat tenen una redirecció 301 configurada cap a /llms.txt però la pàgina de destinació retorna 404. Això indica que van iniciar la implementació però no la van completar. Els LLMs que segueixen la redirecció rebran un error en lloc de les instruccions.
04 · Proposta per a ara.cat

robots.txt i llms.txt recomanats

A continuació, els dos arxius que ara.cat hauria d'implementar per tenir una política d'IA moderna, protegir el contingut d'entrenament massiu i maximitzar la visibilitat en motors generatius.

# robots.txt proposat — ara.cat
# 498AS / Zoopa GEO · Febrer 2026

# ── Regles generals ─────────────────────────
User-agent: *
Disallow: /bbtshop/
Disallow: /bbtstats/
Disallow: /usuari/
Disallow: /cercador/
Disallow: /microsite/tests/

# ── Cerca generativa (permet) ─────────────
User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: GPTBot
Allow: /internacional/
Allow: /cultura/
Allow: /economia/
Disallow: /

# ── Entrenament pur (bloqueja) ──────────
User-agent: CCBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

Sitemap: https://www.ara.cat/sitemap.xml
# llms.txt proposat — ara.cat

site: https://www.ara.cat/
languages: ca, es
organization: Ara.cat
description: Diari independent de referència en llengua catalana.
            Cobertura d'actualitat, política, societat, cultura i
            esports des d'una perspectiva catalana i internacional.
founded: 2010
content-license: all-rights-reserved
allow-crawl: true
allow-training: false
allow-embedding: true
preferred-format: html
contact: info@ara.cat

section: portada     - https://www.ara.cat/
section: política    - https://www.ara.cat/politica/
section: societat    - https://www.ara.cat/societat/
section: cultura     - https://www.ara.cat/cultura/
section: esports     - https://www.ara.cat/esports/
section: economia    - https://www.ara.cat/economia/
section: llengua     - https://www.ara.cat/llengua/
section: ciència     - https://www.ara.cat/ciencia/
05 · Recomanacions

Pla d'acció per prioritat

🔴 Prioritat 1
Crear llms.txt per a ara.cat
El Nacional ja el té. Ara.cat, VilaWeb i 3cat.cat no. Ser el segon gran mitjà en implementar-lo té valor SEO i GEO real. Implementació estimada: 2 hores.
🔴 Prioritat 1
Actualitzar robots.txt amb directrius IA
Bloquejar bots d'entrenament pur (CCBot, ClaudeBot, Bytespider) i permetre selectivament els de cerca generativa (OAI-SearchBot, PerplexityBot). Cap competidor ho ha fet. Primera avantatge.
🟠 Prioritat 2
Corregir CDN per a filtratge de bots
CloudFront té capacitats de filtratge de bots via AWS WAF. Configurar regles específiques per als User-Agents d'IA complementaria les restriccions del robots.txt a nivell d'infraestructura.
🟠 Prioritat 2
Completar la implementació trencada (naciodigital / elmon)
Si s'ofereix servei de consultoria GEO a aquests dos mitjans, corregir la redirecció 301→404 del llms.txt és una guanya ràpida. Porta oberta per a una conversa comercial.
🟢 Prioritat 3
Auditar visibilitat GEO amb GEORADAR
Mesurar la presència actual d'ara.cat a ChatGPT, Perplexity i Gemini vs. El Nacional. Detectar quines temàtiques cita cada model i per a quins temes cal millorar la cobertura semàntica.
🟢 Prioritat 3
Schema markup per a NewsArticle
Implementar dades estructurades NewsArticle i BreadcrumbList completes. Ajuda als LLMs a identificar l'autor, la data i la font correctes quan citen articles d'ara.cat en les seves respostes.
06 · Resum executiu

Comparativa final

Domini CDN robots.txt IA llms.txt Maduresa GEO
ara.cat CloudFront Cap No Bàsica
vilaweb.cat CloudFront + Varnish Cap No Bàsica
elnacional.cat ★ Cloudflare Cap Sí ✓ Avançada
naciodigital.cat CloudFront Cap Error Incompleta
elmon.cat Fastly Cap Error Incompleta
3cat.cat Propi (CCMA) Cap No Bàsica
💡 Conclusió estratègica
El Nacional ha pres la delantera en GEO entre els mitjans en català amb un llms.txt funcional. La resta —incloent ara.cat, VilaWeb i 3cat.cat— parteixen del mateix punt zero. Qui actuï primer marcarà la diferència en com els LLMs citaran els mitjans catalans durant els propers anys. La finestra d'avantatge és ara.