Qui serveix el contingut i des d'on
Un CDN (Content Delivery Network) determina la velocitat de càrrega, la resiliència davant pics de trànsit i, en part, la capacitat de filtrar bots. Cap dels sis mitjans analitzats usa Akamai — domina Amazon CloudFront.
Cache intern: CPC + TP layers
Headers: x-amz-cf-id
Cache propi: Varnish HIT
Server: VilaWeb
Cache: HIT
Suite: Comitium BAB
Origen: Apache 2.4
Headers: x-amz-cf-id
Cache: HIT-CLUSTER
Age: 2190s
Sense CDN comercial
detectat
Estat de les directives per a IA
Cap dels sis mitjans analitzats té directives específiques per als bots d'IA als seus arxius robots.txt. Tot el contingut editorial està accessible per a entrenament de models sense restricció ni atribució garantida.
| Domini | GPTBot | ClaudeBot | CCBot | Perplexity | Google-Extended | Bytespider |
|---|---|---|---|---|---|---|
| ara.cat | ● Lliure | ● Lliure | ● Lliure | ● Lliure | ● Lliure | ● Lliure |
| vilaweb.cat | ● Lliure | ● Lliure | ● Lliure | ● Lliure | ● Lliure | ● Lliure |
| elnacional.cat | ● Lliure | ● Lliure | ● Lliure | ● Lliure | ● Lliure | ● Lliure |
| naciodigital.cat | ● Lliure | ● Lliure | ● Lliure | ● Lliure | ● Lliure | ● Lliure |
| elmon.cat | ● Lliure | ● Lliure | ● Lliure | ● Lliure | ● Lliure | ● Lliure |
| 3cat.cat | ● Lliure | ● Lliure | ● Lliure | ● Lliure | ● Lliure | ● Lliure |
El robots.txt d'ara.cat conté exclusions d'URLs de gestió interna (comentaris, stats, botiga, perfils d'usuari) però cap referència als agents d'IA. Una estructura equivalent a la de la majoria de competidors.
# robots.txt actual — ara.cat (extracte) User-agent: * Disallow: /bb3comment/ # sistema de comentaris intern Disallow: /bbtshop/ # botiga Disallow: /bbtstats/ # estadístiques internes Disallow: /usuari/ # àrea d'usuari Disallow: /ediciodeldia/ # edició paper (bloqueig parcial) Disallow: /cercador/ # cercador intern # ... URLs específiques bloqueades (legals/polítics) # ── Absolutament cap directriu per a bots d'IA ── # GPTBot, ClaudeBot, CCBot, Bytespider... tots lliures
L'estàndard emergent que separa els líders
llms.txt és un arxiu que permet declarar com volen els propietaris web que els models d'IA usin el seu contingut. És l'equivalent del robots.txt però dissenyat específicament per a l'era generativa.
| Domini | llms.txt | Estat | Qualitat |
|---|---|---|---|
| ara.cat | ✗ 404 | No trobat | — |
| vilaweb.cat | ✗ 404 | No trobat | — |
| elnacional.cat | ✓ 200 | Actiu i complet | Excel·lent |
| naciodigital.cat | → 301→404 | Redirecció trencada | — |
| elmon.cat | → 301→404 | Redirecció trencada | — |
| 3cat.cat | ✗ 404 | No trobat | — |
# llms.txt d'elnacional.cat (extracte) site: https://www.elnacional.cat/ languages: ca, es organization: ElNacional.cat description: Mitjà de comunicació digital independent... content-license: cc-by-nd allow-crawl: true allow-embedding: true preferred-format: html contact: redaccio@elnacional.cat section: política - https://www.elnacional.cat/ca/politica.html section: economia - https://www.elnacional.cat/ca/economia.html section: tecnologia - https://www.elnacional.cat/ca/tecnologia.html # ... totes les seccions documentades
robots.txt i llms.txt recomanats
A continuació, els dos arxius que ara.cat hauria d'implementar per tenir una política d'IA moderna, protegir el contingut d'entrenament massiu i maximitzar la visibilitat en motors generatius.
# robots.txt proposat — ara.cat # 498AS / Zoopa GEO · Febrer 2026 # ── Regles generals ───────────────────────── User-agent: * Disallow: /bbtshop/ Disallow: /bbtstats/ Disallow: /usuari/ Disallow: /cercador/ Disallow: /microsite/tests/ # ── Cerca generativa (permet) ───────────── User-agent: OAI-SearchBot Allow: / User-agent: PerplexityBot Allow: / User-agent: GPTBot Allow: /internacional/ Allow: /cultura/ Allow: /economia/ Disallow: / # ── Entrenament pur (bloqueja) ────────── User-agent: CCBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: anthropic-ai Disallow: / User-agent: Google-Extended Disallow: / User-agent: Bytespider Disallow: / User-agent: Meta-ExternalAgent Disallow: / Sitemap: https://www.ara.cat/sitemap.xml
# llms.txt proposat — ara.cat site: https://www.ara.cat/ languages: ca, es organization: Ara.cat description: Diari independent de referència en llengua catalana. Cobertura d'actualitat, política, societat, cultura i esports des d'una perspectiva catalana i internacional. founded: 2010 content-license: all-rights-reserved allow-crawl: true allow-training: false allow-embedding: true preferred-format: html contact: info@ara.cat section: portada - https://www.ara.cat/ section: política - https://www.ara.cat/politica/ section: societat - https://www.ara.cat/societat/ section: cultura - https://www.ara.cat/cultura/ section: esports - https://www.ara.cat/esports/ section: economia - https://www.ara.cat/economia/ section: llengua - https://www.ara.cat/llengua/ section: ciència - https://www.ara.cat/ciencia/
Pla d'acció per prioritat
Comparativa final
| Domini | CDN | robots.txt IA | llms.txt | Maduresa GEO |
|---|---|---|---|---|
| ara.cat | CloudFront | Cap | No | Bàsica |
| vilaweb.cat | CloudFront + Varnish | Cap | No | Bàsica |
| elnacional.cat ★ | Cloudflare | Cap | Sí ✓ | Avançada |
| naciodigital.cat | CloudFront | Cap | Error | Incompleta |
| elmon.cat | Fastly | Cap | Error | Incompleta |
| 3cat.cat | Propi (CCMA) | Cap | No | Bàsica |