ikuti Saluran WhatsApp Rumahdisolo.com. Klik WhatsApp

2.3 Technical SEO: Crawlability, Indexability, dan Site Health

Technical SEO adalah fondasi “mesin” dari website Anda. Sehebat apa pun konten dan backlink, tanpa fondasi teknis yang solid, Google bisa kesulitan menemukan (crawl), memahami (render & index), dan akhirnya menilai (rank) halaman Anda. Dalam bab ini kita akan membahas tiga pilar utama Technical SEO: crawlability, indexability, dan site health—lengkap, praktis, dan mudah dipraktikkan.


Gambaran Besar: Dari URL Ditemukan sampai Muncul di SERP

Sederhananya, alur kerja mesin pencari terhadap halaman Anda adalah:

1.Discovery – URL ditemukan lewat link internal/eksternal, sitemap, atau referensi lain.

2.Crawling – bot mengunjungi URL dan mengambil resource (HTML, CSS, JS, gambar).

3.Rendering – konten diproses (termasuk eksekusi JavaScript bila perlu).

4.Indexing – konten yang dipahami dan bernilai disimpan ke indeks.

5.Ranking – saat ada query, Google menilai relevansi + kualitas untuk menentukan urutan.

Tugas Technical SEO adalah memastikan tiap tahap berjalan mulus, efisien, dan bebas hambatan.


Bagian 1 — Crawlability: Memastikan Bot Dapat Menemukan & Mengakses Halaman

Crawlability adalah kemampuan bot mesin pencari untuk menemukan dan mengunjungi URL-URL Anda tanpa tersesat atau terhalang. Ibarat jalan raya, kita ingin rambu jelas, tidak ada jalan buntu yang sia-sia, dan tidak ada “lingkaran setan” yang menguras bensin (crawl budget).

1) Struktur Informasi & Internal Linking

  • Arsitektur situs bertingkat (silo/tema): Homepage → Kategori → Subkategori → Halaman detail.

  • Internal link kontekstual: Tautkan antarhalaman yang relevan; ini mempercepat penemuan URL baru dan menyalurkan otoritas.

  • Breadcrumbs: Memperjelas hierarki dan menyediakan jalur pulang.

  • Hindari orphan pages: Halaman yang tidak ditautkan dari mana pun sulit ditemukan bot dan pengguna.

Checklist ringkas:

  • [ ] Setiap halaman penting mendapat setidaknya 1 internal link.

  • [ ] Maksimalkan link dari halaman berotoritas (mis. halaman yang paling banyak dikunjungi) ke halaman prioritas.

  • [ ] Gunakan anchor text deskriptif, bukan “klik di sini”.

2) Robots.txt: Gerbang Masuk untuk Bot

File `robots.txt` memberi tahu bot bagian mana yang boleh/ tidak boleh di-crawl. Letaknya di `domain.com/robots.txt`.

Contoh dasar yang aman:

```

User-agent:

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Sitemap: https://example.com/sitemap.xml

```

Prinsip penting:

  • Disallowmencegah crawling (bukan indexing). Jika halaman sudah dikenal via link eksternal, bisa tetap terindeks tanpa konten.

  • Jangan block file CSS/JS penting. Bot perlu melihat tampilan sebenarnya untuk menilai UX/render.

  • Uji selalu: kesalahan satu baris bisa membuat seluruh situs tidak ter-crawl.

3) Sitemap XML: Peta Jalan untuk Bot

Sitemap mempercepat discovery, terutama untuk situs besar.

  • Pisahkan per tipe konten: `/sitemap-posts.xml`, `/sitemap-products.xml`, `/sitemap-categories.xml`.

  • Gunakan `` agar bot tahu mana yang terbaru.

  • Jaga kebersihan:hanya URL 200 (OK), kanonik, dan bukan noindex.

Contoh entri:

```xml

https://example.com/artikel/optimasi-on-page

2025-08-01

0.8

```

4) Status Kode HTTP & Akses Server

  • 200 OK: halaman normal.

  • 301/308: redirect permanen (bagus untuk konsolidasi URL).

  • 302/307: redirect sementara (gunakan hati-hati).

  • 404: halaman tidak ditemukan; perbaiki link internal yang mengarah ke sini.

  • 410: hilang permanen; bagus untuk membersihkan indeks.

  • 500/503: error server; tangani cepat (503 + `Retry-After` saat maintenance).

Hindari:

  • Redirect chain/loop:301 → 301 → 301 memperlambat crawl & hilangkan sinyal.

  • Soft 404: halaman 200 tapi isinya “tidak ditemukan”—membingungkan bot.

5) Parameter URL & Faceted Navigation

Filter (warna/ukuran/harga) bisa meledakkan jumlah URL dan menghabiskan crawl budget.

  • Atasi dengan:kanonikal ke versi “utama”, `noindex` untuk kombinasi tak bernilai, blokir via robots.txt hanya bila Anda yakin (ingat: Disallow ≠ noindex).

  • Tambahkan rel=“nofollow” pada link filter yang eksplosif (opsional & situasional).

  • Sediakan “view-all”bila masuk akal, atau paginasi yang jelas.

6) Infinite Scroll & JavaScript-Heavy

Bot harus bisa memuat konten tanpa interaksi manusia.

  • Berikan URL unik untuk setiap segmen (load-more/pagination) dan server-side rendering (SSR)/pre-render bila perlu.

  • Pastikan link internal ada di HTML awal atau dapat dirender tanpa event klik.

  • Jangan sembunyikan konten utama di balik aksi JavaScript yang bot tidak jalankan.


Bagian 2 — Indexability: Memastikan Halaman Relevan Bisa Masuk Indeks

Indexability adalah kemampuan halaman untuk disimpan di indeks mesin pencari. Ini soal sinyal yang Anda kirim: halaman mana yang boleh dan layak masuk indeks, juga cara Anda mengonsolidasikan duplikasi.

1) Meta Robots & X-Robots-Tag

  • ``: jangan indeks halaman ini, tapi tetap ikuti linknya.

  • X-Robots-Tag (header):berguna untuk file non-HTML (PDF, dll).

  • Gunakan noindex untuk: halaman filter, login, terima kasih, hasil pencarian internal, duplikasi yang tak punya nilai.

Catatan: `Disallow` di robots.txt tidak sama dengan `noindex`. Jika Anda ingin mengeluarkan dari indeks, gunakan `noindex`. Bila sudah terlanjur di-Disallow, bot tidak bisa melihat meta robots—sehingga halaman mungkin bertahan di indeks berdasarkan sinyal eksternal.

2) Canonical: Mengatasi Duplikasi & Konsolidasi Sinyal

`` memberi tahu mesin pencari versi mana yang dianggap utama.

Kasus umum:

  • HTTP vs HTTPS → kanonikal ke HTTPS.

  • Dengan/ tanpa slash, dengan/ tanpa `www`.

  • URL parameter (sort, filter) → kanonikal ke versi tanpa parameter.

  • Konten mirip (A/B testing, printer-friendly) → kanonikal ke versi utama.

Best practice:
  • Gunakanself-referential canonical di setiap halaman (kanonikal menunjuk dirinya sendiri) untuk memperjelas.

  • Pastikan kanonikal konsisten dengan internal link, sitemap, dan hreflang.

  • Ingat: canonical adalah sinyal, bukan perintah absolut. Konsistensi membantu Google mengikuti keinginan Anda.

3) Hreflang untuk Situs Multibahasa/Multinegara

`hreflang` memberi tahu versi bahasa/negara dari suatu halaman.

  • Format contoh: `link rel="alternate" hreflang="id" href="https://example.com/id/produk/"`

  • Sertakan return tags (saling menunjuk).

  • Sediakan `x-default` untuk fallback global.

Kekeliruan umum: hreflang menunjuk URL yang noindex/non-kanonik—membingungkan dan sering diabaikan.

4) Konten Tipis & Konten Gandakan

  • Thin content(100–200 kata tanpa nilai) jarang masuk indeks kuat. Padatkan nilai, bukan sekadar menambah kata.

  • Duplicate contentinternal (variasi URL, parameter, cetak) → kanonikal/ noindex.

  • Syndicated content (dipublikasikan di situs lain) → pastikan versi Anda kanonik atau dapatkan atribut rel=canonical dari mitra jika memungkinkan.

5) Rendering: Pastikan Bot Melihat Apa yang Dilihat Pengguna

  • Pastikan resource penting tidak diblokir: CSS, JS, gambar.

  • SSR/Hybrid renderinguntuk aplikasi JS berat.

  • Hindari penggantian meta robots via JS setelah load; gunakan nilai yang benar di HTML awal.

6) Paginasi yang Sehat

Meskipun rel `prev/next` tidak lagi menjadi sinyal khusus, paginasi teknis tetap penting:

  • Gunakan URL yang konsisten untuk halaman 2, 3, dst (`?page=2`).

  • Self-canonical setiap halaman paginasi.

  • Tautkan antarhalaman (next/previous) agar bot bisa menelusuri keseluruhan seri.

  • Jika ada halaman “view-all” yang cepat dan ramah pengguna, pertimbangkan sebagai kanonikal.


Bagian 3 — Site Health: Menjaga Kesehatan Teknis Situs Secara Berkelanjutan

Site health mencakup semua indikator teknis yang memengaruhi kemampuan crawl/index serta pengalaman pengguna. Ini bukan sekali beres; perlu monitoring berkelanjutan.

1) Kecepatan, Stabilitas, dan Aset

  • Caching & kompresi (GZIP/Brotli).

  • Optimasi gambar (format modern seperti WebP, dimensi sesuai tampilan).

  • Minify CSS/JS, bundling strategis, muat script defer/async.

  • Hindari render-blocking yang tidak perlu.

  • Eksternal resource (font, script pihak ketiga) → audit dan kurangi.

> Meski metrik Core Web Vitals dibahas di bab 2.5, secara teknis, upaya di atas adalah pilar performa yang juga memengaruhi crawl dan render.

2) Keamanan & Keandalan

  • HTTPS di seluruh situs + redirect 301 dari HTTP.

  • HSTS untuk memaksa HTTPS.

  • Header keamanan(Content-Security-Policy, X-Content-Type-Options, dll.).

  • Sesi & parameter sensitif jangan ikut URL publik (hindari duplikasi dan kebocoran).

3) Data Terstruktur (Structured Data)

  • Gunakan schema.org yang sesuai: `Article`, `Product`, `FAQ`, `HowTo`, `BreadcrumbList`, `Organization`.

  • Validasi(pastikan tanpa error/ warning kritis).

  • Konsisten dengan konten yang terlihat; jangan markup hal yang tidak ada.

4) Kualitas Teknis Konten

  • Judul unik (title) & H1 informatif tiap halaman.

  • Deskripsi meta menarik (untuk CTR), meski bukan faktor ranking langsung.

  • URL rapi & konsisten (lowercase, pisah kata dengan `-`, tanpa karakter aneh).

  • Breadcrumbs untuk konteks.

  • Alt text deskriptif untuk gambar penting.

5) Kebersihan Indeks & Logika Penayangan

  • Hindari soft-duplicate (tag/kategori berlebihan yang mirip isi).

  • Noindex untuk hasil pencarian internal, filter berulang, dan halaman utilitas.

  • Konsistensi canonical–sitemap–internal link:semua menunjuk URL yang sama sebagai versi utama.

  • Tangani halaman usang dengan bijak:jika tidak relevan, 410; jika pindah, 301.

6) Log File Analysis (Opsional tapi Powerful)

Analisis log server menunjukkan bot mana yang datang, ke URL mana, seberapa sering, dan responnya.

  • Temukan bagian situs yang boros crawl (mis. kalender tanpa akhir).

  • Deteksi error 5xx/4xx yang sering ditemui bot.

  • Prioritaskan link internal ke halaman penting yang jarang di-crawl.


Rencana Audit Technical SEO Langkah demi Langkah

Gunakan checklist ini sebagai playbook praktis.

Langkah 0 — Penyiapan & Baseline

  • [ ] Pastikan akses ke Search Console & analitik.

  • [ ] Catat peta situs, CMS, dan stack teknologi (server, CDN, framework).

  • [ ] Ambil baseline: jumlah halaman terindeks, CTR rata-rata, error coverage, crawl stats.

  • Langkah 1 — Crawl Website Anda

    • [ ] Jalankan crawler (mode desktop + mobile).

    • [ ] Pindai status kode, judul, H1, meta, kanonikal, robots meta, link internal.

    • [ ] Catat 404, 5xx, redirect chain, parameter meledak, orphan pages.

    Langkah 2 — Robots & Sitemap

    • [ ] Audit `robots.txt` (jangan blok resource penting).

    • [ ] Review sitemap: hanya URL 200, kanonik, bukan noindex/disallow.

    • [ ] Pastikan sitemap terdaftar di Search Console.

    Langkah 3 — Canonical & Duplikasi

    • [ ] Self-canonical di tiap halaman.

    • [ ] Konsolidasi HTTP→HTTPS, `www`→non-`www` (pilih satu).

    • [ ] Tangani parameter: kanonikal/noindex, dan kurangi proliferasi link.

    Langkah 4 — Indexability & Prioritas

    • [ ] Tandai halaman yang harus diindeks vs tidak (noindex).

    • [ ] Hapus URL usang dari sitemap; gunakan 410/301 sesuai kasus.

    • [ ] Perkuat internal link menuju halaman target ranking.

    Langkah 5 — Rendering & Aset

    • [ ] Uji render: apakah konten utama terlihat di HTML awal?

    • [ ] Pastikan CSS/JS tidak diblokir; gunakan SSR/prerender bila perlu.

    • [ ] Kurangi script pihak ketiga yang berat.

    Langkah 6 — Structured Data & UX Teknis

    • [ ] Tambahkan schema yang relevan; validasi.

    • [ ] Pastikan breadcrumbs, alt text, dan URL bersih.

    • [ ] Cek responsif & performa dasar (kompresi, caching, gambar).

    Langkah 7 — Monitoring & Alerting

    • [ ] Pantau Search Console: Coverage, Page Indexing, Crawl Stats, Manual Actions, Security.

    • [ ] Pasang alert untuk lonjakan 5xx, penurunan halaman terindeks, atau CTR anjlok.

    • [ ] Audit ringan bulanan; audit penuh kuartalan.


    • Studi Kasus Ilustratif: E-Commerce dengan Faceted Navigation

      Masalah:

      Situs e-commerce menurun indexing rate. Ribuan URL filter (warna/ukuran/harga) terbentuk, memicu crawl budget boros. Banyak halaman thin/duplikat masuk sitemap.

      Solusi teknis:

      1.Kanonikal ke halaman kategori utama untuk kombinasi filter.

      2. Tambahkan `noindex, follow`pada URL filter spesifik yang tak membawa pencarian unik.

      3.Bersihkan sitemap: hanya kategori & produk utama.

      4.Internal link menguatkan jalur menuju kategori top dan produk best-seller.

      5. Kurangi parameter di navigasi (gunakan POST/JS non-link untuk filter eksplosif bila relevan).

      6. Pasang “view-all”untuk kategori kecil agar lebih ringkas.

      Hasil:

      Crawl stats lebih efisien, halaman terindeks turun (lebih bersih) namun trafik organik ke kategori/produsen utama naik signifikan karena sinyal terkonsolidasi.


      Do & Don’t Teknis yang Sering Terlupa

        Do:
      • Gunakan satu versi kanonik domain (pilih `https://example.com` atau `https://www.example.com`).

      • Terapkan redirect 301 konsisten dari varian yang tidak dipakai.

      • Self-canonical + internal link konsisten + sitemap bersih = trio emas konsolidasi.

      • Uji staging(noindex, block by IP) agar tidak bocor ke indeks.

      Don’t:
      • Menggunakan `Disallow` untuk “menghapus dari indeks” (pakai noindex).

      • Membuatredirect chain panjang; rapikan jadi 1 hop.

      • Memblokir wp-content/themes/ atau /assets/ yang berisi CSS/JS penting.

      • Mengandalkan JS untuk menyuntik title/H1/meta penting yang tak ada di HTML awal.


      Tanya-Jawab Teknis Singkat

      Q: Lebih baik noindex atau Disallow untuk halaman filter?

      A: Noindex jika halaman sudah bisa diakses dan Anda ingin keluarkan dari indeks, tapi tetap biarkan bot mengikuti linknya (follow). Gunakan Disallow bila Anda benar-benar inginmenghindari crawling (hati-hati: meta robots tidak terbaca pada halaman yang di-Disallow).

      Q: Kapan pakai 404 vs 410?

      A: 404cukup untuk “tidak ditemukan”.410 memberi sinyal “permanen hilang”—pembersihan indeks bisa lebih cepat.

      Q: Apakah canonical selalu diikuti?

      A:Tidak 100%. Canonical adalah sinyal. Pastikan konsisten(internal link, sitemap, hreflang, konten) untuk memperkuatnya.

      Q: Perlu schema di semua halaman?

      A: Prioritaskan halaman yang bisa memicu rich result (Product, FAQ, HowTo, Article, Breadcrumb). Fokus pada akurasi & relevansi.


      Ringkasan Eksekutif: Prioritas 30 Hari

      Minggu 1: Fondasi Crawl & Index

      • Audit `robots.txt`, sitemap, status kode.

      • Konsolidasi domain (HTTPS, non-www vs www).

      • Pasang self-canonical, perbaiki redirect.

      Minggu 2: Bersih-bersih Indeks

      • Tandai noindex untuk utilitas & filter.

      • Rapikan sitemap ke URL kanonik 200 OK.

      • Perbaiki 404 internal & hapus soft-404.

      Minggu 3: Rendering & Struktur

      • Uji render mobile; pastikan konten utama terlihat di HTML awal.

      • Pastikan CSS/JS tidak diblokir.

      • Perkuat internal linking & breadcrumbs.

      Minggu 4: Skema & Monitoring

      • Tambahkan schema relevan + validasi.

      • Setup alert (5xx, coverage drop, CTR drop).

      • Dokumentasikan SOP teknis untuk tim dev & konten.


      Penutup: Technical SEO Adalah Disiplin “Kebersihan & Kejelasan”

      Crawlability memastikan botbisa masuk. Indexability memastikan halaman pentingdipertimbangkan. Site health memastikan semuanyatetap sehat dari waktu ke waktu. Technical SEO bukan trik rahasia; ia adalah kebersihan, kejelasan, dan konsistensi. Saat mesin (teknis) berjalan mulus, strategi konten dan off-page Anda akan memiliki pondasi yang kokoh untuk menang di SERP.

    Siswi SMK Muhammadiyah 1 sukoharjo yang cerdas, Bersemangat, dan Berintegritas. Profil Lengkap saya