2.3 Technical SEO: Crawlability, Indexability, dan Site Health

Technical SEO adalah fondasi “mesin” dari website Anda. Sehebat apa pun konten dan backlink, tanpa fondasi teknis yang solid, Google bisa kesulitan menemukan (crawl), memahami (render & index), dan akhirnya menilai (rank) halaman Anda. Dalam bab ini kita akan membahas tiga pilar utama Technical SEO: crawlability, indexability, dan site health—lengkap, praktis, dan mudah dipraktikkan.

Gambaran Besar: Dari URL Ditemukan sampai Muncul di SERP

Sederhananya, alur kerja mesin pencari terhadap halaman Anda adalah:

1.Discovery – URL ditemukan lewat link internal/eksternal, sitemap, atau referensi lain.

2.Crawling – bot mengunjungi URL dan mengambil resource (HTML, CSS, JS, gambar).

3.Rendering – konten diproses (termasuk eksekusi JavaScript bila perlu).

4.Indexing – konten yang dipahami dan bernilai disimpan ke indeks.

5.Ranking – saat ada query, Google menilai relevansi + kualitas untuk menentukan urutan.

Tugas Technical SEO adalah memastikan tiap tahap berjalan mulus, efisien, dan bebas hambatan.

Bagian 1 — Crawlability: Memastikan Bot Dapat Menemukan & Mengakses Halaman

Crawlability adalah kemampuan bot mesin pencari untuk menemukan dan mengunjungi URL-URL Anda tanpa tersesat atau terhalang. Ibarat jalan raya, kita ingin rambu jelas, tidak ada jalan buntu yang sia-sia, dan tidak ada “lingkaran setan” yang menguras bensin (crawl budget).

1) Struktur Informasi & Internal Linking

Arsitektur situs bertingkat (silo/tema): Homepage → Kategori → Subkategori → Halaman detail.
Internal link kontekstual: Tautkan antarhalaman yang relevan; ini mempercepat penemuan URL baru dan menyalurkan otoritas.
Breadcrumbs: Memperjelas hierarki dan menyediakan jalur pulang.
Hindari orphan pages: Halaman yang tidak ditautkan dari mana pun sulit ditemukan bot dan pengguna.

Checklist ringkas:

[ ] Setiap halaman penting mendapat setidaknya 1 internal link.
[ ] Maksimalkan link dari halaman berotoritas (mis. halaman yang paling banyak dikunjungi) ke halaman prioritas.
[ ] Gunakan anchor text deskriptif, bukan “klik di sini”.

2) Robots.txt: Gerbang Masuk untuk Bot

File `robots.txt` memberi tahu bot bagian mana yang boleh/ tidak boleh di-crawl. Letaknya di `domain.com/robots.txt`.

Contoh dasar yang aman:

```

User-agent:

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Sitemap: https://example.com/sitemap.xml

```

Prinsip penting:

Disallowmencegah crawling (bukan indexing). Jika halaman sudah dikenal via link eksternal, bisa tetap terindeks tanpa konten.
Jangan block file CSS/JS penting. Bot perlu melihat tampilan sebenarnya untuk menilai UX/render.
Uji selalu: kesalahan satu baris bisa membuat seluruh situs tidak ter-crawl.

3) Sitemap XML: Peta Jalan untuk Bot

Sitemap mempercepat discovery, terutama untuk situs besar.

Pisahkan per tipe konten: `/sitemap-posts.xml`, `/sitemap-products.xml`, `/sitemap-categories.xml`.
Gunakan `` agar bot tahu mana yang terbaru.
Jaga kebersihan:hanya URL 200 (OK), kanonik, dan bukan noindex.

Contoh entri:

```xml

https://example.com/artikel/optimasi-on-page

2025-08-01

0.8

```

4) Status Kode HTTP & Akses Server

200 OK: halaman normal.
301/308: redirect permanen (bagus untuk konsolidasi URL).
302/307: redirect sementara (gunakan hati-hati).
404: halaman tidak ditemukan; perbaiki link internal yang mengarah ke sini.
410: hilang permanen; bagus untuk membersihkan indeks.
500/503: error server; tangani cepat (503 + `Retry-After` saat maintenance).

Hindari:

Redirect chain/loop:301 → 301 → 301 memperlambat crawl & hilangkan sinyal.
Soft 404: halaman 200 tapi isinya “tidak ditemukan”—membingungkan bot.

5) Parameter URL & Faceted Navigation

Filter (warna/ukuran/harga) bisa meledakkan jumlah URL dan menghabiskan crawl budget.

Atasi dengan:kanonikal ke versi “utama”, `noindex` untuk kombinasi tak bernilai, blokir via robots.txt hanya bila Anda yakin (ingat: Disallow ≠ noindex).
Tambahkan rel=“nofollow” pada link filter yang eksplosif (opsional & situasional).
Sediakan “view-all”bila masuk akal, atau paginasi yang jelas.

6) Infinite Scroll & JavaScript-Heavy

Bot harus bisa memuat konten tanpa interaksi manusia.

Berikan URL unik untuk setiap segmen (load-more/pagination) dan server-side rendering (SSR)/pre-render bila perlu.
Pastikan link internal ada di HTML awal atau dapat dirender tanpa event klik.
Jangan sembunyikan konten utama di balik aksi JavaScript yang bot tidak jalankan.

Bagian 2 — Indexability: Memastikan Halaman Relevan Bisa Masuk Indeks

Indexability adalah kemampuan halaman untuk disimpan di indeks mesin pencari. Ini soal sinyal yang Anda kirim: halaman mana yang boleh dan layak masuk indeks, juga cara Anda mengonsolidasikan duplikasi.

1) Meta Robots & X-Robots-Tag

``: jangan indeks halaman ini, tapi tetap ikuti linknya.
X-Robots-Tag (header):berguna untuk file non-HTML (PDF, dll).
Gunakan noindex untuk: halaman filter, login, terima kasih, hasil pencarian internal, duplikasi yang tak punya nilai.

Catatan: `Disallow` di robots.txt tidak sama dengan `noindex`. Jika Anda ingin mengeluarkan dari indeks, gunakan `noindex`. Bila sudah terlanjur di-Disallow, bot tidak bisa melihat meta robots—sehingga halaman mungkin bertahan di indeks berdasarkan sinyal eksternal.

2) Canonical: Mengatasi Duplikasi & Konsolidasi Sinyal

`` memberi tahu mesin pencari versi mana yang dianggap utama.

Kasus umum:

HTTP vs HTTPS → kanonikal ke HTTPS.
Dengan/ tanpa slash, dengan/ tanpa `www`.
URL parameter (sort, filter) → kanonikal ke versi tanpa parameter.
Konten mirip (A/B testing, printer-friendly) → kanonikal ke versi utama.

Best practice:

Gunakanself-referential canonical di setiap halaman (kanonikal menunjuk dirinya sendiri) untuk memperjelas.
Pastikan kanonikal konsisten dengan internal link, sitemap, dan hreflang.
Ingat: canonical adalah sinyal, bukan perintah absolut. Konsistensi membantu Google mengikuti keinginan Anda.

3) Hreflang untuk Situs Multibahasa/Multinegara

`hreflang` memberi tahu versi bahasa/negara dari suatu halaman.

Format contoh: `link rel="alternate" hreflang="id" href="https://example.com/id/produk/"`
Sertakan return tags (saling menunjuk).
Sediakan `x-default` untuk fallback global.

Kekeliruan umum: hreflang menunjuk URL yang noindex/non-kanonik—membingungkan dan sering diabaikan.

4) Konten Tipis & Konten Gandakan

Thin content(100–200 kata tanpa nilai) jarang masuk indeks kuat. Padatkan nilai, bukan sekadar menambah kata.
Duplicate contentinternal (variasi URL, parameter, cetak) → kanonikal/ noindex.
Syndicated content (dipublikasikan di situs lain) → pastikan versi Anda kanonik atau dapatkan atribut rel=canonical dari mitra jika memungkinkan.

5) Rendering: Pastikan Bot Melihat Apa yang Dilihat Pengguna

Pastikan resource penting tidak diblokir: CSS, JS, gambar.
SSR/Hybrid renderinguntuk aplikasi JS berat.
Hindari penggantian meta robots via JS setelah load; gunakan nilai yang benar di HTML awal.

6) Paginasi yang Sehat

Meskipun rel `prev/next` tidak lagi menjadi sinyal khusus, paginasi teknis tetap penting:

Gunakan URL yang konsisten untuk halaman 2, 3, dst (`?page=2`).
Self-canonical setiap halaman paginasi.
Tautkan antarhalaman (next/previous) agar bot bisa menelusuri keseluruhan seri.
Jika ada halaman “view-all” yang cepat dan ramah pengguna, pertimbangkan sebagai kanonikal.

Bagian 3 — Site Health: Menjaga Kesehatan Teknis Situs Secara Berkelanjutan

Site health mencakup semua indikator teknis yang memengaruhi kemampuan crawl/index serta pengalaman pengguna. Ini bukan sekali beres; perlu monitoring berkelanjutan.

1) Kecepatan, Stabilitas, dan Aset

Caching & kompresi (GZIP/Brotli).
Optimasi gambar (format modern seperti WebP, dimensi sesuai tampilan).
Minify CSS/JS, bundling strategis, muat script defer/async.
Hindari render-blocking yang tidak perlu.
Eksternal resource (font, script pihak ketiga) → audit dan kurangi.

> Meski metrik Core Web Vitals dibahas di bab 2.5, secara teknis, upaya di atas adalah pilar performa yang juga memengaruhi crawl dan render.

2) Keamanan & Keandalan

HTTPS di seluruh situs + redirect 301 dari HTTP.
HSTS untuk memaksa HTTPS.
Header keamanan(Content-Security-Policy, X-Content-Type-Options, dll.).
Sesi & parameter sensitif jangan ikut URL publik (hindari duplikasi dan kebocoran).

3) Data Terstruktur (Structured Data)

Gunakan schema.org yang sesuai: `Article`, `Product`, `FAQ`, `HowTo`, `BreadcrumbList`, `Organization`.
Validasi(pastikan tanpa error/ warning kritis).
Konsisten dengan konten yang terlihat; jangan markup hal yang tidak ada.

4) Kualitas Teknis Konten

Judul unik (title) & H1 informatif tiap halaman.
Deskripsi meta menarik (untuk CTR), meski bukan faktor ranking langsung.
URL rapi & konsisten (lowercase, pisah kata dengan `-`, tanpa karakter aneh).
Breadcrumbs untuk konteks.
Alt text deskriptif untuk gambar penting.

5) Kebersihan Indeks & Logika Penayangan

Hindari soft-duplicate (tag/kategori berlebihan yang mirip isi).
Noindex untuk hasil pencarian internal, filter berulang, dan halaman utilitas.
Konsistensi canonical–sitemap–internal link:semua menunjuk URL yang sama sebagai versi utama.
Tangani halaman usang dengan bijak:jika tidak relevan, 410; jika pindah, 301.

6) Log File Analysis (Opsional tapi Powerful)

Analisis log server menunjukkan bot mana yang datang, ke URL mana, seberapa sering, dan responnya.

Temukan bagian situs yang boros crawl (mis. kalender tanpa akhir).
Deteksi error 5xx/4xx yang sering ditemui bot.
Prioritaskan link internal ke halaman penting yang jarang di-crawl.

Rencana Audit Technical SEO Langkah demi Langkah

Gunakan checklist ini sebagai playbook praktis.

Langkah 0 — Penyiapan & Baseline

[ ] Pastikan akses ke Search Console & analitik.

[ ] Catat peta situs, CMS, dan stack teknologi (server, CDN, framework).

[ ] Ambil baseline: jumlah halaman terindeks, CTR rata-rata, error coverage, crawl stats.

Langkah 1 — Crawl Website Anda

[ ] Jalankan crawler (mode desktop + mobile).
[ ] Pindai status kode, judul, H1, meta, kanonikal, robots meta, link internal.
[ ] Catat 404, 5xx, redirect chain, parameter meledak, orphan pages.

Langkah 2 — Robots & Sitemap

[ ] Audit `robots.txt` (jangan blok resource penting).
[ ] Review sitemap: hanya URL 200, kanonik, bukan noindex/disallow.
[ ] Pastikan sitemap terdaftar di Search Console.

Langkah 3 — Canonical & Duplikasi

[ ] Self-canonical di tiap halaman.
[ ] Konsolidasi HTTP→HTTPS, `www`→non-`www` (pilih satu).
[ ] Tangani parameter: kanonikal/noindex, dan kurangi proliferasi link.

Langkah 4 — Indexability & Prioritas

[ ] Tandai halaman yang harus diindeks vs tidak (noindex).
[ ] Hapus URL usang dari sitemap; gunakan 410/301 sesuai kasus.
[ ] Perkuat internal link menuju halaman target ranking.

Langkah 5 — Rendering & Aset

[ ] Uji render: apakah konten utama terlihat di HTML awal?
[ ] Pastikan CSS/JS tidak diblokir; gunakan SSR/prerender bila perlu.
[ ] Kurangi script pihak ketiga yang berat.

Langkah 6 — Structured Data & UX Teknis

[ ] Tambahkan schema yang relevan; validasi.
[ ] Pastikan breadcrumbs, alt text, dan URL bersih.
[ ] Cek responsif & performa dasar (kompresi, caching, gambar).

Langkah 7 — Monitoring & Alerting

[ ] Pantau Search Console: Coverage, Page Indexing, Crawl Stats, Manual Actions, Security.
[ ] Pasang alert untuk lonjakan 5xx, penurunan halaman terindeks, atau CTR anjlok.
[ ] Audit ringan bulanan; audit penuh kuartalan.

Studi Kasus Ilustratif: E-Commerce dengan Faceted Navigation
Masalah:

Situs e-commerce menurun indexing rate. Ribuan URL filter (warna/ukuran/harga) terbentuk, memicu crawl budget boros. Banyak halaman thin/duplikat masuk sitemap.

Solusi teknis:

1.Kanonikal ke halaman kategori utama untuk kombinasi filter.

2. Tambahkan `noindex, follow`pada URL filter spesifik yang tak membawa pencarian unik.

3.Bersihkan sitemap: hanya kategori & produk utama.

4.Internal link menguatkan jalur menuju kategori top dan produk best-seller.

5. Kurangi parameter di navigasi (gunakan POST/JS non-link untuk filter eksplosif bila relevan).

6. Pasang “view-all”untuk kategori kecil agar lebih ringkas.

Hasil:

Crawl stats lebih efisien, halaman terindeks turun (lebih bersih) namun trafik organik ke kategori/produsen utama naik signifikan karena sinyal terkonsolidasi.

Do & Don’t Teknis yang Sering Terlupa

Do:

Gunakan satu versi kanonik domain (pilih `https://example.com` atau `https://www.example.com`).
Terapkan redirect 301 konsisten dari varian yang tidak dipakai.
Self-canonical + internal link konsisten + sitemap bersih = trio emas konsolidasi.
Uji staging(noindex, block by IP) agar tidak bocor ke indeks.

Don’t:

Menggunakan `Disallow` untuk “menghapus dari indeks” (pakai noindex).
Membuatredirect chain panjang; rapikan jadi 1 hop.
Memblokir wp-content/themes/ atau /assets/ yang berisi CSS/JS penting.
Mengandalkan JS untuk menyuntik title/H1/meta penting yang tak ada di HTML awal.

Tanya-Jawab Teknis Singkat

Q: Lebih baik noindex atau Disallow untuk halaman filter?

A: Noindex jika halaman sudah bisa diakses dan Anda ingin keluarkan dari indeks, tapi tetap biarkan bot mengikuti linknya (follow). Gunakan Disallow bila Anda benar-benar inginmenghindari crawling (hati-hati: meta robots tidak terbaca pada halaman yang di-Disallow).

Q: Kapan pakai 404 vs 410?

A: 404cukup untuk “tidak ditemukan”.410 memberi sinyal “permanen hilang”—pembersihan indeks bisa lebih cepat.

Q: Apakah canonical selalu diikuti?

A:Tidak 100%. Canonical adalah sinyal. Pastikan konsisten(internal link, sitemap, hreflang, konten) untuk memperkuatnya.

Q: Perlu schema di semua halaman?

A: Prioritaskan halaman yang bisa memicu rich result (Product, FAQ, HowTo, Article, Breadcrumb). Fokus pada akurasi & relevansi.

Ringkasan Eksekutif: Prioritas 30 Hari

Minggu 1: Fondasi Crawl & Index

Audit `robots.txt`, sitemap, status kode.
Konsolidasi domain (HTTPS, non-www vs www).
Pasang self-canonical, perbaiki redirect.

Minggu 2: Bersih-bersih Indeks

Tandai noindex untuk utilitas & filter.
Rapikan sitemap ke URL kanonik 200 OK.
Perbaiki 404 internal & hapus soft-404.

Minggu 3: Rendering & Struktur

Uji render mobile; pastikan konten utama terlihat di HTML awal.
Pastikan CSS/JS tidak diblokir.
Perkuat internal linking & breadcrumbs.

Minggu 4: Skema & Monitoring

Tambahkan schema relevan + validasi.
Setup alert (5xx, coverage drop, CTR drop).
Dokumentasikan SOP teknis untuk tim dev & konten.

Penutup: Technical SEO Adalah Disiplin “Kebersihan & Kejelasan”

Crawlability memastikan botbisa masuk. Indexability memastikan halaman pentingdipertimbangkan. Site health memastikan semuanyatetap sehat dari waktu ke waktu. Technical SEO bukan trik rahasia; ia adalah kebersihan, kejelasan, dan konsistensi. Saat mesin (teknis) berjalan mulus, strategi konten dan off-page Anda akan memiliki pondasi yang kokoh untuk menang di SERP.

Siswi SMK Muhammadiyah 1 sukoharjo yang cerdas, Bersemangat, dan Berintegritas. Profil Lengkap saya