Crawler Inspector

1. Shard Calculation

Query:

Response:

Calculated Shard: 152 (from laksa163)

2. Crawled Status Check

Query:

curl -X POST \
  'http://laksa152.int.ahrefs:8124/' \
  -H 'Content-Type: text/plain' \
  -H 'X-ClickHouse-Database: crawler3' \
  -H 'Authorization: Basic YXBpOg==' \
  -d 'SELECT getAhrefsURLFromUnparsed(src_unparsed) AS found_url, ifNull(toUnixTimestamp(download_stamp), 0) AS crawl_time, ifNull(toUnixTimestamp(props_url_first_seen), 0) AS first_indexed_time, download_http_code AS http_code, src_unparsed AS src_unparsed, src_root_hash AS src_root_hash, history_drop_reason AS history_drop_reason, meta_title AS meta_title, meta_descriptions AS meta_descriptions, meta_canonical AS meta_canonical, ml_categories_json AS ml_categories_json, ml_types_json AS ml_types_json, ml_intent_types_json AS ml_intent_types_json, meta_language AS meta_language, attrs_author AS attrs_author, ifNull(toUnixTimestamp(attrs_publish_time), 0) AS attrs_publish_time, ifNull(toUnixTimestamp(attrs_original_publish_time), 0) AS attrs_original_publish_time, ifNull(attrs_is_republished, 0) AS attrs_is_republished, ifNull(attrs_nr_words, 0) AS attrs_nr_words, ifNull(attrs_boilerpipe_nr_words, 0) AS attrs_boilerpipe_nr_words, ifNull(body_ext_links_number, 0) AS body_ext_links_number, ifNull(body_int_links_number, 0) AS body_int_links_number, ifNull(meta_nofollow, 0) AS meta_nofollow, ifNull(meta_noarchive, 0) AS meta_noarchive, ifNull(props_was_rendered, 0) AS props_was_rendered, ifNull(src_redirect, \'\') AS src_redirect, ifNull(download_time_msec, 0) AS download_time_msec, ifNull(download_ttfb_msec, 0) AS download_ttfb_msec, ifNull(download_size, 0) AS download_size FROM crawler3.page_info_local FINAL PREWHERE int_partition_id = 74 AND (src_root_hash, src_unparsed) IN ((getAhrefsRootHashFromUnparsed(getAhrefsUnparsedNoserviceFromURL(\'https://zh.wikipedia.org/wiki/%E8%87%AA%E7%84%B6%E5%B0%8D%E6%95%B8\')), getAhrefsUnparsedNoserviceFromURL(\'https://zh.wikipedia.org/wiki/%E8%87%AA%E7%84%B6%E5%B0%8D%E6%95%B8\'))) FORMAT JSONEachRow'

Response:

{"found_url":"https:\/\/zh.wikipedia.org\/wiki\/%E8%87%AA%E7%84%B6%E5%B0%8D%E6%95%B8","crawl_time":1769918621,"first_indexed_time":1400403963,"http_code":200,"src_unparsed":"org,wikipedia!zh,\/wiki\/%E8%87%AA%E7%84%B6%E5%B0%8D%E6%95%B8 s443","src_root_hash":"17790707453426894952","history_drop_reason":null,"meta_title":"自然對數 - 维基百科，自由的百科全书","meta_descriptions":[],"meta_canonical":null,"ml_categories_json":"{\"\/Science\":887,\"\/Science\/Mathematics\":880,\"\/Science\/Mathematics\/Other\":829}","ml_types_json":"{\"\/Article\":998,\"\/Article\/Wiki\":836}","ml_intent_types_json":"{\"Informational\":999}","meta_language":"zh","attrs_author":null,"attrs_publish_time":0,"attrs_original_publish_time":1400403963,"attrs_is_republished":0,"attrs_nr_words":"4290","attrs_boilerpipe_nr_words":"954","body_ext_links_number":28,"body_int_links_number":282,"meta_nofollow":0,"meta_noarchive":0,"props_was_rendered":0,"src_redirect":"","download_time_msec":192,"download_ttfb_msec":189,"download_size":57978}

Filter	Status	Condition	Details
HTTP status	PASS	`download_http_code = 200`	HTTP 200
Age cutoff	PASS	`download_stamp > now() - 6 MONTH`	4.1 months ago (distributed domain, exempt)
History drop	PASS	`isNull(history_drop_reason)`	No drop reason
Spam/ban	PASS	`fh_dont_index != 1 AND ml_spam_score = 0`	ml_spam_score=0
Canonical	PASS	`meta_canonical IS NULL OR = '' OR = src_unparsed`	Not set

🕷️ Crawler Inspector

URL Lookup

Direct Parameter Lookup

1. Shard Calculation

Query:

Response:

2. Crawled Status Check

Query:

Response:

3. Robots.txt Check

Query:

Response:

4. Spam/Ban Check

Query:

Response:

5. Seen Status Check

Page Info Filters

Page Details