Crawler Inspector

1. Shard Calculation

Query:

Response:

Calculated Shard: 8 (from laksa180)

2. Crawled Status Check

Query:

curl -X POST \
  'http://laksa008.int.ahrefs:8124/' \
  -H 'Content-Type: text/plain' \
  -H 'X-ClickHouse-Database: crawler3' \
  -H 'Authorization: Basic YXBpOg==' \
  -d 'SELECT getAhrefsURLFromUnparsed(src_unparsed) AS found_url, ifNull(toUnixTimestamp(download_stamp), 0) AS crawl_time, ifNull(toUnixTimestamp(props_url_first_seen), 0) AS first_indexed_time, download_http_code AS http_code, src_unparsed AS src_unparsed, src_root_hash AS src_root_hash, history_drop_reason AS history_drop_reason, meta_title AS meta_title, meta_descriptions AS meta_descriptions, meta_canonical AS meta_canonical, ml_categories_json AS ml_categories_json, ml_types_json AS ml_types_json, ml_intent_types_json AS ml_intent_types_json, meta_language AS meta_language, attrs_author AS attrs_author, ifNull(toUnixTimestamp(attrs_publish_time), 0) AS attrs_publish_time, ifNull(toUnixTimestamp(attrs_original_publish_time), 0) AS attrs_original_publish_time, ifNull(attrs_is_republished, 0) AS attrs_is_republished, ifNull(attrs_nr_words, 0) AS attrs_nr_words, ifNull(attrs_boilerpipe_nr_words, 0) AS attrs_boilerpipe_nr_words, ifNull(body_ext_links_number, 0) AS body_ext_links_number, ifNull(body_int_links_number, 0) AS body_int_links_number, ifNull(meta_nofollow, 0) AS meta_nofollow, ifNull(meta_noarchive, 0) AS meta_noarchive, ifNull(props_was_rendered, 0) AS props_was_rendered, ifNull(src_redirect, \'\') AS src_redirect, ifNull(download_time_msec, 0) AS download_time_msec, ifNull(download_ttfb_msec, 0) AS download_ttfb_msec, ifNull(download_size, 0) AS download_size FROM crawler3.page_info_local FINAL PREWHERE int_partition_id = 11 AND (src_root_hash, src_unparsed) IN ((getAhrefsRootHashFromUnparsed(getAhrefsUnparsedNoserviceFromURL(\'https://blog.csdn.net/bsllmmw/article/details/128858196\')), getAhrefsUnparsedNoserviceFromURL(\'https://blog.csdn.net/bsllmmw/article/details/128858196\'))) FORMAT JSONEachRow'

Response:

{"found_url":"https:\/\/blog.csdn.net\/bsllmmw\/article\/details\/128858196","crawl_time":1755361210,"first_indexed_time":0,"http_code":200,"src_unparsed":"net,csdn!blog,\/bsllmmw\/article\/details\/128858196 s443","src_root_hash":"14895566225899102208","history_drop_reason":null,"meta_title":"fairseq源码阅读（一）_fairseq github-CSDN博客","meta_descriptions":["文章浏览阅读396次。fairseq是Facebook研发的开源工具，专注于序列到序列模型的训练。项目包括docs（文档），examples（示例），fairseq（核心代码），fairseq_cli（命令行脚本），hydra_plugins（实验配置管理），以及scripts（数据处理脚本）。fairseq的核心代码通过tests和examples进行验证，方便开发者理解和测试不同参数配置的效果。"],"meta_canonical":null,"ml_categories_json":"","ml_types_json":"","ml_intent_types_json":"","meta_language":"zh-cn","attrs_author":null,"attrs_publish_time":0,"attrs_original_publish_time":1755361210,"attrs_is_republished":0,"attrs_nr_words":"743","attrs_boilerpipe_nr_words":"16","body_ext_links_number":3,"body_int_links_number":67,"meta_nofollow":0,"meta_noarchive":0,"props_was_rendered":0,"src_redirect":"","download_time_msec":1716,"download_ttfb_msec":1537,"download_size":27513}

Filter	Status	Condition	Details
HTTP status	PASS	`download_http_code = 200`	HTTP 200
Age cutoff	FAIL	`download_stamp > now() - 6 MONTH`	9.7 months ago
History drop	PASS	`isNull(history_drop_reason)`	No drop reason
Spam/ban	PASS	`fh_dont_index != 1 AND ml_spam_score = 0`	ml_spam_score=0
Canonical	PASS	`meta_canonical IS NULL OR = '' OR = src_unparsed`	Not set

Property	Value
URL	https://blog.csdn.net/bsllmmw/article/details/128858196
Last Crawled	2025-08-16 16:20:10 (9 months ago)
First Indexed	not set
HTTP Status Code	200
Content
Meta Title	fairseq源码阅读（一）_fairseq github-CSDN博客
Meta Description	文章浏览阅读396次。fairseq是Facebook研发的开源工具，专注于序列到序列模型的训练。项目包括docs（文档），examples（示例），fairseq（核心代码），fairseq_cli（命令行脚本），hydra_plugins（实验配置管理），以及scripts（数据处理脚本）。fairseq的核心代码通过tests和examples进行验证，方便开发者理解和测试不同参数配置的效果。
Meta Canonical	null
Boilerpipe Text	heavy column, fetched on demand
Markdown	heavy column, fetched on demand
Readable Markdown	heavy column, fetched on demand
ML Classification
ML Categories	null
ML Page Types	null
ML Intent Types	null
Content Metadata
Language	zh-cn
Author	null
Publish Time	not set
Original Publish Time	2025-08-16 16:20:10 (9 months ago)
Republished	No
Word Count (Total)	743
Word Count (Content)	16
Links
External Links	3
Internal Links	67
Technical SEO
Meta Nofollow	No
Meta Noarchive	No
JS Rendered	No
Redirect Target	null
Performance
Download Time (ms)	1,716
TTFB (ms)	1,537
Download Size (bytes)	27,513
Location
Host ID	8 (laksa008)
Partition ID	11
Root Hash	14895566225899102208
Unparsed URL	net,csdn!blog,/bsllmmw/article/details/128858196 s443

🕷️ Crawler Inspector

URL Lookup

Direct Parameter Lookup

1. Shard Calculation

Query:

Response:

2. Crawled Status Check

Query:

Response:

3. Robots.txt Check

Query:

Response:

4. Spam/Ban Check

Query:

Response:

5. Seen Status Check

Page Info Filters

Page Details