百科知識

當(dāng)前位置: 首頁 > 百科知識

百科知識

中國商盾網(wǎng)商標(biāo)查詢(商標(biāo)類別明細(xì))

2023-12-25 14:01:54 來源:互聯(lián)網(wǎng)

爬蟲介紹

image這是一個采集程序,不需要登錄,根據(jù)企業(yè)名稱抓取企業(yè)頁面數(shù)據(jù)。

注:這是一個比較簡單的爬蟲,基本上只使用代理,不使用其他反爬技術(shù)。但是由于爬取的數(shù)據(jù)量較大,適合刷解析技能的熟練程度,所以高手不要輸入

代碼已經(jīng)上傳到GitHub有用請給我一個star

python版本: python2.7

編碼工具: pycharm

數(shù)據(jù)存儲: MySQL

crawler結(jié)構(gòu):廣度crawler

crawler idea:

iamge 先獲取需要采集信息的公司: get from database get field:etid,etname get data from state table of The acquired data storage。并更新狀態(tài)表拼接etname和初始url獲取初始url 拼接初始URL:將初始url放在一個列表中,如何在獲取HTML時出錯,將錯誤的url放在另一個列表中,進(jìn)行循環(huán)采集驗(yàn)證查詢的公司是否正確(?)請求解析初始一級頁面:將二級url放在一個列表中,獲取HTML時如何出錯,將錯誤的url放在另一個列表中,循環(huán)獲取將二級url放在一個列表中,獲取HTML時如何出錯,將錯誤的url放在另一個列表中,循環(huán)獲取獲取待確定的信息請求解析二級頁面:創(chuàng)建表將公司的信息存儲到數(shù)據(jù)庫中:創(chuàng)建表:創(chuàng)建表:

企業(yè)主信息:et_host_info

iamge 工商信息:et_busi_info分公司信息:et_branch_office軟件版權(quán)信息:et_container_copyright_info網(wǎng)站記錄信息:et _ convainer _ ICP _ info 外商投資信息:et_foreign_investment_info融資融資信息: et_rongzi_info股東信息: et_stareholder_info商標(biāo)信息: et_trademark_info狀態(tài)表: et_name_status

看一下部分的結(jié)果圖:

iamge iamge iamge iamge
上一篇:涼涼!視覺中國版權(quán)事件或構(gòu)成商業(yè)欺詐
下一篇:商標(biāo)法案例分析100例(個體戶被訴商標(biāo)侵權(quán))

熱門文章