百科知識(shí)
工商名錄數(shù)據(jù)庫(kù)(實(shí)時(shí)-要點(diǎn))
2023-09-08 10:07:05
來(lái)源:互聯(lián)網(wǎng)
該數(shù)據(jù)集是研究微觀企業(yè)及其對(duì)外直接投資的重要數(shù)據(jù)集!
蔣冠宏等眾多著名國(guó)際商務(wù)學(xué)者均使用該數(shù)據(jù)集產(chǎn)出重要研究成果!
具體的處理方法為:
參考Brandt等(2023)對(duì)數(shù)據(jù)庫(kù)進(jìn)行了逐年合并,并對(duì)錯(cuò)誤數(shù)據(jù)進(jìn)行了清洗。將《名錄》與《工業(yè)企業(yè)數(shù)據(jù)庫(kù)》按照企業(yè)進(jìn)行匹配合并,以蔣冠宏等(2023)為代表的眾多學(xué)者在研究相關(guān)問(wèn)題時(shí)均對(duì)兩個(gè)數(shù)據(jù)庫(kù)進(jìn)行了合并,但由于《工業(yè)企業(yè)數(shù)據(jù)庫(kù)》錯(cuò)誤較多且企業(yè)存在改名的現(xiàn)象,導(dǎo)致兩個(gè)數(shù)據(jù)庫(kù)匹配成功率較低。為解決這一問(wèn)題,采用了獨(dú)創(chuàng)的同地區(qū)模糊匹配法,具體步驟如下:
首先,根據(jù)《工業(yè)企業(yè)數(shù)據(jù)庫(kù)》中錯(cuò)誤率較低的“地區(qū)編碼”和“郵政編碼”確定該企業(yè)所在(副)省級(jí)單位(包括省、直轄市、自治區(qū)和計(jì)劃單列市),未能確定企業(yè)所在地點(diǎn)的樣本不足1%(398萬(wàn)余個(gè)原始樣本中不足2萬(wàn)),剔除這部分樣本。然后,采用文本處理工具將兩個(gè)數(shù)據(jù)庫(kù)中的企業(yè)名進(jìn)行分詞,提取出核心部分,將地點(diǎn)和“有限責(zé)任公司”等通用后綴去除,如“南京盛東化工有限公司”,提出的核心部分為“盛東化工”。使用模糊匹配程序包將兩個(gè)數(shù)據(jù)庫(kù)進(jìn)行匹配,模糊匹配提高了匹配的成功率,如“中國(guó)石油”和“中石油”是一家公司,如果使用精確匹配,則不能匹配成功,但不能過(guò)于模糊,否則“中石油”和“中石化”將被識(shí)別成同一家公司,根據(jù)該程序包的使用經(jīng)驗(yàn),將模糊匹配閾值設(shè)為80%。最后,按年按地區(qū)進(jìn)行匹配,這樣可以大大提高匹配的成功率,在同一省份的同一年份,每個(gè)企業(yè)的匹配空間大幅減小,重名的可能性降低,此外,去除地名開(kāi)頭和通用后綴避免了如“北京”和“北京市”這樣同一意思但字符不同所造成的差別,使得成功率進(jìn)一步提高。最終,經(jīng)過(guò)以上處理,在2001—2023年的樣本區(qū)間上,將兩個(gè)數(shù)據(jù)庫(kù)匹配合并,共獲得3989940個(gè)樣本,其中,共有6889家工業(yè)企業(yè)進(jìn)行對(duì)外直接投資,共投資8429次,匹配成功率大幅高于同類文獻(xiàn)。
由于《工業(yè)企業(yè)數(shù)據(jù)庫(kù)》中統(tǒng)計(jì)錯(cuò)誤和缺失值較多,參考Feenstra等(2023)、聶輝華等(2023)對(duì)原始數(shù)據(jù)進(jìn)行清洗和精簡(jiǎn),包括(1)剔除了雇員數(shù)少于8人且多于100萬(wàn)人的樣本;(2)剔除了同一年內(nèi)重復(fù)或錯(cuò)誤的記錄以提高樣本信息的準(zhǔn)確度;(3)剔除了一些明顯錯(cuò)誤,如工業(yè)總產(chǎn)值、工業(yè)增加值、固定資產(chǎn)數(shù)值非正數(shù)的樣本;(4)剔除了存續(xù)年份大于100年或小于0年的樣本等;(5)本文將按年列示的數(shù)據(jù)庫(kù)根據(jù)企業(yè)名稱、法人代表名稱、地理位置等信息匹配成非平衡面板,非平衡面板中,由于統(tǒng)計(jì)披露和逐年匹配誤差,部分企業(yè)出現(xiàn)時(shí)間較短或者不連續(xù),本文僅選擇數(shù)據(jù)連續(xù)存在3年以上的企業(yè),剔除了不足3年的樣本。最終,精簡(jiǎn)之后的樣本量總數(shù)為742788,共2492家工業(yè)企業(yè)進(jìn)行對(duì)外直接投資,投資3140筆。總結(jié)來(lái)看,在工業(yè)企業(yè)數(shù)據(jù)庫(kù)的基礎(chǔ)上匹配了兩個(gè)新變量,第一個(gè)是該企業(yè)該年是否進(jìn)行了對(duì)外直接投資;第二,同一家企業(yè)每一年可能會(huì)有多筆對(duì)外直接投資,本文統(tǒng)計(jì)了匹配到的樣本數(shù),即該企業(yè)該年對(duì)外直接投資的筆數(shù)。
處理過(guò)程和代碼展示: 首先是原始數(shù)據(jù),包括2000-2023年工業(yè)企業(yè)數(shù)據(jù)庫(kù)數(shù)據(jù)和境外投資企業(yè)(機(jī)構(gòu))名錄數(shù)據(jù)。
Python代碼包括數(shù)據(jù)預(yù)處理,字段刪減統(tǒng)一改名,公司名處理,模糊匹配等。
stata代碼包括分年合并,非平衡面板處理,刪除離群數(shù)據(jù)等。
結(jié)果展示及字段說(shuō)明:
處理后保留的字段和相關(guān)說(shuō)明詳見(jiàn)Excel表。 1.該數(shù)據(jù)集一共含有3989940個(gè)樣本值,合并了2000年-2023年的分年工業(yè)企業(yè)數(shù)據(jù)庫(kù),剔除了各年的重復(fù)值和失效樣本,未做其他樣本選擇。
2.將各年數(shù)據(jù)分別與商務(wù)部境外投資企業(yè)名錄進(jìn)行匹配,采取了必要的模糊匹配,增加配對(duì)成功的數(shù)量,其中OFDIs列表示該企業(yè)當(dāng)年對(duì)外投資的次數(shù),一共匹配成功8900多筆投資,優(yōu)于目前可以見(jiàn)到的一些匹配工作。
3.penal_id字段唯一標(biāo)識(shí)面板中的不同企業(yè),總面板數(shù)據(jù)是非平衡的,企業(yè)樣本從一年到橫跨十四年不等。
4.字符串變量基本選自工業(yè)企業(yè)數(shù)據(jù)庫(kù)中的字符串,加入了省份變量和分詞后的法人單位變量幫助匹配。
5.數(shù)據(jù)變量除了OFDIs之外,其他均來(lái)自于工業(yè)企業(yè)數(shù)據(jù)庫(kù),在一定程度上選取了2000年-2023年各年數(shù)據(jù)庫(kù)字段的交集,即14年出現(xiàn)了12次以上的變量(這樣做是因?yàn)榧词谷笔б?/strong>可以通過(guò)插值補(bǔ)全),如果某個(gè)變量?jī)H出現(xiàn)過(guò)個(gè)位次,則無(wú)法補(bǔ)全缺失值,無(wú)法使用該指標(biāo)的面板數(shù)據(jù)。
6.通過(guò)以上方法選取了40多個(gè)企業(yè)指標(biāo),均為財(cái)務(wù)指標(biāo),包括資產(chǎn)類、負(fù)債類、權(quán)益類和損益類等,具體即缺失情況見(jiàn)“字段及缺失情況.xlsx”為進(jìn)行微觀層面的研究提供了堅(jiān)實(shí)的基礎(chǔ)。
7.但也不得不刪去了一些變量,如僅在某幾年出現(xiàn)的現(xiàn)金流量指標(biāo),以及行政區(qū)碼、輕重工業(yè)、企業(yè)規(guī)模、從業(yè)人數(shù)、新產(chǎn)品產(chǎn)值、工業(yè)增加值、長(zhǎng)期投資、流動(dòng)資產(chǎn)凈額、本年折舊、固定資產(chǎn)凈值、無(wú)形資產(chǎn)、營(yíng)業(yè)收入、營(yíng)業(yè)成本、銷售利潤(rùn)、投資收益、營(yíng)業(yè)外收入、營(yíng)業(yè)外支出、利稅總額、應(yīng)付福利總額、稅金及附加、中間投入合計(jì)等指標(biāo)。
數(shù)據(jù)說(shuō)明、字段及缺失情況.xlsx
最終結(jié)果:
總數(shù)據(jù)300多萬(wàn)條,目前僅支持stata格式,敬請(qǐng)諒解!清洗后數(shù)據(jù)質(zhì)量非常高且目前很新,謝絕議價(jià)!
工企與境外投資匹配結(jié)果 分年數(shù)據(jù)也可出售,30一年,未合并,可見(jiàn)下方聯(lián)系方式
蔣冠宏等眾多著名國(guó)際商務(wù)學(xué)者均使用該數(shù)據(jù)集產(chǎn)出重要研究成果!
具體的處理方法為:
參考Brandt等(2023)對(duì)數(shù)據(jù)庫(kù)進(jìn)行了逐年合并,并對(duì)錯(cuò)誤數(shù)據(jù)進(jìn)行了清洗。將《名錄》與《工業(yè)企業(yè)數(shù)據(jù)庫(kù)》按照企業(yè)進(jìn)行匹配合并,以蔣冠宏等(2023)為代表的眾多學(xué)者在研究相關(guān)問(wèn)題時(shí)均對(duì)兩個(gè)數(shù)據(jù)庫(kù)進(jìn)行了合并,但由于《工業(yè)企業(yè)數(shù)據(jù)庫(kù)》錯(cuò)誤較多且企業(yè)存在改名的現(xiàn)象,導(dǎo)致兩個(gè)數(shù)據(jù)庫(kù)匹配成功率較低。為解決這一問(wèn)題,采用了獨(dú)創(chuàng)的同地區(qū)模糊匹配法,具體步驟如下:
首先,根據(jù)《工業(yè)企業(yè)數(shù)據(jù)庫(kù)》中錯(cuò)誤率較低的“地區(qū)編碼”和“郵政編碼”確定該企業(yè)所在(副)省級(jí)單位(包括省、直轄市、自治區(qū)和計(jì)劃單列市),未能確定企業(yè)所在地點(diǎn)的樣本不足1%(398萬(wàn)余個(gè)原始樣本中不足2萬(wàn)),剔除這部分樣本。然后,采用文本處理工具將兩個(gè)數(shù)據(jù)庫(kù)中的企業(yè)名進(jìn)行分詞,提取出核心部分,將地點(diǎn)和“有限責(zé)任公司”等通用后綴去除,如“南京盛東化工有限公司”,提出的核心部分為“盛東化工”。使用模糊匹配程序包將兩個(gè)數(shù)據(jù)庫(kù)進(jìn)行匹配,模糊匹配提高了匹配的成功率,如“中國(guó)石油”和“中石油”是一家公司,如果使用精確匹配,則不能匹配成功,但不能過(guò)于模糊,否則“中石油”和“中石化”將被識(shí)別成同一家公司,根據(jù)該程序包的使用經(jīng)驗(yàn),將模糊匹配閾值設(shè)為80%。最后,按年按地區(qū)進(jìn)行匹配,這樣可以大大提高匹配的成功率,在同一省份的同一年份,每個(gè)企業(yè)的匹配空間大幅減小,重名的可能性降低,此外,去除地名開(kāi)頭和通用后綴避免了如“北京”和“北京市”這樣同一意思但字符不同所造成的差別,使得成功率進(jìn)一步提高。最終,經(jīng)過(guò)以上處理,在2001—2023年的樣本區(qū)間上,將兩個(gè)數(shù)據(jù)庫(kù)匹配合并,共獲得3989940個(gè)樣本,其中,共有6889家工業(yè)企業(yè)進(jìn)行對(duì)外直接投資,共投資8429次,匹配成功率大幅高于同類文獻(xiàn)。
由于《工業(yè)企業(yè)數(shù)據(jù)庫(kù)》中統(tǒng)計(jì)錯(cuò)誤和缺失值較多,參考Feenstra等(2023)、聶輝華等(2023)對(duì)原始數(shù)據(jù)進(jìn)行清洗和精簡(jiǎn),包括(1)剔除了雇員數(shù)少于8人且多于100萬(wàn)人的樣本;(2)剔除了同一年內(nèi)重復(fù)或錯(cuò)誤的記錄以提高樣本信息的準(zhǔn)確度;(3)剔除了一些明顯錯(cuò)誤,如工業(yè)總產(chǎn)值、工業(yè)增加值、固定資產(chǎn)數(shù)值非正數(shù)的樣本;(4)剔除了存續(xù)年份大于100年或小于0年的樣本等;(5)本文將按年列示的數(shù)據(jù)庫(kù)根據(jù)企業(yè)名稱、法人代表名稱、地理位置等信息匹配成非平衡面板,非平衡面板中,由于統(tǒng)計(jì)披露和逐年匹配誤差,部分企業(yè)出現(xiàn)時(shí)間較短或者不連續(xù),本文僅選擇數(shù)據(jù)連續(xù)存在3年以上的企業(yè),剔除了不足3年的樣本。最終,精簡(jiǎn)之后的樣本量總數(shù)為742788,共2492家工業(yè)企業(yè)進(jìn)行對(duì)外直接投資,投資3140筆。總結(jié)來(lái)看,在工業(yè)企業(yè)數(shù)據(jù)庫(kù)的基礎(chǔ)上匹配了兩個(gè)新變量,第一個(gè)是該企業(yè)該年是否進(jìn)行了對(duì)外直接投資;第二,同一家企業(yè)每一年可能會(huì)有多筆對(duì)外直接投資,本文統(tǒng)計(jì)了匹配到的樣本數(shù),即該企業(yè)該年對(duì)外直接投資的筆數(shù)。
處理過(guò)程和代碼展示: 首先是原始數(shù)據(jù),包括2000-2023年工業(yè)企業(yè)數(shù)據(jù)庫(kù)數(shù)據(jù)和境外投資企業(yè)(機(jī)構(gòu))名錄數(shù)據(jù)。
Python代碼包括數(shù)據(jù)預(yù)處理,字段刪減統(tǒng)一改名,公司名處理,模糊匹配等。
stata代碼包括分年合并,非平衡面板處理,刪除離群數(shù)據(jù)等。
結(jié)果展示及字段說(shuō)明:
處理后保留的字段和相關(guān)說(shuō)明詳見(jiàn)Excel表。 1.該數(shù)據(jù)集一共含有3989940個(gè)樣本值,合并了2000年-2023年的分年工業(yè)企業(yè)數(shù)據(jù)庫(kù),剔除了各年的重復(fù)值和失效樣本,未做其他樣本選擇。
2.將各年數(shù)據(jù)分別與商務(wù)部境外投資企業(yè)名錄進(jìn)行匹配,采取了必要的模糊匹配,增加配對(duì)成功的數(shù)量,其中OFDIs列表示該企業(yè)當(dāng)年對(duì)外投資的次數(shù),一共匹配成功8900多筆投資,優(yōu)于目前可以見(jiàn)到的一些匹配工作。
3.penal_id字段唯一標(biāo)識(shí)面板中的不同企業(yè),總面板數(shù)據(jù)是非平衡的,企業(yè)樣本從一年到橫跨十四年不等。
4.字符串變量基本選自工業(yè)企業(yè)數(shù)據(jù)庫(kù)中的字符串,加入了省份變量和分詞后的法人單位變量幫助匹配。
5.數(shù)據(jù)變量除了OFDIs之外,其他均來(lái)自于工業(yè)企業(yè)數(shù)據(jù)庫(kù),在一定程度上選取了2000年-2023年各年數(shù)據(jù)庫(kù)字段的交集,即14年出現(xiàn)了12次以上的變量(這樣做是因?yàn)榧词谷笔б?/strong>可以通過(guò)插值補(bǔ)全),如果某個(gè)變量?jī)H出現(xiàn)過(guò)個(gè)位次,則無(wú)法補(bǔ)全缺失值,無(wú)法使用該指標(biāo)的面板數(shù)據(jù)。
6.通過(guò)以上方法選取了40多個(gè)企業(yè)指標(biāo),均為財(cái)務(wù)指標(biāo),包括資產(chǎn)類、負(fù)債類、權(quán)益類和損益類等,具體即缺失情況見(jiàn)“字段及缺失情況.xlsx”為進(jìn)行微觀層面的研究提供了堅(jiān)實(shí)的基礎(chǔ)。
7.但也不得不刪去了一些變量,如僅在某幾年出現(xiàn)的現(xiàn)金流量指標(biāo),以及行政區(qū)碼、輕重工業(yè)、企業(yè)規(guī)模、從業(yè)人數(shù)、新產(chǎn)品產(chǎn)值、工業(yè)增加值、長(zhǎng)期投資、流動(dòng)資產(chǎn)凈額、本年折舊、固定資產(chǎn)凈值、無(wú)形資產(chǎn)、營(yíng)業(yè)收入、營(yíng)業(yè)成本、銷售利潤(rùn)、投資收益、營(yíng)業(yè)外收入、營(yíng)業(yè)外支出、利稅總額、應(yīng)付福利總額、稅金及附加、中間投入合計(jì)等指標(biāo)。
數(shù)據(jù)說(shuō)明、字段及缺失情況.xlsx
最終結(jié)果:
總數(shù)據(jù)300多萬(wàn)條,目前僅支持stata格式,敬請(qǐng)諒解!清洗后數(shù)據(jù)質(zhì)量非常高且目前很新,謝絕議價(jià)!
工企與境外投資匹配結(jié)果 分年數(shù)據(jù)也可出售,30一年,未合并,可見(jiàn)下方聯(lián)系方式
其他文章
- 廣州靠譜代辦營(yíng)業(yè)執(zhí)照窗口
- 辦營(yíng)業(yè)執(zhí)照需要到哪里辦手續(xù)
- 上海無(wú)地址公司執(zhí)照注冊(cè)代辦機(jī)構(gòu)
- 網(wǎng)絡(luò)科技公司經(jīng)營(yíng)范圍怎么選
- 實(shí)業(yè)公司經(jīng)營(yíng)范圍5大類怎么寫(xiě)
- 衛(wèi)生許可證網(wǎng)上申請(qǐng)教程
- 石家莊早餐車怎么辦理營(yíng)業(yè)執(zhí)照
- 沒(méi)有實(shí)體店辦理營(yíng)業(yè)執(zhí)照怎么辦
- 個(gè)人網(wǎng)店如何辦理營(yíng)業(yè)執(zhí)照
- 秀米海外怎么注冊(cè)公司的
- 個(gè)人注冊(cè)一家公司要多少錢(qián)
- 重慶云上注冊(cè)公司可靠嗎,重慶云上注冊(cè)公司靠譜嗎?
- 網(wǎng)上營(yíng)業(yè)執(zhí)照辦理網(wǎng)站是什么
- 代辦營(yíng)業(yè)執(zhí)照給3萬(wàn)5
- 有了中介怎么注冊(cè)公司
- 網(wǎng)上注冊(cè)企業(yè)工商執(zhí)照流程
- 企業(yè)生產(chǎn)經(jīng)營(yíng)許可證號(hào)怎么找
- 醫(yī)藥企業(yè)注冊(cè)公司條件要求
- 青島公司注冊(cè)怎么做
- 天津注冊(cè)滴滴公司