|
公司基本資料信息
|
完整解析信息的標記形式,,再提取關鍵信息
XML JSON YAML
需要標記解析器 如bs庫的標簽樹遍歷
優點:信息解析準確
缺點:提取過程繁瑣
方法二:無標記形式,直接搜索關鍵信息
搜索
對信息的文本查找函數即可
優點,過程簡潔,速度較快
缺點,提取結果準確性與內容相關
淘寶新開店采集軟件,實時更新,一鍵提取
其中的方法
<>.find_all(name,attrs,recursive,string,**kwargs)
返回一個列表類型,儲存查找的結果。
name:對標簽名稱的檢索字符串。
attrs:對標簽屬性值的檢索字符串,可標注屬性檢索。
recursive:是否對子孫全部檢索,默認True。布爾型。
string:<>…</>中字符串區域的檢索字符串
**kawargs:
(…) 等價于 .find_all(…)
soup(…) 等價于soup.find_all(…)
<>.find 拓展方法
淘寶新開店采集軟件,實時更新,一鍵提取