了(le/liǎo)解最新公司動态及行業資訊
Python爬取網頁數據。網頁中的(de)數據大(dà)多是(shì)非結構性數據。爬取網頁非結構性文本數據的(de)首要(yào / yāo)任務是(shì)去掉網頁噪聲。
網頁噪聲包括爲(wéi / wèi)了(le/liǎo)增強用戶交互性而(ér)加入的(de)各種腳本标記, 加強網頁視覺效果的(de)各種動畫, 爲(wéi / wèi)了(le/liǎo)方便用戶浏覽而(ér)添加的(de)導航鏈接、廣告鏈接。這(zhè)些信息跟文本分類沒有實質性關系。
Python作爲(wéi / wèi)一(yī / yì /yí)種網頁文本的(de)爬蟲程序開發語言, 可以(yǐ)完成很多複雜的(de)網頁文本提取。使用urlib2模塊下的(de)簡單代碼就(jiù)能爬取目标網頁的(de)全部源代碼, 獲得整個(gè)網頁的(de)内容。使用BeautifulSoup模塊自帶的(de)html.parse庫, 去掉所爬網頁源代碼中的(de)html标記, 即可提取網頁标簽中的(de)文本内容。
上(shàng)一(yī / yì /yí)篇:行業動态塊表示符<DIV>和(hé / huò)<LAYER>定位
下一(yī / yì /yí)篇:CSS S prite s的(de)缺點