Chrome Скрепердин кеңейтүүсү менен веб скрапинг - Semalt Expert

Sraper - бул веб баракчалардан маалыматтарды алуу жана кырылган маалыматтарды электрондук жадыбалга экспорттоо үчүн колдонулган автоматташтырылган сценарий жана колдонууга оңой шайман. Эгер сиз Google Chrome ышкыбозу болсоңуз, анда Chrome Scraper Кеңейтүүсү - бул кароонун эң мыкты куралы Бул желе кыргыч куралы сизге керектүү веб-баракчадан пайдалуу маалыматтарды чыгарып, Google Документтерге экспорттоого жардам берет.

Эмне үчүн Chrome Scraper Кеңейтүүсүн тандоо керек?

Google chrome кыргыч плагин - интернеттен чоң көлөмдөгү маалыматты окулуучу форматтарга чыгарып салуучу курал. Серепчиңизге кыргыч кеңейтүүсүн орнотуу үчүн, Chrome Желе дүкөнүнө кирип, орнотуу процессин аяктоо үчүн "Chrome'го кошуу" опциясын чыкылдатыңыз. Бул плагин менен сизге веб-баракчаларды кырыш үчүн программист жалдоонун кажети жок.

Сиздин браузериңизге орнотулган соң, кыргычты кеңейтүү сиз үчүн бардык кыртышты өзүнө алат. Баштоо үчүн, кырыш керек маалыматты тандап, тандалган маалыматтарды оң баскыч менен чыкылдатып, "Скрептерге окшош" баскычын чыкылдатыңыз.

Эгерде сиз скрепердин кеңейтүүсүн колдонууну чыдамсыздык менен күтүп жатсаңыз, анда программалоо тилин билүү минималдуу талап болуп саналат. Бирок, эгер сиз XPath менен тааныш болсоңуз, иш-чаралар сиз үчүн бир топ жеңилдейт. Тактоо максатында, XPath бул түйүндөрдү тандоо үчүн жолдун туюнтмаларын колдонуучу программалоо тили. Көпчүлүк учурларда, XPath eXtensible Markup Language (XML) документтеринде колдонулат, анда ал XML документинде колдонулган маанилүү атрибуттар жана элементтер аркылуу чабыттоо үчүн иштейт.

Chrome скрепер плагинин колдонуп веб-баракчаны кантип кырууга болот?

Бул колдонмодо сиз веб-баракчаларды жана XML документтерин скрепердин кеңейтүүсү менен кантип кырып салууну үйрөнөсүз. Веб баракчадан пайдалуу маалыматтарды чыгарып, Google Документтерге экспорттоо үчүн төмөнкү көрсөтмөнү колдонуңуз.

  • Chrome серепчиңизди иштетип, Chrome Желе дүкөнүн издеңиз. Экраныңыздын экранында калкып чыгуучу "Chrome'го кошуу" опциясын чыкылдатыңыз.
  • Максаттуу документиңизди же веб-баракчаңызды ачыңыз жана кырылып калуучу бардык дайындарды тандаңыз.
  • Тандалган текстти оң баскыч менен чыкылдатып, "Скрепке окшош" опциясын басыңыз.
  • Кыйылган маалыматтар менен Chrome дагы бир терезени ачат. Чыгып алынган маалыматты экспорттоо үчүн, мазмунду Google Документтериңизге сактоо үчүн "Google документтерине сактоо" опциясын чыкылдатыңыз.

Өркүндөтүлгөн веб кыргычты кеңейтүү менен

XPath - бул XML негизделген тексттен түйүндөрдү тандоо үчүн колдонулган программалоо тили. Бул программалоо тили JavaScript жана Python'до колдонула турган жолдун туюнтмаларын колдонот. Веб-баракчаны кыркып жатканда кыйынчылыктарга туш болуп жатсаңыз, кыргыч консолун ачыңыз жана сол жак бурчунда кичинекей кутучаны табасыз.

Кыргычты кеңейтүү менен, сиз jQuery же XPath үчүн барсаңыз болот. Бул учурда, веб-баракчадан максаттуу элементтерди табуу үчүн "XPath" баскычын чыкылдатыңыз. Кыркуу тапшырмасын аткаруу үчүн, беттеги туура элементти аныктап, анын XPath түзүңүз. Кыргыч консолу "Колонналар" бөлүмүн камтыйт. Кесилген маалыматыңызды окулуучу жана колдонула турган форматтарда алуу үчүн тилке бөлүктөрүн колдонуңуз.