Semalt - როგორ დავწეროთ ვებ – გვერდები?

Beautiful Soup არის Python ბიბლიოთეკა, რომელიც ფართოდ გამოიყენება ვებ – გვერდების დასამზადებლად, XML და HTML დოკუმენტებისგან ოხრახუშის ხის შექმნით. ვებ სკრაპინგი, ვებსაიტებიდან და გვერდებიდან მონაცემების მოპოვების ტექნიკა, ფართოდ გამოიყენება მონაცემთა ანალიზისა და მართვის სფეროებში. უმეტეს შემთხვევაში, პითონის პროგრამირების ენა წინაპირობაა მონაცემთა მეცნიერებაში.

პითონი 3-ს აქვს სკრაპინგის ხელსაწყოები და მოდულები, რომელთა საშუალებითაც შეგიძლიათ მიმართოთ თქვენი მონაცემთა მართვის პროექტს. ამჟამად მუშაობს როგორც ლამაზი სუპი 4, ეს მოდული თავსებადია როგორც პითონი 3-სა, ასევე პითონი 2.7-ით. Beautiful Soup 4 მოდულს ასევე შეუძლია შექმნას ოხრახუშის ხე დახურული ტეგის სუპისთვის. ამ სახელმძღვანელოში შეიტყობთ, თუ როგორ უნდა გადააფაროთ გვერდი და დაწეროთ მონაცემები CSV ფაილზე.

Ვიწყებთ

დასაწყებად, დააყენეთ სერვერი ან ადგილობრივი დაფუძნებული პითონის კოდირების გარემო თქვენს კომპიუტერზე. თქვენ ასევე უნდა დააინსტალიროთ ლამაზი სუპი და მოთხოვნების მოდული თქვენს აპარატზე. ორივე მოდულთან მუშაობის ცოდნა ასევე აუცილებელი წინაპირობაა. HTML მარკირების და სტრუქტურის გაცნობა ასევე დამატებით უპირატესობას წარმოადგენს.

თქვენი მონაცემების გაგება

ამ კონტექსტში, გამოყენებული იქნება ხელოვნების ეროვნული გალერეის რეალური მონაცემები, რომელიც დაგეხმარებათ გაერკვნენ, თუ როგორ გამოიყენოთ ლამაზი სუპი 4. ხელოვნების ეროვნული გალერეა მოიცავს 120,000 ნამუშევარს, რომლებიც შესრულებულია დაახლოებით 13,000 მხატვრის მიერ. ხელოვნება დაფუძნებულია ვაშინგტონში, აშშ – ში.

ვებ – მონაცემთა მოპოვება Beautiful Soup– ით რთული არ არის. მაგალითად, თუ ფოკუსირება Z ასოზე, მონიშნეთ და ჩამოთვალეთ ჩამონათვალის პირველი სახელი. ამ შემთხვევაში, პირველი სახელია ზაბაგლია, ნიკოლა. თანმიმდევრულობისთვის მიუთითეთ გვერდების რაოდენობა და ბოლო მხატვრის სახელი ამ გვერდზე.

როგორ შემოვიტანოთ მოთხოვნები და ლამაზი სუპის ბიბლიოთეკა

ბიბლიოთეკების იმპორტისთვის გააქტიურეთ თქვენი Python 3 პროგრამირების გარემო. შეამოწმეთ, რომ დარწმუნდებით, რომ იგივე პროგრამის პროგრამაში ხართ. დაიწყეთ შემდეგი ბრძანება, რომ დაიწყოთ. my_env / bin / activize.

შექმენით ახალი ფაილი და დაიწყეთ ლამაზი სუპის იმპორტი და მოითხოვეთ ბიბლიოთეკები. მოთხოვნა ბიბლიოთეკა საშუალებას მოგცემთ გამოიყენოთ HTTP თქვენს Python პროგრამებში, იკითხება ფორმატებში. მეორეს მხრივ, მშვენიერი სუპი მუშაობს გვერდების სწრაფად დასაკრეფად. გამოიყენეთ bs4 ლამაზი სუპის იმპორტირებისთვის.

როგორ შეაგროვოს და გაანაწილოს ვებ გვერდი

მოთხოვნების გამოყენებით შეაგროვეთ თქვენი პირველი გვერდის URL. პირველი გვერდის URL გადაეცემა ცვლადი გვერდზე. ააშენეთ BeautifulSoup ობიექტი მოთხოვნებისგან და გაანაწილეთ ობიექტი პითონის ოხრახუშისგან.

ამ გაკვეთილზე, მიზანია, შეაგროვოს ბმულები და მხატვრების სახელები. მაგალითად, შეგიძლიათ შეაგროვოთ მხატვრების თარიღები და ეროვნებები. Windows მომხმარებლებისთვის, დააჭირეთ მხატვრის გვარს. ამ შემთხვევაში გამოიყენეთ ზაბაგლია, ნიკოლა. Mac OS მომხმარებლებისთვის დააჭირეთ ღილაკს "CTRL" და დააჭირეთ მას. დააჭირეთ ღილაკს "შემოწმება ელემენტის" მენიუში, რომელიც თქვენს ეკრანზე ახლავს ხელს, რომ შევიდეს ვებ დეველოპერების ინსტრუმენტებზე. ამობეჭდეთ მხატვრის სახელები, რათა ლამაზი წვნიანი სწრაფად გაანაწილოს ხე.

ქვედა ბმულების ამოღება

ქვედა ვებ – გვერდის ქვედა ბმულების მოსაშორებლად, შეამოწმეთ DOM ელემენტის დაწკაპუნებით. თქვენ დაადგინებთ, რომ ბმულები HTML ცხრილის ქვეშ მდებარეობს. ლამაზი სუპის გამოყენებით, გამოიყენეთ "დაშლის მეთოდი", რომ ამოიღოთ ჩანართები ოხრახუშის ხისგან.

როგორ გამოვიტანოთ შინაარსი ტეგიდან

თქვენ არ გჭირდებათ ბეჭდვის მთელი ტეგის დაბეჭდვა, გამოიყენეთ ლამაზი სუპი, რომ წაშალოთ მასალა ჩანართიდან. თქვენ ასევე შეგიძლიათ ხელოვანებთან დაკავშირებული URL მისამართების გადაღება ლამაზი სუპის 4 გამოყენებით.

გადაწერილი მონაცემების CSV ფაილში გადაღება

CSV ფაილი საშუალებას მოგცემთ შეინახოთ სტრუქტურირებული მონაცემები უბრალო ტექსტში, ფორმატში, რომელიც ძირითადად გამოიყენება მონაცემთა ცხრილებისთვის. რეკომენდირებულია ცოდნა პითონში ტექსტური მარტივი ფაილების მართვის შესახებ.

ვებ მონაცემების მოპოვება გამოიყენება გვერდების დასაკრეფად და ინფორმაციის მისაღებად. ყურადღებით იყავით იმ ვებსაიტებზე, რომელთაგანაც მოპოვებულია ინფორმაცია. ზოგიერთი დინამიური ვებ – გვერდი ზღუდავს ვებ – მონაცემთა მოპოვებას მათ საიტებზე. ლამაზი წვნიანით და პითონ 3-ით გვერდის გადაკვრა მარტივია.