Back to Question Center
0

სემალტი: 3 ნაბიჯი PHP ვებ გვერდი Scraping

1 answers:
ვებ სკრაპი, ასევე ვებ-მონაცემების მოპოვება ან ვებ-საშუალება, ვებ-გვერდის ან ბლოგის მონაცემების მოპოვების პროცესი. ეს ინფორმაცია მაშინ გამოიყენება მეტა ტეგების, მეტა აღწერილობების, საკვანძო სიტყვებისა და საიტის საიტების, საძიებო სისტემებში შედეგების გაუმჯობესების მიზნით.

  • დოკუმენტის გაანგარიშება - ის მოიცავს XML ან HTML დოკუმენტს, რომელიც კონვერტირებულია DOM- ზე (დოკუმენტის ობიექტის მოდელი ) ფაილები. PHP გვაძლევს დიდ DOM გაფართოებას.
  • რეგულარული გამონათქვამები - ეს არის რეგულარული გამოსახულებების სახით ვებ-დოკუმენტების მონაცემების შედგენის გზა.

მესამე მხარის ვებსაიტის სკაუპტის მონაცემებთან დაკავშირებული საკითხი მისი საავტორო უფლებებით არის დაკავშირებული, რადგან ამ მონაცემის გამოყენების უფლება არ გაქვთ. მაგრამ PHP- სთან ერთად შეგიძლიათ ადვილად გაიგოთ მონაცემები საავტორო უფლებების ან დაბალი ხარისხის პრობლემების გარეშე. როგორც PHP პროგრამისტი, თქვენ შეიძლება დაგჭირდეთ მონაცემები სხვადასხვა საიტებზე კოდირების მიზნით. აქ ჩვენ განმარტა, თუ როგორ უნდა მიიღოთ მონაცემები სხვა საიტებზე ეფექტურად, მაგრამ მანამდე უნდა გაითვალისწინოთ, რომ ბოლოს თქვენ მიიღებთ index.php ან scrape.js ფაილი.

Steps1: შეიტანეთ ფორმა ვებ-გვერდზე შესვლისას:

პირველ რიგში, უნდა შეიქმნას ფორმა index.php- ზე, შეიტანოთ ღილაკზე დაწკაპუნებით და შეიყვანეთ ვებ-გვერდი URL- სთვის.






ნაბიჯები 2: შექმნა PHP ფუნქცია საიტი მონაცემების მისაღებად:

მეორე ნაბიჯი არის შექმნა PHP ფუნქცია scrape.php ფაილი scrapes, როგორც ეს დაეხმარება მიიღოს მონაცემები და გამოიყენოთ URL ბიბლიოთეკა. იგი ასევე საშუალებას მოგცემთ დაკავშირება და დაუკავშირდეს სხვადასხვა სერვერებისა და ოქმების გარეშე ნებისმიერი საკითხი..

ფუნქცია scrapeSiteData ($ website_url) {

თუ (! Function_exists ('curl_init' ');

}

$ curl = curl_init

;

curl_setopt ($ curl, CURLOPT_URL, $ website_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, ნამდვილი);

$ output = curl_exec ($ curl);

curl_close ($ curl);

დაბრუნების $ გამომავალი;

}

აქ შეგვიძლია ვნახოთ, არის თუ არა PHP ჩანართი სწორად დაყენებული. სამი ძირითადი ნარევი უნდა იყოს გამოყენებული ფუნქციების არეალში და curl_init

ხელს შეუწყობს სხდომების ინიციალიზებას, curl_exec

განახორციელებს მას და curl_close

ხელს შეუწყობს კავშირის დახურვას. ცვლადები, როგორიცაა CURLOPT_URL, გამოიყენება ვებსაიტის მისამართების შესადგენად, რომელთათვისაც უნდა გაიზარდოს. მეორე CURLOPT_RETURNTRANSFER ხელს შეუწყობს გადაფურცლებული გვერდების შენახვას ცვლად ფორმაში, ვიდრე მისი ნაგულისხმევი ფორმა, რომელიც საბოლოო ჯამში აჩვენებს მთელს ვებ გვერდს.

Steps3: Scrape სპეციფიკური მონაცემები საიტი:

დროა გაუმკლავდეს ფუნქციები თქვენი PHP ფაილი და scrape კონკრეტული განყოფილების თქვენი ვებ გვერდი. თუ არ გსურთ ყველა მონაცემები კონკრეტული URL- ისგან, თქვენ უნდა შეცვალონ CURLOPT_RETURNTRANSFER ცვლადები და გამოვყოთ განყოფილებები, რომლებიც გსურთ გაიაროთ.

თუ (isset ($ _ POST ['წარმოადგინოს'))) {

$ html = scrapeWebsiteData ($ _ POST ['website_url']);

$ start_point = strpos ($ html, "უახლესი პოსტები");

$ end_point = strpos ($ html, '', $ start_point);

$ სიგრძე = $ end_point- $ start_point;

$ html = ქვეპუნქტი ($ html, $ start_point, $ სიგრძე);

echo $ html;

}

ჩვენ გთავაზობთ PHP- ის და რეგულარული გამოხატვის ცოდნას, სანამ რომელიმე ამ კოდს იყენებთ ან კონკრეტულ ბლოგზე ან ვებ-გვერდზე პირადი მიზნებისთვის.

1 week ago
სემალტი: 3 ნაბიჯი PHP ვებ გვერდი Scraping
Reply