Jump to content

Willkommen Gast

Navigation

Links

Als Gast hast du nur eingeschränkten Zugriff!


Sign In 

Create Account

Du bist nicht angemeldet und hast somit nur einen sehr eingeschränkten Zugriff auf die Features unserer Community.
Um vollen Zugriff zu erlangen musst du dir einen Account erstellen. Der Vorgang sollte nicht länger als 1 Minute dauern.

  • Antworte auf Themen oder erstelle deine eigenen.
  • Schalte dir alle Downloads mit Highspeed & ohne Wartezeit frei.
  • Erhalte Zugriff auf alle Bereiche und entdecke interessante Inhalte.
  • Tausche dich mich anderen Usern in der Shoutbox oder via PN aus.
 

   

Photo

Frage zu Python Web Scraping (Ajax/Javascript)

- - - - -

  • Please log in to reply
2 replies to this topic

#1
darookie

darookie

    Lamer

  • Members
  • PipPipPip
  • Likes
    8
  • 23 posts
  • 9 Bedankt
  • 7111135

Hiho,

leider stoße ich gerade auf Probleme beim Webscraping. Es geht um das Portal von aswo.com. Dort wird der Content nachträglich über Javascript eingefügt, was natürlich beim puren Python unmöglich ist.

 

Das einzige was ich finden konnte war die Möglichkeit über Selenium zu gehen, aber das ist nicht wirklich optimal. Es ist langsam und Fehleranfällig.

 

Gibt es denn andere Möglichkeiten solche Inhalte auszulesen? Wie macht das google etc.?

 

bye

darookie



#2
sup3ria

sup3ria

    Hacker

  • Premium Member
  • Likes
    123
  • 177 posts
  • 50 Bedankt

Du benötigst einen "Headless Browser" der Javascript ausführen kann.

 

Eine ausführliche Liste findest du hier:

Please Login HERE or Register HERE to see this link!

 

Ich verwende gerne PhantomJS mit dem Wrapper Splinter.

#!/usr/bin/python
from splinter import Browser  # pip install splinter # pip install selenium

with Browser('phantomjs') as browser:
	url = 'http://www.aswo.com/index.php?id=56&no_cache=1'
	browser.visit(url)
	print browser.html

Ansonsten kann Ich auch noch ghost.py empfehlen.

 

Ich kann dir auch gerne sonst noch beim parsen helfen falls du genau sagst was du da gescraped haben willst.


Edited by sup3ria, 22 June 2016 - 20:46 Uhr.

  • darookie likes this

#3
darookie

darookie

    Lamer

  • Members
  • PipPipPip
  • Likes
    8
  • 23 posts
  • 9 Bedankt
  • 7111135

Du benötigst einen "Headless Browser" der Javascript ausführen kann.

 

Eine ausführliche Liste findest du hier:

Please Login HERE or Register HERE to see this link!

Danke, genau so ein Feedback / Input habe ich gebraucht. Dann Ärger ich mich nun nicht weiter mit Selenium/Firefox rum :)
Ich meld mich bei Bedarf. Thx!





  Topic Forum Started By Stats Last Post Info

user(s) are reading this topic

members, guests, anonymous users


This topic has been visited by 32 user(s)


    0*ptr, 3xc3ll3nt, BlackDante, Born2Hack, Creo, darknide, darookie, dos, Drew, Esox, Flex.Net, Framerater, Kaase, keyb0ardz, kiwitone, Kozuki, m0nk3y, macinchris, NichtDiePolizei, Payload, peppi200, pi^2, pwcca, shok0, sup3ria, superuser123, Swiper, Terrafaux, TEST, tinarchin, Toskom4n, xDevil
Die besten Hacking Tools zum downloaden : Released, Leaked, Cracked. Größte deutschsprachige Hacker Sammlung.