Zum Inhalt wechseln

Als Gast hast du nur eingeschränkten Zugriff!


Anmelden 

Benutzerkonto erstellen

Du bist nicht angemeldet und hast somit nur einen sehr eingeschränkten Zugriff auf die Features unserer Community.
Um vollen Zugriff zu erlangen musst du dir einen Account erstellen. Der Vorgang sollte nicht länger als 1 Minute dauern.

  • Antworte auf Themen oder erstelle deine eigenen.
  • Schalte dir alle Downloads mit Highspeed & ohne Wartezeit frei.
  • Erhalte Zugriff auf alle Bereiche und entdecke interessante Inhalte.
  • Tausche dich mich anderen Usern in der Shoutbox oder via PN aus.
 

   

[Hilfe] Alle Wörter von einer Webseite crawlen

- - - - -

  • Bitte melde dich an um zu Antworten
2 Antworten in diesem Thema

#1
Guest_Payload_*

Guest_Payload_*
  • Guests
  • Likes
    0
  • Bedankt

Ich suche nach einer Möglichkeit alle vorhandenen Wörter von einer Seite zu crawlen und diese anschließend in einer .txt oder Datenbank zu speichern. Das ganze sollte unter Linux machbar sein.

 

Hat jemand eine Idee wie sich das realisieren lässt?



#2
pi^2

pi^2

    Hacker

  • Premium Member
  • Likes
    273
  • 181 Beiträge
  • 46 Bedankt

Lässt sich eigentlich mit jeder Programmiersprache realisieren. Würde da Python empfehlen, einfach und unkompliziert.

Please Login HERE or Register HERE to see this link!

 

wäre ein ansatz.



Thanked by 1 Member:
Payload

#3
sup3ria

sup3ria

    Hacker

  • Premium Member
  • Likes
    123
  • 177 Beiträge
  • 50 Bedankt
from BeautifulSoup import BeautifulSoup #pip install beautifulsoup4
import requests #pip install requests

url = 'http://pastebin.com/nBGziNTr' 
r = requests.get(url) 
soup = BeautifulSoup(r.text)
text = soup.find("textarea", { "id" : "paste_code" }).getText().encode('utf-8', 'ignore')
words = text.split(' ')

for i in words:
    print i

Output:

 

 

fort
allied
luxury
absently
key
bases
flophouse
orphanage
wolves
bare
 

 

Um die Wörter in eine CSV-Datei zu schreiben muss man folgendes machen:

import csv
myfile = open('myfile.csv', 'wb')
wr = csv.writer(myfile, quoting=csv.QUOTE_ALL)
wr.writerow(words)

  • smc2014 gefällt das

Thanked by 1 Member:
Payload


  Thema Forum Themenstarter Statistik Letzter Beitrag

Besucher die dieses Thema lesen:

Mitglieder: , Gäste: , unsichtbare Mitglieder:


This topic has been visited by 41 user(s)


    , 3xc3ll3nt, B1nary, Blackhook, Bypass, Cyber Tjak, daredevil_hellfire207, donzen, Drew, Exynos, Framerater, frechdax, gutzuu, h04x, hardstyle1983, hitman56, Hydra, keyb0ardz, lolorollo, m0nk3y, mettbrot, n1nja, nibble nibble, opheus, peppi200, pi^2, Pummeluff, ref0rm, Rothschild, Slixer, smc2014, Stanley, sup3ria, t33t86, Take1T, techfreak, Terrafaux, umarex, Unkiii, VeqasZ, x1z0ng
Die besten Hacking Tools zum downloaden : Released, Leaked, Cracked. Größte deutschsprachige Hacker Sammlung.