Jump to content

Willkommen Gast

Navigation

Links

Als Gast hast du nur eingeschränkten Zugriff!


Sign In 

Create Account

Du bist nicht angemeldet und hast somit nur einen sehr eingeschränkten Zugriff auf die Features unserer Community.
Um vollen Zugriff zu erlangen musst du dir einen Account erstellen. Der Vorgang sollte nicht länger als 1 Minute dauern.

  • Antworte auf Themen oder erstelle deine eigenen.
  • Schalte dir alle Downloads mit Highspeed & ohne Wartezeit frei.
  • Erhalte Zugriff auf alle Bereiche und entdecke interessante Inhalte.
  • Tausche dich mich anderen Usern in der Shoutbox oder via PN aus.
 

   

[Hilfe] Alle Wörter von einer Webseite crawlen

- - - - -

  • Please log in to reply
2 replies to this topic

#1
Guest_Payload_*

Guest_Payload_*
  • Guests
  • Likes
    0
  • Bedankt

Ich suche nach einer Möglichkeit alle vorhandenen Wörter von einer Seite zu crawlen und diese anschließend in einer .txt oder Datenbank zu speichern. Das ganze sollte unter Linux machbar sein.

 

Hat jemand eine Idee wie sich das realisieren lässt?



#2
pi^2

pi^2

    Hacker

  • Premium Member
  • Likes
    273
  • 181 posts
  • 46 Bedankt

Lässt sich eigentlich mit jeder Programmiersprache realisieren. Würde da Python empfehlen, einfach und unkompliziert.

Please Login HERE or Register HERE to see this link!

 

wäre ein ansatz.



Thanked by 1 Member:
Payload

#3
sup3ria

sup3ria

    Hacker

  • Premium Member
  • Likes
    125
  • 177 posts
  • 52 Bedankt
from BeautifulSoup import BeautifulSoup #pip install beautifulsoup4
import requests #pip install requests

url = 'http://pastebin.com/nBGziNTr' 
r = requests.get(url) 
soup = BeautifulSoup(r.text)
text = soup.find("textarea", { "id" : "paste_code" }).getText().encode('utf-8', 'ignore')
words = text.split(' ')

for i in words:
    print i

Output:

 

 

fort
allied
luxury
absently
key
bases
flophouse
orphanage
wolves
bare
 

 

Um die Wörter in eine CSV-Datei zu schreiben muss man folgendes machen:

import csv
myfile = open('myfile.csv', 'wb')
wr = csv.writer(myfile, quoting=csv.QUOTE_ALL)
wr.writerow(words)

  • smc2014 likes this

Thanked by 1 Member:
Payload


  Topic Forum Started By Stats Last Post Info

This topic has been visited by 45 user(s)


    , 3xc3ll3nt, B1nary, Blackhook, Bot4ng, Bypass, Cyber Tjak, daredevil_hellfire207, donzen, Drew, Exynos, Framerater, frechdax, G4miT, gutzuu, h04x, hardstyle1983, hitman56, Hydra, keyb0ardz, kiwitone, lolorollo, loziov1, m0nk3y, mettbrot, n1nja, nibble nibble, opheus, peppi200, pi^2, Pummeluff, ref0rm, Rothschild, Slixer, smc2014, Stanley, sup3ria, t33t86, Take1T, techfreak, Terrafaux, umarex, Unkiii, VeqasZ, x1z0ng
Die besten Hacking Tools zum downloaden : Released, Leaked, Cracked. Größte deutschsprachige Hacker Sammlung.