PyNesca/modules/network_scan/GDocsScanner.py

import json
import requests
from urllib.parse import urlencode, urljoin
import lxml.html
from core.prototypes.AbstractScanner import AbstractScanner
class GDocsScanner(AbstractScanner):
    def __init__(self, timeout:"timeout"):
        pass
    def scan_address(self, prefix:"gdoc_prefix", ghash:"gdoc_hash") -> {"response",
    "gdoc_info", "gdoc_title"}:
        print("Scanning", prefix, ghash)
        response = requests.get(prefix+ghash)
        if response.status_code != 200:
            return {"response":response, "gdoc_info":None, "gdoc_title":None}
        print(response.status_code)
        response_tree = lxml.html.fromstring(response.text)
        (title,) = response_tree.xpath("//meta[@property='og:title']/@content")
        (token_container,) = response_tree.xpath('//script[contains(text(),"token")]')
        token_container = token_container.text
        token_container = token_container[token_container.find("{"):token_container.rfind("}") + 1]
        #print(json.dumps(json.loads(token_container), indent=4, sort_keys=True))
        try:
            info_params = json.loads(token_container)["info_params"]
        except json.JSONDecodeError:
            return {"response":response, "gdoc_info":None, "gdoc_title":None}
        #print(info_params)
        info = None
        if "token" in info_params.keys():
            info_params.update({"id":ghash})
            info_url = urljoin(prefix, ghash+"/docdetails/read?"+urlencode(info_params))
            print(info_url)
            info_text = requests.get(info_url).text
            info = json.loads(info_text[info_text.find("\n") + 1:])
            print(info)
        return {"response":response, "gdoc_info":info,
        "gdoc_title":title}
Added some russian docs. Changed prototype behaviour. Added __init__ args to config. Now JSONStorage supports dynamic database schemes defined in config. 2019-11-13 16:15:54 +00:00			`import json`
			`import requests`
			`from urllib.parse import urlencode, urljoin`
			`import lxml.html`
			`from core.prototypes.AbstractScanner import AbstractScanner`
			`class GDocsScanner(AbstractScanner):`
			`def __init__(self, timeout:"timeout"):`
			`pass`
			`def scan_address(self, prefix:"gdoc_prefix", ghash:"gdoc_hash") -> {"response",`
			`"gdoc_info", "gdoc_title"}:`
			`print("Scanning", prefix, ghash)`
			`response = requests.get(prefix+ghash)`
			`if response.status_code != 200:`
			`return {"response":response, "gdoc_info":None, "gdoc_title":None}`
			`print(response.status_code)`
			`response_tree = lxml.html.fromstring(response.text)`
			`(title,) = response_tree.xpath("//meta[@property='og:title']/@content")`
			`(token_container,) = response_tree.xpath('//script[contains(text(),"token")]')`
			`token_container = token_container.text`
			`token_container = token_container[token_container.find("{"):token_container.rfind("}") + 1]`
			`#print(json.dumps(json.loads(token_container), indent=4, sort_keys=True))`
			`try:`
			`info_params = json.loads(token_container)["info_params"]`
			`except json.JSONDecodeError:`
			`return {"response":response, "gdoc_info":None, "gdoc_title":None}`
			`#print(info_params)`
			`info = None`
			`if "token" in info_params.keys():`
			`info_params.update({"id":ghash})`
			`info_url = urljoin(prefix, ghash+"/docdetails/read?"+urlencode(info_params))`
			`print(info_url)`
			`info_text = requests.get(info_url).text`
			`info = json.loads(info_text[info_text.find("\n") + 1:])`
			`print(info)`
			`return {"response":response, "gdoc_info":info,`
			`"gdoc_title":title}`