summaryrefslogtreecommitdiffstats
path: root/misc/analiza.txt
blob: 1eb07ce2483d9a0f0fb8a15d195bc0ba2692b44f (plain) (blame)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
cd www; find .. -maxdepth 1 -name *.torrent | parallel ./insert.php 'mysql:host=tranzistor:3306\;dbname=travnik\;charset=utf8' travnik $TRAVNIK_DB_PASSWORD {} | tee ../tmp/insert.txt; ocd

analizirati:
- kateri nestandardni ključi so v info slovarjih [izdelal @ s/nestandardni //]
- encodingi
- končnice datotek [izdelal + mime]
- kategoriziranje po imenih torrentov in datotek
- število datotek -- percentile
- velikost torrenta -- percentile
- velikost torenta/število datotek -- percentile
- seznam največjih n torrentov in največjih n datotek
- filmi po letnicah -- percentile
- kodeki (iz imena; x265, x264, ...)
- resolucije (iz imena, 4K, 4K60fps, 720p)
- top n source
- tipi vsebine: filmi/porn/knjige/revije/igrice/programi/dokumenti/ilegalne (TEŽKO, veliko ročnega dela, ChatGPT -- lahko tudi samo po tipu reprezantativne datoteke)
- ip naslovi + geoip
- odjemalci: verzije, popularnost v državi
- porti odjemalcev -- distribucija
- koliko % torrentov ima google -- sear.c (majhen sample, ne vseh)
- https://pypi.org/project/parse-torrent-title/
- graf števila prenesenih torrentov v odvisnosti od ure

citirati:
- bep
- parallel, r

napisati:
- teorija DHT
- ostali projekti crawlanja DHTja
- program travnik in delovanje
- struktura podatkovne zbirke
- programi za analizo

analiza za naprej, z novimi podatki:
- koliko časa so peeri živi po prvem videnju - percentile + glede na državo
- koliko časa po DL metadata imajo peeri še vedno metadata - percentile + glede na državo + glede na torrent
- število peerov v swarmu torrentov skozi čas (PeX -- treba implementat uTP in TCP)
- torrenti z največjimi swarmi
- kako hitro peeri nalagajo/bandwidth glede na has_pieces - percentile + glede na državo + glede na torrent
- a obstaja kak LPD na T-2 /16 mreži?