Úklid dat na 10 harddiscích

Všechny ostatní programy, které nemají samostatnou sekci

Moderátor: Moderátoři Živě.cz

Odeslat příspěvekod klinecvrakve 7. 12. 2016 07:35

Za ta léta se mi tu nahromadilo asi 10 harddisků. Na každém jsou nějaké zálohy. Nevíte poradit, jak by se takový objem dat dal rozumně uklidit?

Ideální by bylo vše zkopírovat na diskové pole a pak by se na to dal pustit nějaký program na kontrolu duplicit. Třeba Check Identical Files. Duplicity vymazat. Zbytek utřídit. Jenže takové diskové pole nemám. Přejít to ručně disk po disku by zabralo několik týdnů práce. To se nevyplatí.

Proto se ptám, zda neexistuje nějaký program, který by uměl pomoci.

Struktura dat na těch harddiscích je taková, že mnoho věcí se tam opakuje. Je to archiv asi 20 let práce. Miliony souborů, fotek, videí, / ne filmy, ale soukromé videa, fotky, zakázky /. V uklizeném stavu by se to vešlo lze na 8T disk, takto to ale mám na 10 asi 2T až 3T discích.
klinecvrakve
Junior

Odeslat příspěvekod JirkaVejrazka 7. 12. 2016 09:23

Asi bych to delal na dva pruchody. Nejdriv bych pripojil kazdy disk zvlast a pro kazdy soubory spocital SHA1 (treba programem sha1deep nebo jednim ze stovky dalsich, co to umi). Tim by vzniknul textovy soubor o velikosti par MB, ktery by zachycoval, co je na kazdem disku. Ten by byl ulozen na pocitaci.

Vzniklo by 10 textovych souboru (pro kazdy disk jeden) ktere by se daly pouzit na hledani duplicit. Nevim o zadnem programu, ktery by to umel zpracovat, ale je to na cca 30 radek v nejakem skriptu. A vysledkem by mohlo byt 10 .cmd nebo .sh souboru, kazdy se seznamem souboru, ktere se maji z kazdeho HDD smazat (tak, aby nekde zustala jedna kopie).

No a v druhem pruchodu ke kazdemu pripojenemu disku na nej pustit jeho odpovidajici "mazaci" skript.

Cele by to trvalo dny az tydny, ale je to myslim jediny pouzitelny zpusob, ktery nepotrebuje velke diskove pole.
JirkaVejrazka
Mírně pokročilý

Odeslat příspěvekod turbot 7. 12. 2016 10:38

Kedze su to zalohy.. A cela leta si ich nepotreboval, tak ich jednoducho vymaz, nebudu ti chybat :)
turbot
Junior

Odeslat příspěvekod 1stein 7. 12. 2016 10:51

inak da sa to tak, ze do MB pripojit max pocet diskov (ja mam 8 sata portov) a tak ich rucne prejst alebo nejakym sw.
http://www.jgoodies.com/freeware/jdiskreport/ skusil by som nim naskenovat disky a pozriet statistiky
1stein
Junior

Odeslat příspěvekod vladimir 7. 12. 2016 11:26

klinecvrakve píše:Ideální by bylo vše zkopírovat na diskové pole a pak by se na to dal pustit nějaký program na kontrolu duplicit.
Pokud jsou ty disky naformátované jako NTFS, lze je připojit k počítači do nějakých složek, tedy se nebudou hlásit jako písmena, ale jako jeden velký disk.

turbot píše:Kedze su to zalohy.. A cela leta si ich nepotreboval, tak ich jednoducho vymaz, nebudu ti chybat :)
Obávám se, že tomu sice říká zálohy, ale ve skutečnosti jsou to (alespoň z části) jediné kopie.
Naposledy upravil vladimir dne 7. 12. 2016 11:42, celkově upraveno 1
vladimir
Expert
Uživatelský avatar

Odeslat příspěvekod klinecvrakve 7. 12. 2016 11:41

Ano, bohužel, mnoho z těch dat jsou jen kopie, některé budou jedinečné, takže nedá se to prostě ignorovat. Problém je, že když občas hledám nějaké data, je třeba hrabat na kterém disku to asi tak může být. Dříve jsem používal katalogizační software, ale i to je těžkopádné řešení.

Řešit to přes SHA1 si netroufám, nastane malá chyba v programu a je problém. Přece jen souhrnně to jsou miliony souborů v desetitisících adresářů. chaos.

vladimir to připojení k počítači do složek není špatný nápad.

Celkově tedy asi nejsou na takový problém řešení.

Děkuji. Asi to chce nějaké zařízení jako připojit více disků najednou k PC.
klinecvrakve
Junior

Odeslat příspěvekod JirkaVejrazka 7. 12. 2016 11:47

Nerozumim tomu, jaky problem by mel nastat pri reseni pres SHA1 (coz je stejne metoda, kterou pouziva vetsina "deduplikacnich" programu), ale jsou to tvoje data :)
JirkaVejrazka
Mírně pokročilý

Odeslat příspěvekod klinecvrakve 7. 12. 2016 11:55

Nejsem programátor, takže při návrhu bych byl odkázán spolehnout se na kód někoho jiného. Nechci ladit nějaký vznikající skript na vlastních datech. Navíc jak ošetřit umístění v adresářích ...

Spíše to vidím najít nějaké řešení / řadič? / Aby se k počítači dalo připojit více disků najednou.
klinecvrakve
Junior

Odeslat příspěvekod JirkaVejrazka 7. 12. 2016 12:17

Budes potrebovat 10x neco takoveho https://www.alza.cz/redukce-usb2-0-na-i ... 70.htm?o=3 a nejaky vetsi USB hub. Nebo dva.
JirkaVejrazka
Mírně pokročilý

Odeslat příspěvekod Ming 7. 12. 2016 12:27

Asi bych postupoval od největších souborů (může se pročistit kapacita disků), připojit disků kolik půjde, namountovat na složky, hledat duplicity, promazávat a zároveň to seskládávat= mít třeba disk(y)jen na videa či foto, další na pracovní věci atd. Otázkou je jestli to jsou opravdu archivy, nebo nějaké třeba měsíční backupy se "stejnými" soubory/dokumenty, pouze v různé fázi rozpracovanosti, ev. s opakujícími se soubory/ dokumenty.
Každopádně to bude long-time job.
Naposledy upravil Ming dne 7. 12. 2016 12:32, celkově upraveno 1
Be fun!
Ming
Ming
Junior
Uživatelský avatar

Odeslat příspěvekod klinecvrakve 7. 12. 2016 12:28

USB 2? To by počítač dělal několik týdnů. Konkrétně ten prvek mám koupený kvůli starému IDE disku. Je pomalý. Na takové operace by to chtělo USB3 nebo eSATA prvky. Asi to udělám po menších dávkách. Děkuji za tip, byla by to také cesta.
klinecvrakve
Junior

Odeslat příspěvekod JirkaVejrazka 7. 12. 2016 12:43

Kdyby ses nahodou rozhodl jit tou cestou skriptu, ozvi se. Klidne bych ti to napsal, je to tak na dvacet minut prace.

Co se tyka toho USB2 extenderu, hledal jsem hlavne podle ceny. Netusil jsem, ze jsi ochotny do toho pripadne vrazit nemale penize, abys usetril par TB (coz nedava pri cenach disku moc ekonomicky smysl).
JirkaVejrazka
Mírně pokročilý

Odeslat příspěvekod omualo 7. 12. 2016 12:53

JirkaVejrazka píše:Nerozumim tomu, jaky problem by mel nastat pri reseni pres SHA1 (coz je stejne metoda, kterou pouziva vetsina "deduplikacnich" programu), ale jsou to tvoje data :)

Kolize hashu, sance je prakticky nulova, ale cista nula to neni .... Nastesti se nejedna o MD5, kde se na to narazit v realu mohlo (dokonce to slouzilo k falsovani digitalnich certifikatu).
omualo
Junior

Odeslat příspěvekod JirkaVejrazka 7. 12. 2016 13:24

Ta moznost kolize je na par milionech souboru prakticky zanedbatelna. Navic se da ucinne eliminovat kombinaci dvou hashu (treba SHA1 a MD5)
JirkaVejrazka
Mírně pokročilý

Odeslat příspěvekod klinecvrakve 7. 12. 2016 22:13

No velké peníze do toho investovat nechci. Zkusím nejdřív najít nějaké řešení, lze řadič na pár disků a to by mohlo být rychlejší než ty USB kolébky. Hlavně mohu pracovat s vědomím, že asi na takový problém neexistuje hotové softwarové řešení.

Děkuji za konzultoval. Kdybych se rozhodl pro ty skripty, napíšu. Mockrát děkuji za nabídku.
klinecvrakve
Junior


Kdo je online

Uživatelé procházející toto fórum: Žádní registrovaní uživatelé a 0 návštevníků