Hledání duplicitních souborů

Všechny ostatní programy, které nemají samostatnou sekci

Moderátor: Moderátoři Živě.cz

Odeslat příspěvekod tonbar 4. 11. 2018 17:45

Omlouvám se za asi blbý dotaz...Potřebuji vyházet duplicitní soubory a udělat pořádek v datech. Mám DoubleKiller, vím jak na to, jen mně zajímá, jak moc je spolehlivé porovnání podle CRC? Může se stát , že dva soubory mají stejné CRC a nejsou naprosto identické? A co když dám porovnání bajt-za-bajtem? Jedná se o velké množství souborů a nerad bych vymazal něco, co nebude identické. A vizuální kontrola vzhledem k množství nepřichází v úvahu. Dík za radu
tonbar
Kolemjdoucí

Odeslat příspěvekod soban 4. 11. 2018 18:13

Teoreticky to možné je aby dva soubory měly stejné CRC pak musíš skontrolovat obsah.....
/----------------------------------------\
| Petr Šobáň |
| Olomouc |
\----------------------------------------/
soban
Pokročilý

Odeslat příspěvekod tonbar 4. 11. 2018 18:33

a když dám porovnání podle CRC a zároveň porovnání bajt-za-bajtem?
Chápu to spávně, že každý soubor je vlastně nějaká posloupnost 1 a 0, kdy každá ta jednička nebo nula je jeden bajt? Takže když bych dal porovnání bajt-za-bajtem, tak vlastně zkontroluje každý jeden znak posloupnosti a pokud to vyhodnotí jako shodu, tak je to shoda na 100%?
tonbar
Kolemjdoucí

Odeslat příspěvekod Wikan 4. 11. 2018 18:53

1 nebo 0 je bit. Bajt je 8 bitů.
Na CRC se vykašli a použij něco spolehlivějšího, třeba SHA256. Že by dva různé soubory měly stejný hash je extrémně nepravděpodobné.
Wikan
Moderátor
Uživatelský avatar

Odeslat příspěvekod tonbar 4. 11. 2018 19:06

Jsem lama, SHA256 už jsem viděl v souvislosti se šifrováním dat, ale jak to použít na hromadné vyhledání stejných souborů absoloutně netuším
tonbar
Kolemjdoucí

Odeslat příspěvekod suk 4. 11. 2018 19:09

Myslím, že ten software neporovnává soubory podle CRC nebo nějakých hashů. Hashe/CRCy jsou dobré jako takový hint, že soubory by mohly mít identický obsah. Není totiž prakticky možné v rozumném čase porovnat tisíce velkých souborů mezi sebou, zatímco porovnat tisíce krátkých hashů (které budou i snadno seřaditelné (resp. uložitelné do stromové struktury) a tím i prohledávatelné) je věcí okamžiku. A soubory se mohou porovnávat až tehdy, mají-li stejný CRC.
Pokud nesouhlasíte s mým názorem, popřemýšlejte sami nad sebou. Opravdu si myslíte, že já bych se mohl mýlit?
----
You are an inspiration for a birth control...
suk
Mírně pokročilý
Uživatelský avatar

Odeslat příspěvekod Wikan 4. 11. 2018 19:17

V praxi stačí jenom porovnat ty hashe.
Wikan
Moderátor
Uživatelský avatar

Odeslat příspěvekod tonbar 4. 11. 2018 19:45

A máte na to nějaký vyzkoušený program?
tonbar
Kolemjdoucí

Odeslat příspěvekod Pepeecek 4. 11. 2018 21:03

Hledat duplicitní soubory umí třeba Total commander.
Pepeecek
Junior

Odeslat příspěvekod freekarol 4. 11. 2018 23:17

suk píše:Není totiž prakticky možné v rozumném čase porovnat tisíce velkých souborů mezi sebou.


Např. porovnání podle data či velikosti souboru, to umožnuje, v celku rychle.
freekarol
Junior
Uživatelský avatar

Odeslat příspěvekod suk 4. 11. 2018 23:32

Pravda, velikost je docela dobrej ukazatel, navíc dostupnej z metadat - tedy není nutnost vůbec číst obsah. To jsem zapomněl :)
Pokud nesouhlasíte s mým názorem, popřemýšlejte sami nad sebou. Opravdu si myslíte, že já bych se mohl mýlit?
----
You are an inspiration for a birth control...
suk
Mírně pokročilý
Uživatelský avatar

Odeslat příspěvekod tonbar 5. 11. 2018 16:13

Total commander porovnává pouze podle názvu, data a velikostí. Mám binec ve fotkách, některé telefony bohužel měnily datum, tím pádem TC není použitelý. Za ta léta mám spoustu průběžných záloh a tudíž spoustu duplicitních fotek a souborů. Použil jsem i program na úpravu fotek, který nastavil datum vytvoření fotky podle data z EXIF, ale ani to moc nepomohlo. Fotky mají název ve tvaru IMG_YYMMDD_HHMMSS, jenže jsem zjistil, že jsou dvě stejné fotky s různým názvem, kdy se liší o 1 s. Tudíž vyhledávat podle názvu a data nelze použít. Takže dotaz by vlastně mohl vypadat i takto: Je porovnání dle velikosti, CRC a porovnání bajt-za-bajtem stoprocentní?
tonbar
Kolemjdoucí

Odeslat příspěvekod freekarol 5. 11. 2018 23:29

Je možné zkusit na to FreeFileSync, ten umí porovnat složky na základě času, velikosti a také porovnat přímo obsah. Poslední zmíněné, jsem ještě nepotřeboval, takže netuším, za jak dlouho to zvládne.
freekarol
Junior
Uživatelský avatar

Odeslat příspěvekod Nargon 7. 11. 2018 10:58

tonbar píše:Je porovnání dle velikosti, CRC a porovnání bajt-za-bajtem stoprocentní?

ANO. Porovnání bajt-za-bajtem je vždy přesné. To opravdu zkontroluje celý obsah dvou souborů a identifikuje zcela identické soubory. CRC a Velikost tam pro porovnání ani být nemusí, ale protože bajtové porovnání je celkem složité tak se velikost a CRC používají jako určité zrychlení a rychlá identifikace souborů, které zcela určitě identické nejsou.
Desktop: Ryzen 7 1800X (3.95GHz, 1.35V), Asus Crosshair VI Hero, 16GB DDR4 Ram (3200MHz), 128GB SSD + 3TB HDD, Nvidia GTX 1080
Notebook: Asus UL50VT 15.6" (SU7300@1.7GHz, 4GB ram, 500GB HDD, Intel GMA 4500MHD + nVidia G210M, dlouha vydrz cca 7+ hod)
Nargon
Moderátor

Odeslat příspěvekod tonbar 8. 11. 2018 09:45

Super, díky...Víš já už jsem několikrát to chtěl udělat, ale prostě mám pořád obavy ty duplicitní soubory smáznout... Vždy jsem je přesunul do aderesáře Smaž, ale nikdy jsem je nesmazal, takže efekt žádný. Tak teď to snad dokážu 8-D .
Tím, že mně program vyhodnotí jako shodu i zároveň řekne, že soubory nejsou poškozené, že jsou čitelné, že?

Dík za rady
tonbar
Kolemjdoucí