Tekstinių failų konvertavimas iš vieno formato į kitą Mac kompiuteriuose

Tema: 

„macOS“ turi seną, bet galingą įrankį, galintį akimirksniu konvertuoti „Word“, HTML, „Safari Web Archive“ ar RTF failus, bet daugelis „Mac“ naudotojų net nenutuokia, kad jį turi.

„macOS“ turi daug patogių būdų peržiūrėti ir atidaryti failus – „Quick Look“ leidžia greitai peržiūrėti, o „TextEdit“ atidaro daugelio tekstinių formatų failus. Tačiau kartais prireikia išgauti tik tekstą ar pakeisti failo formatą – pavyzdžiui, iš „Safari Web Archive“ ar „Word“ dokumento pasidaryti paprastą RTF failą.

Gera žinia ta, kad tam nereikia nei papildomų programų, nei konverterių. „macOS“ turi integruotą „Terminal“ įrankį — komandą textutil.

„textutil“ yra viena iš senesnių komandų, pristatyta „Mac OS X 10.4 Tiger“ versijoje prieš dvidešimt metų. Nepaisant to, ji išlieka vienu iš mažiausiai naudojamų šiuolaikinėje „macOS“. Ji veikia prisijungdama prie „macOS“ teksto sistemos ir naudodama bet kurį iš šių devynių formatų:

textutil – tai vienas seniausių macOS komandinių įrankių, įdiegtas dar „Mac OS X 10.4 Tiger“ prieš dvidešimt metų. Nors senokas, jis visiškai veikia ir šiandien, o dauguma vartotojų jo nė nepastebi.

Įrankis veikia naudodamas macOS vidinę teksto apdorojimo infrastruktūrą ir palaiko šiuos formatus:

  • paprastas tekstas (txt)
  • HTML (html)
  • Rich Text, RTF (rtf)
  • RTFD (rtfd)
  • Microsoft Word .doc ir .docx (doc, docx)
  • WordprocessingML, WordML (wordml)
  • OpenDocument Text (odt)
  • „Safari Web Archive“ (webarchive)

Formatai nurodomi skliausteliuose – būtent juos reikia naudoti komandoje.

Konvertavimo kokybė labai aukšta – tokia pati, kokią matytum „Apple“ programose.

Pastaba : jei faile yra nuotraukų ar kito ne tekstinio turinio, „textutil“ jo neišsaugos.

Naudojimas

Komandos „textutil“ naudojimas yra paprastas, tereikia atsidarius „Terminal“ aplikaciją ar jos atitikmenį įrašyti komandą, raktą (nurodantį kokį veiksmą norite atlikti arba formatą į kurį norite failą konvertuoti) ir failą - šaltinį.

Failo informacijos peržiūra

Failo informacijos peržiūra yra paprasčiausia komanda. Žemiau esančiuose pavyzdžiuose manofailas yra failo šaltinio pavadinimas ir naudojant komandą turėsite nurodyti savo failo-šaltinio pavadinimą. Kelio į tą failą nenurodau, nes manau, kad cd į direktoriją, kurioje yra failas-šaltinis jau padaryta.

textutil -info manofailas

Ši komanda parodys bazinę failo-šaltinio informaciją: žodžių skaičių, metaduomenis, koduotę, formato tipą.

Failo konvertavimas į kitą formatą

Pagrindinė failo-šaltinio konvertavimo į kitą formatą komanda:

textutil -convert rtf manofailas.html

Aukščiau esantis „textutil“ komandos raktas -convert nurodo kad reikia vykdyti konvertavimą, toliau esantis rtf nurodo į kokį formatą konvertuoti ir galiausiai, komandos pabaigoje nurodomas failo-šaltinio pavadinimas - šiuo atveju html failas.

Komanda sukurs rtf failą tokiu pačiu pavadinimu, pvz. manofailas.rtf ir patalpins jį toje pačioje direktorijoje kur ir išeitinis failas.

Kelių failų apjungimas

Kita „textutil“ funkcija yra tekstinių failų sujungimas į vieną failą, sudarytą iš sujungtų įvesties failų.

Pavyzdžiui turite kelis failus: manofailas1.html, manofailas2.webarchive ir manofailas3.docx. Norite juos sukonvertuoti į rtf formatą ir sujungti į vieną failą ir išsaugoti kaip manofailas-sukonvertuotas.rtf

Tokiu atveju komanda turi atrodyti taip (visa komanda yra viena viena eilutė):

textutil -cat rtf -output manofailas-sukonvertuotas.rtf -- manofailas1.html manofailas2.webarchive manofailas3.docx

Atkreipkite dėmesį į tai, kad prieš nurodant failus-šaltinius yra du minuso ženklai.

Komanda konvertuoja nurodytus failus į nurodytą formatą ir sujungia juos viename faile tokia eilės tvarka kokia jie yra išvardinti komandoje.

Papildomos galimybės

„textutil“ komanda turi ir daugiau galimybių, kurias pažiūrėti galite „Terminal“ aplikacijos lange įvedę man textutil. Pavyzdžiui galite pakeisti kodavimą iš UTF-8 į UTF-16, keisti šrifto dydį, pašalinti tam tikrus HTML elementus, pridėti metaduomenis.

„macOS Tahoe“ gali rodyti įspėjimus dėl šriftų pakeitimų, jei konvertuojamame faile yra nepalaikomi šriftai ar tie, kurių nėra įdiegtų sistemoje.

Pavyzdžiui norėdami .txt failą esantį jūsų naudotojo dokumentų direktorijoje konvertuoti į .rtf ir jame naudoti 12 dydžio „Times“ šriftą:

textutil -convert rtf -font Times -fontsize 12 ~/Documents/manofailas.txt

Tokia komanda jūsų Documents direktorijoje sukurs failą manofailas.rtf, kuriame konvertuotam „manofailas.txt“ failo turiniui atvaizduoti bus naudojamas 12 dydžio „Times“ šriftas.

Apibendrinimas

  • Norint gauti informaciją apie failą textutil -info manofailas
  • galimi iš/į konvertavimo formatai: txt, html, rtf, rtfd, doc, docx, wordml, odt, webarchive
PAPILDOMA INFORMACIJA

Apie tekstų failų formatus

„textutil“ konvertuoja devynis skirtingus formatus, kurių dauguma plačiai naudojami dokumentams, daugiausia paremtiems tekstu. Žemiau šiek tiek informacijos apie kiekvieną iš jų.

Paprastas tekstas

Įprastai paprasto teksto failai „macOS“ sistemoje dažniausiai koduojami naudojant „Unicode UTF-8“, pvz: 61 C4 8D 69 C5 AB 2C 20 6B 61 64 20 73 6B 61 69 74 6F 74 65. Žinoma, jame nėra jokios šrifto ar išdėstymo informacijos, tik neapdorotas turinys.

Raiškusis tekstas (RTF)

Šį formatą ir jo specifikaciją „Microsoft“ pristatė praėjusio šimtmečio 1980 ir 1990 metais, siekdama suderinamumo keičiantis dokumentais tarp platformų, daugiausia tarp savo produktų. Šią funkciją „Mac OS X“ sistemoje palaikė „Cocoa“ ir jos raiškiojo teksto rengyklė „TextEdit“, paveldėta iš „NeXTSTEP“. Formatas apima dvi pagrindines funkcijų grupes: stilizuotą tekstą su šriftais ir paprastą išdėstymą, kuris buvo išplėstas, kad palaikytų vaizdų ir kito netekstinio turinio įterpimą.

RTF failus sudaro tekstas, iš pradžių ASCII, bet dabar palaikomas „Unicode“. Nors tai nėra žymėjimo kalba, jo šaltinio kodas atrodo panašiai.

Kiekvienas RTF failas pradedamas su „magiškais“ simboliais {\rtf, kurie pateikia informaciją apie kodo atitiktį. Po to pateikiama preambulė, kurioje greičiausiai pateikiama informacija apie platformą, šriftų ir spalvų lentelės. Pastarojoje turėtų būti išplėsta spalvų lentelė, skirta „macOS“. Tada pateikiamas turinys, paprastai nustatantis šriftą ir dydį, ir pastraipos turinys.

RTFD

RTF turi keletą trūkumų, ypač tvarkant įterptus vaizdus, ​​todėl „NeXTSTEP“ jį išplėtė iki paketinio formato – „Rich Text Format Directory“, RTFD, kuris buvo perkeltas į „Mac OS X“. Dokumento RTF turinys saugomas faile pavadinimu TXT.rtf kartu su atskirais failais, kuriuose yra keičiamo dydžio vaizdai, kurie gali apimti PDF, o visas katalogas traktuojamas kaip vienas failas. Nors tai gerai veikia „macOS“, „Windows“ sistemoje jis niekada neprigijo, todėl nesulaukė pelnyto populiarumo.

Microsoft Word

Nuo pat pradžių 1983 m. iki perėjimo prie „docx“, „Microsoft Word“ originalus failo formatas turėjo plėtinį .doc. Tai dvejetainis formatas, kuris buvo sėkmingai pakeistas atvirkštiniu būdu „OpenOffice“ ir „LibreOffice“ atvirojo kodo programose, todėl įtrauktas į daugelį produktų, įskaitant „Cocoa“ ir „macOS“.

Nuo 2002 m. „Microsoft Word“ naudojo XML pagrindu sukurtų formatų seriją, o nuo 2006 m. atitiko pirmiausia „Ecma“, o vėliau ISO/IEC paskelbtus standartus, naudodama .docx plėtinį ir žinomą kaip „Office Open XML“. Palaikymas buvo integruotas į „macOS“.

HTML

Nuo išleidimo 1993 m. ši kalba vystėsi bei kito keletame versijų ir yra žiniatinklio žymėjimo kalba. Jos struktūra turėtų būti gerai žinoma ir susideda iš pradinio dokumento tipo deklaracijos, po kurios seka pažymėti elementai, kuriuose yra metaduomenys ir turinys. HTML rašymo palaikymas yra integruotas į „macOS“ „Cocoa HTML Writer“. Ji naudoja CSS, kad apibrėžtų antraštės stilius, kurie vėliau taikomi turinio dalims, pavyzdžiui:

<body>
<p class="p1">Tai yra teksto bandymas.</p>
</body>

webarchive

Šis formatas yra „Apple“ ir jos „Safari“ naršyklės nuosavybė ir jį sudaro rodomo tinklalapio serializuotas turinys XML formatu.

Po pradinio XML ir dokumento tipo deklaracijos kaip ypatybių sąrašo, jį sudaro raktų ir reikšmių porų žodynas, įskaitant žiniatinklio išteklių subžodynus. Kiekvienos poros turinys, „WebResourceData“, yra užkoduotas „Base-64“ formatu, todėl jo neįmanoma nuskaityti teksto redaktoriumi.

WordML

Tarp originalių .doc ir „Ecma .docx“ formatų „Microsoft Word“ XML formate naudojo tarpinį „WordProcessingML“ (arba „WordML“) formatą. Po standartinės XML antraštės deklaruojama
<?mso-application progid=”Word.Document”?>
po kurios pateikiamas schemų sąrašas. Nors dabar tai daugiausia istorinė reikšmė, kai kurie seni „Word“ dokumentai gali likti šiame formate.

ODT

Tai yra „OpenDocument Text“ – dar vienas XML pagrindu sukurtas formatas, kuris buvo sukurtas maždaug tuo pačiu metu kaip ir „WordML“ ir kurį palaiko daugelis nemokamų programų bei „biuro“ programų paketų. Jo atidarymo struktūra panaši į „WordML“, tačiau nurodo „Oasis“ ir „OpenDocument“ šaltinius.

Pages

Vienas svarbus „textutil“ palaikomų teksto formatų sąrašo trūkumas yra tas, kad nepalaikomas „Apple“ „Pages“ formatas. Šis patentuotas formatas gerokai pasikeitė 2009 m. Šiuo metu .pages dokumentas yra suarchyvuotas paketas, kuriame yra dokumento miniatiūrų JPEG peržiūros ir du failų aplankai.

Apytikslis skaitymo laikas – 5 minutės.
Pasidalinkite straipsniu:
Apie Ramūną Blavaščiūną

Fotografijos, geros technikos ir kavos mylėtojas, didelę savo laisvalaikio dalį skiriantis straipsnių „Mac Arena“ rašymui.