Optinen merkintunnistus (OCR) viittaa ohjelmistoon, joka luo painetusta, kirjoitetusta tai käsinkirjoitetusta asiakirjasta digitaalisen version, jonka tietokoneet voivat lukea ilman, että tekstiä tarvitsee kirjoittaa tai syöttää manuaalisesti. Tekstintunnistusta käytetään yleensä skannatuissa PDF-muodossa olevissa asiakirjoissa, mutta se voi myös luoda tietokoneella luettavan version kuvatiedoston tekstistä.
Mikä on OCR
Tekstintunnistus, joka tunnetaan myös nimellä tekstintunnistus, on ohjelmistotekniikka, joka muuntaa merkit, kuten numerot, kirjaimet ja välimerkit (kutsutaan myös kuvioiksi) painetuista tai kirjoitetuista asiakirjoista sähköiseen muotoon, joka on helpompi tunnistaa ja lukea tietokoneiden ja muiden ohjelmistojen avulla. Jotkut OCR-ohjelmat tekevät tämän, kun asiakirja skannataan tai valokuvataan digitaalikameralla, ja toiset voivat soveltaa tätä prosessia asiakirjoihin, jotka on skannattu tai kuvattu aiemmin ilman tekstintunnistusta. OCR:n avulla käyttäjät voivat etsiä PDF-dokumentteja, muokata tekstiä ja muotoilla asiakirjoja uudelleen.
Mihin OCR:ää käytetään?
Nopeissa päivittäisissä skannaustarpeissa OCR ei ehkä ole niin iso juttu. Jos skannaat paljon, voit säästää paljon aikaa, jos voit etsiä PDF-tiedostoja löytääksesi juuri tarvitsemasi, ja skanneriohjelman OCR-toiminnot tulevat entistä tärkeämmiksi. Tässä on joitain muita asioita, joissa OCR auttaa:
- Automaattinen tietojenkäsittely ja tiedonsyöttö (Esimerkki: Hakijoiden ansioluetteloiden seurantajärjestelmät).
- Tee skannatuista kirjoista haettavia.
- Muunna käsin kirjoitetut skannaukset tietokoneella luettavaksi tekstiksi.
- Tee asiakirjoista hyödyllisempiä lukuohjelmilla, jotka auttavat näkövammaisia käyttäjiä.
- Säilyttää historiallisia asiakirjoja ja sanomalehtiä ja tehdä niistä haettavia.
- Tietojen poiminta ja siirto kirjanpitoohjelmiin (esimerkiksi kuitit ja laskut).
- Hakemistoasiakirjat hakukoneiden käyttöön.
- Rekisterikilpien tunnistus nopeuskamera- ja punavalokameraohjelmistolla.
- Puhesyntetisaattorit ihmisille, jotka eivät osaa puhua – teoreettinen fyysikko Stephen Hawking on ehkä tunnetuin puhesyntetisaattoriohjelman käyttäjä.
Miksi käyttää OCR:ää?
Mikset vain ottaisi kuvaa, eikö niin? Koska et voinut muokata mitään tai etsiä tekstiä, koska se olisi vain kuva. Skannaamalla asiakirjan ja suorittamalla OCR-ohjelmiston voit muuttaa tiedoston sellaiseksi, jota voit muokata ja etsiä.
OCR:n historia
Vaikka tekstintunnistuksen ensimmäinen käyttö on peräisin vuodelta 1914, OCR:ään liittyvien teknologioiden laaja kehitys ja käyttö alkoivat toden teolla 1950-luvulla, erityisesti luomalla erittäin yksinkertaistettuja fontteja, jotka voitiin helpommin muuntaa digitaalisesti luettavaksi tekstiksi. Ensimmäisen näistä yksinkertaistetuista fonteista loi David Shepard, ja se tunnetaan yleisesti nimellä OCR-7B. OCR-7B:tä käytetään edelleen rahoitusalalla luotto- ja pankkikorteissa käytettynä vakiofontina. 1960-luvulla useiden maiden postipalvelut alkoivat käyttää OCR-tekniikkaa postin lajittelun huomattavaan nopeuttamiseen, mukaan lukien Yhdysvallat, Iso-Britannia, Kanada ja Saksa. OCR on edelleen ydintekniikka, jota käytetään postin lajitteluun postipalveluja varten kaikkialla maailmassa. Vuonna 2000 merkittävää tietämystä OCR-tekniikan rajoituksista ja ominaisuuksista käytettiin kehittämään CAPTCHA-ohjelmia, joita käytetään estämään botteja ja roskapostittajia. Vuosikymmenten aikana OCR:stä on tullut tarkempaa ja kehittyneempää siihen liittyvien teknologia-alueiden, kuten tekoälyn, koneoppimisen ja tietokonenäön, edistymisen ansiosta. Nykyään OCR-ohjelmisto käyttää hahmontunnistusta, ominaisuuksien tunnistusta ja tekstinlouhintaa asiakirjojen muuntamiseen nopeammin ja tarkemmin kuin koskaan ennen.
FAQ
-
Kuinka skannaan asiakirjoja puhelimella tai tabletilla?
iOS:ssä avaa Notes-sovellus ja luo uusi muistiinpano. Avaa kamera ja napauta sitten Skannaa asiakirjoja. Avaa Androidissa Google Drive ja valitse Plus (+), napauta sitten Skannata skannataksesi asiakirjan puhelimellasi.
-
Kuinka käytän tekstintunnistusta Adobe Acrobatissa?
Avaa skannatun kuvan sisältävä PDF-tiedosto ja valitse sitten Työkalut > Muokkaa PDF. Acrobat käyttää automaattisesti tekstintunnistusta, jotta voit muokata tekstiä. Valitse vain paikka, johon haluat tehdä muutoksia, ja ala kirjoittaa.
-
Mitä eroa on OCR:n ja OMR:n välillä?
Optinen merkintunnistus (OMR) on ohjelmisto, joka havaitsee merkit paperilla, yleensä kuplaarkilla. OMR:ää käytetään kokeiden, kyselyiden, kyselyiden ja jopa vaalien tulosten käsittelyyn. Toisin kuin OCR, OMR ei voi tulkita sivun merkkejä, vaan se tarkistaa vain merkkien olemassaolon.