Аналіз можливостей застосування моделі Vision Grid Transformer для аналізу структури документів українського бухгалтерського обліку

Максим Коростіль; Ілона Лагун

doi:10.15407/fmmit2025.40.089

Максим Коростіль
Ілона Лагун

DOI: https://doi.org/10.15407/fmmit2025.40.089

Ключові слова: аналіз структури документа, глибоке навчання, оптичне розпізнавання символів, рукописне розпізнавання тексту, автоматизація бухгалтерського обліку, україномовні бухгалтерські документи

Анотація

У сучасних умовах цифрової трансформації зростає потреба в автоматизації обробки бухгалтерських документів, зокрема в Україні, де значна частина первинної документації зберігається у паперовому вигляді або у форматі сканованих зображень. Ефективне вилучення інформації з таких документів вимагає застосування передових методів штучного інтелекту, зокрема глибокого навчання та мультимодального аналізу даних. У статті розглянуто можливість застосування модклі Vision Grid Transformer (VGT) для аналізу структури українських бухгалтерських документів. Модель VGT поєднує в собі два інформаційні потоки – візуальний (на основі Vision Transformer, ViT) та текстово-просторовий (на основі Grid Transformer, GiT), що забезпечує комплексне представлення документа як за зовнішнім виглядом, так і за змістом. Додаткову гнучкість моделі забезпечують методи попереднього навчання – MGLM (Masked Grid Language Modeling) та SLM (Segment Language Modeling), які дозволяють вивчати як локальні, так і глобальні контекстуальні залежності між текстовими елементами. У дослідженні акцентовано увагу на особливостях адаптації моделі VGT до українського контексту. Окреслено головні виклики, серед яких – відсутність якісних публічних анотованих датасетів українською мовою, необхідність високоточного оптичного розпізнавання символів (OCR) для кириличних шрифтів, проблеми з розпізнаванням рукописного тексту (HTR), а також складнощі, пов’язані з бухгалтерською термінологією та абревіатурами.

Посилання

Shehzadi, T., Stricker, D., & Afzal, M. Z. (2024). A Hybrid Approach for Document Layout Analysis in Document images. [ArXiv preprint] arXiv:2404.17888. https://doi.org/10.48550/arXiv.2404.17888 https://doi.org/10.1007/978-3-031-70546-5_2

Da, C., Luo, C., Zheng, Q., & Yao, C. (2023). Vision Grid Transformer for Document Layout Analysis [ArXiv preprint]. arXiv. https://doi.org/10.48550/arXiv.2308.14978 https://doi.org/10.1109/ICCV51070.2023.01783

Li, J., Xu, Y., Lv, T., Cui, L., Zhang, C., & Wei, F. (2022). DiT: Self-supervised pre-training for Document Image Transformer [ArXiv preprint]. arXiv. https://doi.org/10.48550/arXiv.2203.02378 https://doi.org/10.1145/3503161.3547911

Xu, Y., Li, M., Cui, L., Huang, S., Wei, F., & Zhou, M. (2019). LayoutLM: Pre-training of text and layout for document image understanding [ArXiv preprint]. arXiv. https://doi.org/10.48550/arXiv.1912.13318 https://doi.org/10.1145/3394486.3403172

Shen, Z., Zhang, R., Dell, M., Lee, B. C. G., Carlson, J., & Li, W. (2021). LayoutParser: A unified toolkit for deep learning-based document image analysis [ArXiv preprint]. arXiv. https://doi.org/10.48550/arXiv.2103.15348 https://doi.org/10.1007/978-3-030-86549-8_9

Zhong, X., Tang, J., & Yepes, A. J. (2019). PubLayNet: Largest dataset ever for document layout analysis [ArXiv preprint]. arXiv. https://doi.org/10.48550/arXiv.1908.07836 https://doi.org/10.1109/ICDAR.2019.00166

Li, M., Xu, Y., Cui, L., Huang, S., Wei, F., Li, Z., & Zhou, M. (2020, December). DocBank: A Benchmark Dataset for Document Layout Analysis. In Proceedings of the 28th International Conference on Computational Linguistics (COLING) (pp. 949-960). Barcelona, Spain (Online): International Committee on Computational Linguistics. https://doi.org/10.18653/v1/2020.coling-main.82

Tikhonov, A., & Rabus, A. (2024). Handwritten Text Recognition of Ukrainian Manuscripts in the 21st Century: Possibilities, Challenges, and the Future of the First Generic AI-based Model. Kyiv-Mohyla Humanities Journal, 11, 226-247. https://doi.org/10.18523/2313-4895.11.2024.226-247

Gruber, I., Picek, L., Hlaváč, M., Neduchal, P., Hrúz, M. (2024). Improving Handwritten Cyrillic OCR by Font-Based Synthetic Text Generator. In: Moosaei, H., Hladík, M., Pardalos, P.M. (eds) Dynamics of Information Systems. DIS 2023. Lecture Notes in Computer Science, vol 14321. Springer, Cham. https://doi.org/10.1007/978-3-031-50320-7_8

Weber, M., Siebenschuh, C., Butler, R. M., Alexandrov, A., Thanner, V. R., Tsolakis, G., Jabbar, H., Foster, I., Li, B., Stevens, R., & Zhang, C. (2023). WordScape: A pipeline to extract multilingual, visually rich documents with layout annotations from web crawl data [Paper presentation]. In Advances in Neural Information Processing Systems, 36 (Datasets and Benchmarks Track). NeurIPS. https://doi.org/10.48550/arXiv.2312.10188