Journal of Applied Economic Research
ISSN 2712-7435
УДК 336.67
Кластеризация российских производственных компаний по показателям их финансового состояния с использованием технологий машинного обучения
Л.А. Буланов 1, А.В. Калина 1, 2, В.В. Криворотов 1
1 Уральский федеральный университет имени первого Президента России Б.Н. Ельцина, г. Екатеринбург, Россия
2 Институт экономики Уральского отделения РАН, г. Екатеринбург, Россия
Аннотация
Кластеризация объектов исследования и объединение их в сходные группы по совокупности признаков является важнейшим этапом при решении многих задач социально-экономического развития, в особенности задач, связанных с оценкой состояния социально-экономической системы, а также моделирования и прогнозирования показателей ее будущего развития. Целью настоящего исследования является относительная оценка финансового состояния крупных российских производственных компаний на основе данных форм бухгалтерской отчетности методами кластеризации, относящимися к категории машинного обучения без учителя. Результаты такой оценки впоследствии предполагается использовать для построения модели оценки финансового состояния компаний на основе одного из алгоритмов машинного обучения с учителем. В работе предложены ключевые показатели финансового состояния компаний, на основании которых предлагается выполнять их кластеризацию, которые были выделены как результат анализа современных методов и подходов к исследованию и оценке конкурентоспособности и конкурентной позиции компаний. При проведении кластеризации на основе предложенной совокупности показателей были использованы данные финансовой отчетности 2 249 российских производственных компаний по итогам 2023 г. В качестве крупных компаний рассматривались компании, которые имели оборот более 2 млрд руб. и штат сотрудников более 251 чел. В качестве алгоритмов кластеризации использовались K-Means++, иерархическая кластеризация и DBSCAN. С целью получения лучшего результата была проведена специальная предобработка данных и подбор необходимых гиперпараметров для алгоритмов кластеризации. Качество итоговой кластеризации оценивалось по индексам Дэвиса – Болдина (DBI) и Калински – Харабаса (CHI). Полученные результаты показали, что рассматриваемые производственные компании по показателям финансового состояния можно объединить в сравнительно небольшое число кластеров (обычно не более 3), что открывает широкие возможности для построения моделей финансового состояния компаний. По итогам использования трех методов кластеризации лучшим алгоритмом с небольшим отрывом оказался K-Means ++, сформированные центроиды которого можно назвать усредненной оценкой компаний с плохим, нормальным и хорошим финансовым состоянием. Качество итоговой кластеризации можно оценить как хорошее.
Ключевые слова
финансовый анализ; машинное обучение; показатели финансового состояния; крупная ком-пания; кластеризация компаний; K-Means ++; иерархическая кластеризация; DBSCAN
JEL classification
D22, G30, C45Список использованной литературы
1. Kryzanowski L., Galler M., Wright D.W. Using artificial neural networks to pick stocks // Financial Analysts Journal. 1993. Vol. 49, Issue 4. Pp. 21–27. DOI: https://doi.org/10.2469/faj.v49.n4.21
2. Porter M.E. The Competitive Advantage of Nations. New York: Free Press, 1990. 855 p. URL: https://archive.org/details/competitiveadvan0000port
3. Porter M.E. The five competitive forces that shape strategy // Harvard Business Review. 2008. Vol. 86, No. 1. Pp. 78–93. URL: https://sistemasgerenciales.wordpress.com/wp-content/uploads/2016/04/the-five-competitive-forces-that-shape-strategy.pdf
4. Cao X., Shen X., Liu Q. Mechanism of aquaculture competitiveness in China // Aquaculture Reports. 2024. Vol. 37. 102195. https://doi.org/10.1016/j.aqrep.2024.102195
5. Tao X., Cai W. The impact of digital finance on export competitiveness: Evidence from Chinese manufacturing enterprises // Finance Research Letters. 2025. Vol. 73. 106629. https://doi.org/10.1016/j.frl.2024.106629
6. Liu Y.-L., Tian L., Li C., Wu Ya. Analyzing the competitiveness and strategies of Chinese mobile network operators in the 5G era // Telecommunications Policy. 2024. Vol. 48, Issue 2. 102652. https://doi.org/10.1016/j.telpol.2023.102652
7. Fang K., Zhou Y., Wang S., Ye R., Guo S. Assessing national renewable energy competitiveness of the G20: A revised Porter's Diamond Model // Renewable and Sustainable Energy Reviews. 2018. Vol. 93. Рp. 719–731. https://doi.org/10.1016/j.rser.2018.05.011
8. Cibinskiene A., Dumciuviene D., Bobinaite V., Dragašius E. Competitiveness of industrial companies forming the value chain of wind energy components: The case of Lithuania // Sustainability. 2021. Vol. 13, Issue 16. 9255. https://doi.org/10.3390/su13169255
9. Liu J., Wei Q., Dai Q., Liang C. Overview of wind power industry value chain using diamond model: A case study from China // Applied Sciences. 2018. Vol. 8, Issue 10. 1900. https://doi.org/10.3390/app8101900
10. Lau A.K.W., Baark E., Lo W.L.W., Sharif N. The effects of innovation sources and capabilities on product competitiveness in Hong Kong and the Pearl River Delta // Asian Journal of Technology Innovation. 2013. Vol. 21, Issue 2. Рp. 220–236. https://doi.org/10.1504/IJTM.2012.047244
11. Lotfi B., Karim M. Competitiveness determinants of Moroccan exports: quantity-based analysis // International Journal of Economics and Finance. 2016. Vol. 8, Issue 7. Pp. 140–148. https://doi.org/10.5539/ijef.v8n7p140
12. Li Ya., Yu H., Shen Z. Dynamic prediction of product competitive position: A multisource data-driven competitive analysis framework from a multi-competitor perspective // Journal of Retailing and Consumer Services. 2025. Vol. 25. 104289. https://doi.org/10.1016/j.jretconser.2025.104289
13. Kim S.-A., Park S., Kwak M., Kang C. Examining product quality and competitiveness via online reviews: An integrated approach of importance performance competitor analysis and Kano model // Journal of Retailing and Consumer Services. 2025. Vol. 82. 104135. https://doi.org/10.1016/j.jretconser.2024.104135
14. Buckley P.J., Pass C.L., Prescott K. Measures of international competitiveness: A critical survey // Journal of Marketing Management. 1988. Vol. 4, Issue 2. Pp. 175–200. https://doi.org/10.1080/0267257X.1988.9964068
15. Schefczyk M. Operational performance of airlines: an extension of traditional measurement paradigms // Strategic Management Journal. 1993. Vol. 14, No. 4. Рр. 301–317. https://doi.org/10.1002/smj.4250140406
16. Good D.H., Nadiri M.I., Roller L.H., Sickles R.C. Efficiency and productivity growth comparisons of European and U.S. airlines: A first look at the data // The Journal of Productivity Analysis. 1993. Vol. 4. Рр. 115–125. https://doi.org/10.1007/BF01073469
17. Parkan C., Wu M.-L. Measurement of the performance of an investment bank using the operational competitiveness rating procedure // Omega. 1999. Vol. 27, Issue 2. Pp. 201–217. https://doi.org/10.1016/S0305-0483(98)00041-3
18. Fleisher C.S., Bensoussan B.E. Business and Competitive Analysis: Effective Application of New and Classic Methods. Second Edition. New Jersey : Pearson, 2015. 448 p. https://doi.org/10.24883/IberoamericanIC.v2i2.37
19. Prescott J.E., Grant J.H. A manager's guide for evaluating competitive analysis techniques // Interfaces. 1988. Vol. 18, Issue 3. Рp. 10–22. https://doi.org/10.1287/inte.18.3.10
20. Steinhaus H. Sur la division des corps matériels en parties // Bulletin L’Académie Polonaise des Science. 1956. Vol. 4, No. 12. Pp. 801–804. URL: http://laurent-duval.eu/Documents/Steinhaus_H_1956_j-bull-acad-polon-sci_division_cmp-k-means.pdf
21. Lloyd S. Least squares quantization in PCM // IEEE Transactions on Information Theory. 1982. Vol. 28, Issue 2. Pp. 129–137. https://doi.org/10.1109/TIT.1982.1056489
22. MacQueen J. Some methods for classification and analysis of multivariate observations // Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. Vol. 1. University of California Press, 1967. Pp. 281–297. URL: https://sci2s.ugr.es/keel/pdf/algorithm/congreso/1967-MacQueen-MSP.pdf
23. Kanungo T., Mount D.M., Netanyahu N.S., Piatko C.D., Silverman R., Wu A.Y. An efficient k-means clustering algorithm: Analysis and implementation // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2002. Vol. 24, Issue 7. Pp. 881–892. https://doi.org/10.1109/TPAMI.2002.1017616
24. Ostrovsky R., Rabani Yu., Schulman L.J., Swamy C. The effectiveness of Lloyd-type methods for the k-means problem // Proceedings of the 47th Annual IEEE Symposium on Foundations of Computer Science (FOCS'06). IEEE, 2006. Pp. 165–176. https://doi.org/10.1109/FOCS.2006.75
25. Ahmed M., Seraj R., Islam S.M.S. The k-means algorithm: A comprehensive survey and performance evaluation // Electronics. 2020. Vol. 9, Issue 8. 1295. https://doi.org/10.3390/electronics9081295
26. Arthur D., Vassilvitskii S. K-means++: The advantages of careful seeding // Proceedings of the Eighteenth Annual ACM-SIAM Symposium on Discrete Algorithms (SODA 2007). Society for Industrial and Applied Mathematics3600 University City Science Center Philadelphia, 2007. Pp. 1027–1035. https://doi.org/10.1145/1283383.1283494
27. Abdulnassar A.A., Nair L.R. Performance analysis of Kmeans with modified initial centroid selection algorithms and developed Kmeans9+ model // Measurement: Sensors. 2023. Vol. 25. 100666. https://doi.org/10.1016/j.measen.2023.100666
28. Ay M., Özbakır L., Kulluk S., Gülmez B., Öztürk G., Özer S. FC-Kmeans: Fixed-centered K-means algorithm // Expert Systems with Applications. 2023. Vol. 211. 118656. https://doi.org/10.1016/j.eswa.2022.118656
29. Li J., Li J., Wang D., et al. Hierarchical and partitioned planning strategy for closed-loop devices in low-voltage distribution network based on improved KMeans partition method // Energy Reports. 2023. Vol. 9. Pp. 477–485. https://doi.org/10.1016/j.egyr.2023.05.161
30. He J., Jiang D., Zhang D., Li J., Fei Q. Interval model validation for rotor support system using Kmeans Bayesian method // Probabilistic Engineering Mechanics. 2022. Vol. 70. 103364. https://doi.org/10.1016/j.probengmech.2022.103364
31. Nielsen F. Introduction to HPC with MPI for Data Science. Springer, 2016. 282 p. https://doi.org/10.1007/978-3-319-21903-5
32. Sibson R. SLINK: an optimally efficient algorithm for the single-link cluster method // The Computer Journal. 1973. Vol. 16, Issue 1. Pp. 30–34. https://doi.org/10.1093/comjnl/16.1.30
33. Defays D. An efficient algorithm for a complete link method // The Computer Journal. 1977. Vol. 20, Issue 4. Pp. 364–366. https://doi.org/10.1093/comjnl/20.4.364
34. Eppstein D. Fast hierarchical clustering and other applications of dynamic closest pairs // Journal of Experimental Algorithmics (JEA). 2000. Vol. 5. Pp. 1–es. https://doi.org/10.1145/351827.351829
35. Riyahi M., Martín A.G. Optimizing Capacity Expansion Modeling with a Novel Hierarchical Clustering and Systematic Elbow Method: A Case study on Power and Storage Units in Spain // Energy. 2025. Vol. 323. 135788. https://doi.org/10.1016/j.energy.2025.135788
36. Tang Z., Wang L., Guo S., Liang G., Zhang W., Zhang L., Rui M., Guan G., Wang Yu. Study on modular design methodology of marine SMR system based on fuzzy hierarchical clustering and improved genetic algorithm // Progress in Nuclear Energy. 2025. Vol. 185. 105739. https://doi.org/10.1016/j.pnucene.2025.105739
37. Zhang X., Wang Y.-L., Byun H. Enhancing energy saving and reducing latency by divisive hierarchical clustering with Multi-UAVs in WSANs // Applied Soft Computing. 2025. 112861. https://doi.org/10.1016/j.asoc.2025.112861
38. Ester M., Kriegel H.P., Sander J., Xu X. A density-based algorithm for discovering clusters in large spatial databases with noise // Proceedings of the 1996 Knowledge Discovery and Data Mining (KDD’96). AAAI Press, 1996. Pp. 226–231. URL: https://cdn.aaai.org/KDD/1996/KDD96-037.pdf
39. Schubert E., Sander J., Ester M., Kriegel H.P., Xu X. DBSCAN revisited, revisited: why and how you should (still) use DBSCAN // ACM Transactions on Database Systems. 2017. Vol. 42, No. 3. Pp. 1–21. https://doi.org/10.1145/3068335
40. Ankerst M., Breunig M.M., Kriegel H.P., Sander J. OPTICS: Ordering points to identify the clustering structure // Proceedings of the 1999 ACM SIGMOD International Conference on Management of Data (SIGMOD '99). ACM New York, 1999. Pp. 49–60. https://doi.org/10.1145/304182.304187
41. Campello R.J., Moulavi D., Sander J. Density-based clustering based on hierarchical density estimates // Advances in Knowledge Discovery and Data Mining. Pacific-Asia Conference on Knowledge Discovery and Data Mining. Edited by J. Pei, V.S. Tseng, L. Cao, H. Motoda, G. Xu. Springer, 2013. Pp. 160–172. https://doi.org/10.1007/978-3-642-37456-2_14
42. Campello R.J., Moulavi D., Zimek A., Sander J. Hierarchical density estimates for data clustering, visualization, and outlier detection // ACM Transactions on Knowledge Discovery from Data (TKDD). 2015. Vol. 10, No. 1. Pp. 1–51. https://doi.org/10.1145/2733381
43. Bíró P. Kovács B.B.H., Novák T., Erdélyi M. Cluster parameter-based DBSCAN maps for image characterization // Computational and Structural Biotechnology Journal. 2025. Vol. 27. Pp. 920–927. https://doi.org/10.1016/j.csbj.2025.02.037
44. Ozer F.C., Tuydes-Yaman H., Dalkic-Melek G. Increasing the precision of public transit user activity location detection from smart card data analysis via spatial-temporal DBSCAN // Data & Knowledge Engineering. 2024. Vol. 153. 102343. https://doi.org/10.1016/j.datak.2024.102343
45. Mardani K., Maghooli K., Farokhi F. Segmentation of coronary arteries from X-ray angiographic images using density based spatial clustering of applications with noise (DBSCAN) // Biomedical Signal Processing and Control. 2025. Vol. 101. 107175. https://doi.org/10.1016/j.bspc.2024.107175
46. Kohonen T. Self-organized formation of topologically correct feature maps // Biological Cybernetics. 1982. Vol. 43. Pp. 59–69. https://doi.org/10.1007/BF00337288
47. Urme O., Reza S., Adham Md I., Sattar G.S. Arsenic, manganese, and iron concentration in groundwater of northwestern part of Bangladesh using self-organizing maps: Implication for health risk assessment // Heliyon. 2025. Vol. 11, Issue 2. e41805. https://doi.org/10.1016/j.heliyon.2025.e41805
48. Boubekki A., Kampffmeyer M., Brefeld U., Jenssen R. Joint optimization of an autoencoder for clustering and embedding // Machine Learning. 2021. Vol. 110, No. 7. Pp. 1901–1937. https://doi.org/10.1007/s10994-021-06015-5
49. Pulgar F.J., Charte F., Rivera A.J., del Jesus M.J. AEkNN: An AutoEncoder kNN-based classifier with built-in dimensionality reduction // ArXiv Preprint arXiv:1802.08465. 2018. 35 p. https://doi.org/10.48550/arXiv.1802.08465
50. Understanding Robust and Exploratory Data Analysis. Edited by D.C. Hoaglin, F. Mosteller, J.W. Tukey. John Wiley & Sons, 1983. 447 p. URL: https://archive.org/details/understandingrob0000unse/page/n7/mode/1up
51. Chandola V., Banerjee A., Kumar V. Anomaly detection: A survey // ACM Computing Surveys. 2009. Vol. 41, No. 3. Pp. 1–58. https://doi.org/10.1145/1541880.1541882
52. Ward Jr J.H. Hierarchical grouping to optimize an objective function // Journal of the American Statistical Association. 1963. Vol. 58, Issue 301. Pp. 236–244. https://doi.org/10.1080/01621459.1963.10500845
53. Davies D.L., Bouldin D.W. A cluster separation measure // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1979. Vol. PAMI-1, Issue 2. Pp. 224–227. https://doi.org/10.1109/TPAMI.1979.4766909
54. Caliński T., Harabasz J. A dendrite method for cluster analysis // Communications in Statistics. 1974. Vol. 3, Issue 1. Pp. 1–27. https://doi.org/10.1080/03610927408827101
55. Rousseeuw P.J. Silhouettes: a graphical aid to the interpretation and validation of cluster analysis // Journal of Computational and Applied Mathematics. 1987. Vol. 20. Pp. 53–65. https://doi.org/10.1016/0377-0427(87)90125-7
Информация об авторах
Буланов Лев Алексеевич
Аспирант кафедры экономической безопасности производственных комплексов Уральского федерального университета имени первого Президента России Б.Н. Ельцина, г. Екатеринбург, Россия (620002, г. Екатеринбург, ул. Мира, 19); ORCID https://orcid.org/0009-0001-0242-0127 e-mail: levbulanov2013@yandex.ru
Калина Алексей Владимирович
Кандидат технических наук, доцент кафедры экономической безопасности производственных комплексов Уральского федерального университета имени первого Президента России Б.Н. Ельцина, г. Екатеринбург, Россия (620002, г. Екатеринбург, ул. Мира, 19), старший научный сотрудник Центра экономической безопасности Института экономики Уральского отделения РАН, г. Екатеринбург, Россия (620014, г. Екатеринбург, ул. Московская, 29); ORCID https://orcid.org/0000-0003-0376-2505 e-mail: alexkalina74@mail.ru
Криворотов Вадим Васильевич
Доктор экономических наук, профессор, заведующий кафедрой экономической безопасности производственных комплексов Уральского федерального университета имени первого Президента России Б.Н. Ельцина, г. Екатеринбург, Россия (620002, г. Екатеринбург, ул. Мира, 19); ORCID https://orcid.org/0000-0002-7066-0325 e-mail: v_krivorotov@mail.ru
Для цитирования
Буланов Л.А., Калина А.В., Криворотов В.В. Кластеризация российских производственных компаний по показателям их финансового состояния с использованием технологий машинного обучения // Journal of Applied Economic Research. 2025. Т. 24, № 2. С. 584-621. https://doi.org/10.15826/vestnik.2025.24.2.020
Информация о статье
Дата поступления 21 марта 2025 г.; дата поступления после рецензирования 7 апреля 2025 г.; дата принятия к печати 12 апреля 2025 г.
DOI: https://doi.org/10.15826/vestnik.2025.24.2.020
Скачать полный текст статьи:
~4 МБ, *.pdf
(Размещен
15.06.2025)
Создано / Изменено: 18 августа 2015 / 14 ноября 2024
© ФГАОУ ВО «УрФУ имени первого Президента России Б.Н. Ельцина»
Увидели ошибку?
выделите фрагмент и нажмите:
Ctrl + Enter
Дизайн портала: Artsofte
©Ural Federal University named the first President of Russia B.N.Yeltsin (Website)