preparation of report for NN advanced

2025-10-16 21:55:58 +03:00 · 2025-10-16 21:55:58 +03:00 · db496f087a
commit db496f087a
11 changed files with 383 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,53 @@
 *.acn
 *.acr
 *.alg
 *.aux
 *.bak
 *.bbl
 *.bcf
 *.blg
 *.brf
 *.bst
 *.dvi
 *.fdb_latexmk
 *.fls
 *.glg
 *.glo
 *.gls
 *.idx
 *.ilg
 *.ind
 *.ist
 *.lof
 *.log
 *.lol
 *.lot
 *.maf
 *.mtc
 *.mtc1
 *.nav
 *.nlo
 *.nls
 *.out
 *.pdf
 *.pyg
 *.run.xml
 *.snm
 *.synctex.gz
 *.tex.backup
 *.tex~
 *.thm
 *.toc
 *.vrb
 *.xdy
 *.xml
 *blx.bib
 .bak 
 .mtc
 build/
 *.fdb_latexmk
 *.xml
 *.pdf
 *.fls
 *.bcf
 *.pyg
--- a/chapters/00_introduction.tex
+++ b/chapters/00_introduction.tex
@ -0,0 +1,10 @@
 \chapter*{Введение}
 \addcontentsline{toc}{chapter}{Введение} % Добавляем введение в оглавление
 Хирургический комплекс «da Vinci» считается “золотым стандартом” в роботизированной хирургии, предоставляя оперирующему хирургу уникальную систему трехмерной (3D) визуализации операционного поля. Однако ассистенты, ординаторы и остальной персонал лишены возможности стереоскопического обзора, что затрудняет их эффективное участие в операции и ограничивает образовательный процесс. Создание  дублирующей системы видеоконтроля, транслирующей стереоскопическое изображение с минимальной задержкой («glass-to-glass»), является актуальной задачей, позволяющей улучшить командное взаимодействие, повысить безопасность и эффективность хирургических вмешательств. Помимо прочего, разработка данной платформы открывает возможности для интеграции дополнительного XR функционала в операционной области ассистентов на операции. Одним из подобных направлений является измерение линейных размеров анатомических структур при проведении лапароскопических операций в реальном времени. Для реализации данной задачи необходимо внедрить два элемента компьютерного зрения в систему, один из которых будет выполнять задачу оконтуривания анатомических структур на изображении, а другой по обученным данным в паре с LiDAR измерять линейные размеры оконтуренных объектов.
 В то время как задача оконтуривания является требовательной к разрешению входного изображения и конечный результат напрямую зависит от качества входных данных, измерение линейных размеров уже оконтуренных объектов упирается в точность измерения у LiDAR, что приводит нас к возможности уменьшения входного изображения, с целью снижения уровня алгоритмических задержек в системе. Данный модуль будет на выход выдавать одно число - результат измерения размеров анатомической структуры и не требователен.
 Однако обе данных задачи являются достаточно объемными для текущего этапа работы, поэтому был выбран обучающий вариант, чтобы научиться работать с нейронными сетями и столкнуться с подводными камнями, связанными с работой в реальном времени.
 Задача повышения разрешения является широко исследованной по состоянию на 2025 год и уже имеется большое количество апробированных реализаций в данной области \cite{li2020deep}, что делает ее хорошим кандидатом для обучающего проекта. 
--- a/chapters/01_dataset.tex
+++ b/chapters/01_dataset.tex
@ -0,0 +1,3 @@
 \chapter*{Данные для обучения нейронной сети}
 \addcontentsline{toc}{chapter}{Данные для обучения нейронной сети} % Добавляем введение в оглавление
--- a/chapters/02_choose.tex
+++ b/chapters/02_choose.tex
@ -0,0 +1,99 @@
 \chapter*{Выбор архитектуры нейронной сети}
 \addcontentsline{toc}{chapter}{Выбор архитектуры нейронной сети} % Добавляем введение в оглавление
 \section{Super Resolution Convolutional Neural Network (SRCNN)}
 Использование сверточных нейронных сетей для данной работы является стандартом, поэтому и начать стоит с нее. Super Resolution Convolutional Neural Network\cite{DongLHT15} является одним из популярных решений для данной задачи. Архитектура сверточной нейронной сети (рис. \ref{fig:screenshot001})представлена в виде 3 слоев, входного слоя с 3 входами для каждого цвета и 64 фичами, после которых идет один скрытый сверточный слой и один выходной слой. В данном случае, первый слой извлекает набор фич из изображения, в то время, как второй слой нелинейно размечает данные фичи на патчи с высоким разрешением, а последний слой комбинирует предсказания с оценкой окружающих  патчей и отдает на выход изображение с повышенным разрешением. 
 \begin{figure}[h!]
 	\centering
 	\includegraphics[width=0.8\linewidth]{screenshot001}
 	\caption{Архитектура нейронной сети SRCNN \cite{DongLHT15}}
 	\label{fig:screenshot001}
 \end{figure}
 Стоит отметить, что в данной архитектуре входное изображение уже должно быть нужного разрешения, увеличивая вычислительную сложность нейронной сети. Что является потенциальным решающим фактором в пользу более продвинутых реализаций методов повышения разрешения.
 \begin{lstlisting}[
 	style=compactpython,
 	caption=Протестированная реализация SRCNN,
 	label={lst:SRCNN}
 	]
 class SimpleSuperResolutionNet(nn.Module):
 	def __init__(self, kernel_size=3, n_feats=64, colors=3): 
 		super(SimpleSuperResolutionNet, self).__init__()
 		self.conv = nn.Conv2d(
 		colors, n_feats, kernel_size=kernel_size, padding=kernel_size//2)
 		half_feats = n_feats//2
 		self.conv2 = nn.Conv2d(
 		n_feats, half_feats, kernel_size=kernel_size, padding=kernel_size//2)
 		self.conv3 = nn.Conv2d(
 		half_feats, colors, kernel_size=kernel_size, padding=kernel_size//2)
 	def forward(self, x):
 		x = torch.relu(self.conv(x))
 		x = torch.relu(self.conv2(x))
 		x = self.conv3(x)
 		return x
 \end{lstlisting}
 Можно увидеть в листинге \ref{lst:SRCNN}, что размер ядра был выбран отличным от представленных в работе, связано это с тем, что при обучении на наших тестовых данных, одинаковое ядро показало лучшие результаты, в сравнении с оригинальными.
 \section{Fast Super Resolution Convolutional Neural Network (FSRCNN)}
 sdada
 \section{Enhanced Deep Super Resolution (EDSR)}
 Некоторым продвижением в задаче повышения разрешения можно считать применение в сверточных нейронных сетях остаточных блоков.\cite{he2016deep} В ключевой реализации \cite{LimSKNL17} была предложена архитектура состоящая из большого количества скрытых остаточных блоков (рис. \ref{fig:resblockedsr}), после начального входного слоя.
 % TODO: \usepackage{graphicx} required
 \begin{figure}[h!]
 	\centering
 	\includegraphics[width=0.2\linewidth]{res_block_edsr}
 	\caption[Структура остаточного блока в сети EDSR]{}
 	\label{fig:resblockedsr}
 \end{figure}
 В отличии от стандартных остаточных блоков, использованных в ResNet \cite{HeZRS15}, в EDSR из остаточного блока удален блок пакетной нормализации, так как данный блок может быть нежелательным в данной задаче
 % TODO: \usepackage{graphicx} required
 \begin{figure}[h!]
 	\centering
 	\includegraphics[width=0.6\linewidth]{edsr_arch}
 	\caption[Архитектура нейронной сети EDSR \cite{LimSKNL17}]{}
 	\label{fig:edsrarch}
 \end{figure}
 Были проверены две реализации: "state-of-the-art", предоставленная авторами статьи, уже предобученная модель, а также своя реализация по образу и подобию предоставленной авторами.
 Сеть состояла из 8 остаточных блоков, в каждом из которых было по 64 фичи, с ядром размера 3х3, и значением множителя 0.1
 \begin{lstlisting}[
 	style=compactpython,
 	caption=Структура остаточного блока,
 	label={lst:ResBlock}
 	]
 class ResidualBlock(nn.Module):
 	def __init__(self, n_feats, kernel_size, bias=True, bn=False, act=nn.ReLU(True), res_scale=1.0):
 		super(ResidualBlock, self).__init__()
 		m = []
 		for i in range(2):
 			m.append(nn.Conv2d(n_feats, n_feats, kernel_size,
 			padding=(kernel_size//2), bias=bias))
 		if bn:
 			m.append(nn.BatchNorm2d(n_feats))
 		if i == 0:
 			m.append(act)
 		self.body = nn.Sequential(*m)
 		self.res_scale = res_scale
 	def forward(self, x):
 		res = self.body(x).mul(self.res_scale)
 		res += x
 		return res
 \end{lstlisting}
--- a/images/edsr_arch.png
+++ b/images/edsr_arch.png
--- a/images/res_block_edsr.png
+++ b/images/res_block_edsr.png
--- a/images/screenshot001.png
+++ b/images/screenshot001.png
--- a/main.tex
+++ b/main.tex
@ -0,0 +1,29 @@
 % --- ОСНОВНОЙ ФАЙЛ ДОКУМЕНТА ---
 \documentclass[a4paper, 12pt]{report}
 % --- ПОДКЛЮЧЕНИЕ ПРЕАМБУЛЫ ИЗ ОТДЕЛЬНОГО ФАЙЛА ---
 \input{preamble.tex}
 % --- ДАННЫЕ ДЛЯ ТИТУЛЬНОГО ЛИСТА ---
 % Эти команды можно переопределить здесь при необходимости
 \title{Применение нейронных сетей для повышения разрешения выходного изображения в реальном времени в области лапароскопической хирургии}
 \author{Мухамадиев Артур Юрисович}
 \date{\today}
 \begin{document}
 % --- ТИТУЛЬНЫЙ ЛИСТ ---
 \input{title.tex}
 % --- СОДЕРЖАНИЕ ---
 %\tableofcontents
 %\newpage
 % --- ПОДКЛЮЧЕНИЕ ГЛАВ ИЗ ПАПКИ chapters ---
 \input{chapters/00_introduction.tex}
 \input{chapters/01_dataset.tex}
 \input{chapters/02_choose.tex}
 % --- СПИСОК ЛИТЕРАТУРЫ ---
 \printbibliography[title={Список использованных источников}]
 \end{document}
--- a/preamble.tex
+++ b/preamble.tex
@ -0,0 +1,62 @@
 % --- ПРЕАМБУЛА: ПОДКЛЮЧАЕМЫЕ ПАКЕТЫ И НАСТРОЙКИ ---
 % --- КОДИРОВКА И ЯЗЫК ---
 \usepackage[T2A]{fontenc} % Кодировка для кириллицы
 \usepackage[utf8]{inputenc} % Кодировка исходного файла
 \usepackage[russian]{babel} % Поддержка русского языка
 \usepackage{titling}
 \usepackage{sourcecodepro}
 % --- ГЕОМЕТРИЯ СТРАНИЦЫ (ПОЛЯ) ПО ГОСТ 7.32-2017 ---
 \usepackage[left=3cm, right=1.5cm, top=2cm, bottom=2cm]{geometry}
 % --- ШРИФТЫ И ИНТЕРВАЛЫ ---
 \usepackage{setspace}
 \onehalfspacing % Полуторный интервал
 \usepackage{indentfirst} % Красная строка для первого абзаца в разделе
 \usepackage{titlesec}
 \titleformat{\chapter}[display]{\fontsize{16pt}{16pt}\bfseries}{}{5pt}{}
 \titlespacing{\chapter}{0pt}{24pt}{1\baselineskip}
 \titleformat{\section}[display]{\fontsize{14pt}{14pt}\bfseries}{}{5pt}{\arabic{section} }
 % --- МАТЕМАТИКА ---
 \usepackage{amsmath, amsfonts, amssymb, amsthm, mathtools}
 % --- ГРАФИКА ---
 \usepackage{graphicx}
 \graphicspath{{images/}} % Указываем папку для изображений
 \usepackage{caption} % Для настройки подписей к рисункам и таблицам
 \captionsetup[figure]{labelsep=period, name=Рисунок} % Подпись "Рисунок 1."
 \captionsetup[table]{labelsep=period, name=Таблица} % Подпись "Таблица 1."
 % --- БИБЛИОГРАФИЯ (ГОСТ) ---
 \usepackage[
    backend=biber,
    style=gost-numeric, % Стиль цитирования по ГОСТ
    sorting=none
 ]{biblatex}
 \addbibresource{references.bib} % Файл с библиографией
 \usepackage{listings}
 \usepackage{xcolor}
 \lstdefinestyle{compactpython}{
 	language=Python,
 	basicstyle=\ttfamily\footnotesize, % Smaller font
 	upquote=true, % Correct quotes
 	commentstyle=\color{gray}\itshape, % Smaller, italic comments
 	keywordstyle=\color{blue}\bfseries, % Bold keywords
 	stringstyle=\color{red}, % Red strings
 	numberstyle=\tiny\color{gray}, % Tiny line numbers
 	numbers=left, % No line numbers (or 'left' if desired)
 	frame=single, % No frame around the listing
 	showstringspaces=false, % Don't show spaces in strings
 	breaklines=true, % Allow lines to break
 	tabsize=2, % Smaller tab size
 	% For even more compactness, consider removing line numbers, frames, or captions.
 	% numbers=none,
 	% frame=none,
 	% captionpos=b, % Caption below
 }
 % --- ГИПЕРССЫЛКИ И НАВИГАЦИЯ (опционально, но удобно для PDF) ---
 \usepackage[unicode, colorlinks=true, linkcolor=blue, citecolor=green]{hyperref}
--- a/references.bib
+++ b/references.bib
@ -0,0 +1,85 @@
@article{li2020deep,
 	title={Deep learning methods in real-time image super-resolution: a survey},
 	author={Li, Xiaofang and Wu, Yirui and Zhang, Wen and Wang, Ruichao and Hou, Feng},
 	journal={Journal of Real-Time Image Processing},
 	volume={17},
 	number={6},
 	pages={1885--1909},
 	year={2020},
 	publisher={Springer}
 }
@article{HeZRS15,
 	author       = {Kaiming He and
 	Xiangyu Zhang and
 	Shaoqing Ren and
 	Jian Sun},
 	title        = {Deep Residual Learning for Image Recognition},
 	journal      = {CoRR},
 	volume       = {abs/1512.03385},
 	year         = {2015},
 	url          = {http://arxiv.org/abs/1512.03385},
 	eprinttype    = {arXiv},
 	eprint       = {1512.03385},
 	timestamp    = {Wed, 25 Jan 2023 11:01:16 +0100},
 	biburl       = {https://dblp.org/rec/journals/corr/HeZRS15.bib},
 	bibsource    = {dblp computer science bibliography, https://dblp.org}
 }
@article{LimSKNL17,
 	author       = {Bee Lim and
 	Sanghyun Son and
 	Heewon Kim and
 	Seungjun Nah and
 	Kyoung Mu Lee},
 	title        = {Enhanced Deep Residual Networks for Single Image Super-Resolution},
 	journal      = {CoRR},
 	volume       = {abs/1707.02921},
 	year         = {2017},
 	url          = {http://arxiv.org/abs/1707.02921},
 	eprinttype    = {arXiv},
 	eprint       = {1707.02921},
 	timestamp    = {Tue, 20 Feb 2024 13:39:57 +0100},
 	biburl       = {https://dblp.org/rec/journals/corr/LimSKNL17.bib},
 	bibsource    = {dblp computer science bibliography, https://dblp.org}
 }
@article{DongLT16,
 	author       = {Chao Dong and
 	Chen Change Loy and
 	Xiaoou Tang},
 	title        = {Accelerating the Super-Resolution Convolutional Neural Network},
 	journal      = {CoRR},
 	volume       = {abs/1608.00367},
 	year         = {2016},
 	url          = {http://arxiv.org/abs/1608.00367},
 	eprinttype    = {arXiv},
 	eprint       = {1608.00367},
 	timestamp    = {Wed, 18 Sep 2024 14:53:44 +0200},
 	biburl       = {https://dblp.org/rec/journals/corr/DongLT16.bib},
 	bibsource    = {dblp computer science bibliography, https://dblp.org}
 }
@article{DongLHT15,
 	author       = {Chao Dong and
 	Chen Change Loy and
 	Kaiming He and
 	Xiaoou Tang},
 	title        = {Image Super-Resolution Using Deep Convolutional Networks},
 	journal      = {CoRR},
 	volume       = {abs/1501.00092},
 	year         = {2015},
 	url          = {http://arxiv.org/abs/1501.00092},
 	eprinttype    = {arXiv},
 	eprint       = {1501.00092},
 	timestamp    = {Wed, 18 Sep 2024 14:53:44 +0200},
 	biburl       = {https://dblp.org/rec/journals/corr/DongLHT15.bib},
 	bibsource    = {dblp computer science bibliography, https://dblp.org}
 }
@inproceedings{he2016deep,
 	author = {He, Kaiming and Zhang, Xiangyu and Ren, Shaoqing and Sun, Jian},
 	title = {Deep Residual Learning for Image Recognition},
 	booktitle = {2016 Computer Vision and Pattern Recognition},
 	year = {2016},
 	month = {June},
 	abstract = {Abstract},
 	publisher = {IEEE},
 	url = {https://www.microsoft.com/en-us/research/publication/deep-residual-learning-for-image-recognition/},
 	pages = {770-778},
 }
--- a/title.tex
+++ b/title.tex
@ -0,0 +1,42 @@
 % --- ТИТУЛЬНЫЙ ЛИСТ ---
 \begin{titlepage}
    \centering % Вместо окружения center для лучшего контроля
    \thispagestyle{empty} % Убираем нумерацию на титульной странице
    \normalsize\textbf{
    МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ}
    \normalsize
    ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
    \normalsize\textbf{
    НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ ИТМО
    }
    \vspace{3cm}
    \large
    \textbf{\MakeUppercase{\thetitle}}
 	\large
    для дисциплины \\
    «Основы нейронных сетей (продвинутый уровень)»
    \vspace{5cm}
    \begin{flushright}
        \large
        \textbf{Выполнил:} \\
        аспирант 2-го года \\
        Физико-Технического мегафакультета \\
        направления 2.2.4 \\
        «Приборы и методы измерения (оптические величины)» \\
        \theauthor \\
        \vspace{1cm}
        \textbf{Проверил:} \\
        профессор, д.т.н. \\
        Бессметрный Игорь Александрович
    \end{flushright}
    \vspace{\fill} % Растягивает пространство до нижнего края
    \large
    Санкт-Петербург, \the\year
 \end{titlepage}
		`@ -0,0 +1,3 @@`
							`\chapter*{Данные для обучения нейронной сети}`
							`\addcontentsline{toc}{chapter}{Данные для обучения нейронной сети} % Добавляем введение в оглавление`