Biopolym. Cell. 2016; 32(1):70-79.
Біоінформатика
Комп'ютерний аналіз мікромасивів профілів експресії генів раку легенів
1Бабічев С. А., 2Корнелюк О. І., 3Литвиненко В. І., 4Осипенко В. В.
  1. Університет Яна Євангеліста Пуркине в Усті-над-Лабем
    вул. Пастера 1, Усті-над-Лабем, Чехія, 400 96
  2. Інститут молекулярної біології і генетики НАН України
    вул. Академіка Заболотного, 150, Київ, Україна, 03680
  3. Херсонський національний технічний університет
    Бериславське шосе, 24, Херсон, Україна, 73008
  4. Національний університет біоресурсів і природокористування України
    вул. Героїв Oборони, 15, Київ, Україна, 03041

Abstract

Мета. Проведення досліджень щодо оптимізації методів, що використовуються у процесі обробки профілів експресії генів, з метою підвищення якості кластеризації об'єктів. Методи. Передобробка даних була виконана у програмному середовищі R з використанням пакету «Біокондуктор». Моделювання процесу кластеризації було зроблено у програмному середовищі KNIME з використанням функцій програми WEKA. Результати. Показано, що оптимальним є процес передобробки даних з використанням методів: фонова корекція rma методом, квантільна нормалізація, mas РМ корекція і сумарізація mas методом. Результати моделювання показали високу ефективність використання для даного типу даних алгоритму кластеризації Sota. Висновки. Проведені дослідження показали, що підвищення якості розподілу об'єктів біологічної природи на кластери можливо за рахунок гібридизації та оптимізації використання методів і алгоритмів на різних етапах обробки даних.
Keywords: кластерізація, експресія генів, передобробка даних, мікрочіп ДНК

References

[1] Baldi P, Gatfield GW. DNA microarrays and gene expression: From experiments to data analysis modeling. Cambridge, Massachusetts, England: Cambridge University Press, 2002. 207 p.
[2] Nepomuceno JA, Troncoso A, Nepomuceno-Chamorro IA, Aguilar-Ruiz JS. Integrating biological knowledge based on functional annotations for biclustering of gene expression data. Comput Methods Programs Biomed. 2015;119(3):163-80.
[3] Flores JL, Inza I, Larrañaga P, Calvo B. A new measure for gene expression biclustering based on non-parametric correlation. Comput Methods Programs Biomed. 2013;112(3):367-97.
[4] Kohane IS, Kho A, Butte AJ. Microarrays for an integrative genomics. Cambridge, Massachusetts, England: A Bradford book, the MIT press, 2003. 236 p.
[5] Ivakhno SS, Korneliuk OI. [Microarrays: technologies overview and data analysis]. Ukr Biokhim Zh (1999). 2004;76(2):5-19.
[6] Pontes B, Giráldez R, Aguilar-Ruiz JS. Biclustering on expression data: A review. J Biomed Inform. 2015 Jul 6. pii: S1532-0464(15)00138-0.
[7] Wang Z. Neuro-Fuzzy modeling for microarray cancer gene expression data. Thesis. Oxford University Computing Laboratory, 2005. 107 p.
[8] Loren van Themaat EV. On the use of learning bayesian networks to analyze gene expression data: classification and gene network reconstruction. University of Amsterdam, Master Thesis 2005. 73 p.
[9] Parrish RS, Spencer HJ 3rd. Effect of normalization on significance testing for oligonucleotide microarrays. J Biopharm Stat. 2004;14(3):575-89.
[10] Irizarry RA, Hobbs B, Collin F, Beazer-Barclay YD, Antonellis KJ, Scherf U, Speed TP. Exploration, normalization, and summaries of high density oligonucleotide array probe level data. Biostatistics. 2003;4(2):249–64.
[11] Dudoit S, Yang YH, Callow MJ, Speed TP. Statistical methods for identifying genes with differential expression in replicated cDNA microarray experiments. Statistica Sinica. 2002; 12(1): 111–28.
[12] Astrand M. Contrast normalization of oligonucleotide arrays. J Comput Biol. 2003;10(1):95-102.
[13] Li C, Wong WH. Model-based analysis of oligonucleotide arrays: expression index computation and outlier detection. Proc Natl Acad Sci U S A. 2001;98(1):31-6.
[14] Workman C, Jensen LJ, Jarmer H, Berka R, Gautier L, Nielser HB, Saxild HH, Nielsen C, Brunak S, Knudsen S. A new non-linear normalization method for reducing variability in DNA microarray experiments. Genome Biol. 2002;3(9):research0048.
[15] Bolstad BM, Irizarry RA, Astrand M, Speed TP. A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. Bioinformatics. 2003;19(2):185-93.
[16] Beer DG, Kardia SL, Huang CC, Giordano TJ, Levin AM, Misek DE, Lin L, Chen G, Gharib TG, Thomas DG, Lizyness ML, Kuick R, Hayasaka S, Taylor JM, Iannettoni MD, Orringer MB, Hanash S. Gene-expression profiles predict survival of patients with lung adenocarcinoma. Nat Med. 2002;8(8):816-24.