FUTURE OF ASTRONOMY WITH BIG DATA – මහා දත්ත සමඟ තාරකා විද්‍යාවේ අනාගතය

FUTURE OF ASTRONOMY WITH BIG DATA – මහා දත්ත සමඟ තාරකා විද්‍යාවේ අනාගතය

Abstract
In the last few decades, the technology has evolved and developed rapidly. As a result, almost every field in our world has changed dramatically in very short time period. With all of those changes human kind is now stepping in to a new era on its history, “The Big Data Era”. Maybe, the era of big data is already here. Reason to say so is, The Big Data is already pushing astronomy in a new direction as well as other fields. So, in this article we attempt give a short description about big data and how it helps us to uncover the secrets of universe.

Introduction
About 400 years separate between Galileo’s two-inch telescope and the huge nowadays sophisticated telescopes, The role of modern telescopes in gathering astronomical big data is significant. Massive amount of data about galaxies, stars, planets, comets, asteroids collected by space telescopes, satellites, and space probes are already amounting to petabytes (one Petabyte equals to one million Gigabytes), and continue to increase with the advancement of new instruments. Scientist are now facing a data tsunami that needed to analyzed. For an instance, “Sloan Digital Sky Survey” (SDSS) telescope produce 200GB of data every night.

Big Data
The term “big data” refers to data that is so large, fast or complex that it’s difficult or impossible to process using traditional methods. Scientists define the big data characteristics as the big data 10 V’s.

  1. Volume
  2. Variety
  3. Velocity
  4. Veracity
  5. Validity
  6. Value
  7. Variability
  8. Venue
  9. Vocabulary
  10. Vagueness

however, we pay more attention to the four Vs of astronomical data: Volume, Variety, Velocity, and Value in this article.

  • Volume
    Volume is the amount of data. They are measured in terabytes (103 GB), petabytes (106 GB) and even exabytes (109 GB). Thus, big data pose challenges for capture, cleaning, storage, processing, indexing, sharing, transferring, mining, analyzing and visualization. Traditional tools cannot deal with such large amounts of data. Following are data volumes of different sky survey projects.
  1. DPOSS (The Palomar Digital Sky Survey)                         – 3 TB
  2. 2MASS (The Two Micron All-Sky Survey)                        -10 TB
  3. GBT (Green Bank Telescope)                                          -20 PB
  4. GALEX (The Galaxy Evolution Explorer)                         -30 TB
  5. SDSS (The Sloan Digital Sky Survey)                                -40 TB
  6. SkyMapper Southern Sky Survey                                     -500 TB
  7. PanSTARRS (The Panoramic Survey Telescope
    and Rapid Response System)                                          – 40 PB expected
  8. LSST (The Large Synoptic Survey Telescope)                 – 200 PB expected
  9. SKA (The Square Kilometer Array)                                  – 4.6 EB expected
  • Variety
    Variety points to data complexity. Astronomical data mainly in forms like images, spectra, time series and simulation data. Most of the data are saved in catalogues or databases.

  • Velocity
    Velocity means the speed of producing, transmitting and analyzing data.

  • Value
    Value characterizes the high value to astronomy of the data. It is interesting and inspiring in astronomy to discover surprising, rare, unexpected, and new objects or phenomena

Instruments use to collect astronomical big data
The role of modern telescopes in gathering astronomical big data in significant. Super telescopes like Hubble space telescope and LSST telescope collect huge amounts of data daily. Radio telescopes in recent times have evolved rapidly. Radio telescopes provide us with answers of several questions in the field of astrophysics. Large radio telescopes like SKA provide us with better understanding of the nature of black holes and the evaluation of galaxies at radio wavelengths.

statistics and mathematics behind astronomical big data
Statistics is an essential in big data analysis. The main goal of using statistics in big data science is to analyze the sample in order to estimate the population. It is impossible to analyze the entire big data due to its huge volume. Scientist identify the big data sample set using advanced computing systems. One of the strategies to handle and to analyze big data is to shrink it by identifying a subset of the entire data which keeps its mathematical relationships

Data Mining
Data mining is of great importance in the big data era. It helps researchers to efficiently and effectively discover potential and useful information or knowledge from the large amounts of data that are stored in databases and other information repositories for data management, analysis, and decision support. According to the type of patterns being mined, data mining tasks mainly consist of summarization, classification, regression, clustering, association and time-series analysis

Machine Learning
As we talked over and over again, as the data volume increase, analysis become harder. Therefore, it is important to develop new techniques for processing the amount and variety of astronomical big data to be capable of answering scientific questions based on the data. Machine learning is among those techniques, that can be used to find the relation between input data (e.g., galaxy images) and outputs (e.g., physical properties of galaxies).For example, distances from Earth to galaxies, relative velocities of receding galaxies, and chemical compositions are measured by their redshifts which can be done using machine learning.

Conclusion
Future advanced facilities will produce unprecedented massive data. Data from different surveys are unique. Integrating distributed datasets from various projects, different times, and different wavelengths will provide large new challenges and opportunities.

—————————————————————————————————————

සාරාංශය
පසුගිය දශක කිහිපය තුළ තාක්‍ෂණය වේගයෙන් දියුණු වී තිබේ. එහි ප්‍රතිඵලයක් වශයෙන්, අප ලෝකයේ සෑම ක්ෂේත්‍රයක්ම පාහේ ඉතා කෙටි කාලයක් තුළ විශාල ලෙස වෙනස් වී ඇත. මේ සියලු වෙනස්කම් සමඟ මානව වර්ගයා දැන් තම ඉතිහාසයේ නව යුගයක් කරා “මහා දත්ත යුගය” කරා ගමන් කරමින් සිටී. මහා දත්ත දැනටමත් තාරකා විද්‍යාව නව දිශාවකට යොමු කරමින් සිටී. මෙම ලිපියෙන් අපි උත්සාහ කරන්නේ මහා දත්ත සහ එය විශ්වයේ රහස් අනාවරණය කර ගැනීමට උපකාරී වන ආකාරය පිළිබඳ කෙටි විස්තරයක් ලබා දීමට ය.

හැදින්වීම
ගැලීලියෝගේ දුරේක්ෂය සහ වර්තමානයේ අති නවීන දුරේක්ෂ අතර වසර 400 ක් පමණ වෙනස සැලකීමේ දී තාරකා විද්‍යාත්මක මහා දත්ත එක්රැස් කිරීමේදී නවීන දුරේක්ෂවල කාර්යභාරය අති මහත්ය. අභ්‍යවකාශ දුරේක්ෂ, චන්ද්‍රිකා සහ අභ්‍යවකාශ ගවේෂණ මගින් එකතු කරන ලද මන්දාකිණි, තාරකා, ග්‍රහලෝක, වල්ගා තරු, ග්‍රාහක පිළිබඳ දත්ත ප්‍රමාණයන් දැනටමත් පෙටබයිට් සීමාව පසු කර ඇත (එක් පෙටබයිට්යක්, ගිගාබයිට් මිලියනයකට සමාන වේ). මෙම අගය නව උපකරණවල දියුණුවත් සමඟ අඛණ්ඩව වැඩි වේ. විද්‍යාඥයන් දැන් විශ්ලේෂණය කිරීමට අවශ්‍ය දත්ත සුනාමියකට මුහුණ දී සිටී. උදාහරණයක් ලෙස, “Sloan Digital Sky Survey” (SDSS) දුරේක්ෂය සෑම රාත්‍රියකම 200GB දත්ත නිපදවයි.

මහා දත්ත
“මහා දත්ත” යන්නෙන් අදහස් කරන්නේ සාම්ප්‍රදායික ක්‍රම භාවිතයෙන් සැකසීමට අපහසු හෝ කළ නොහැකි තරම් විශාල, වේගවත් හෝ සංකීර්ණ දත්ත ය. විද්‍යාඥයින් මහා දත්ත ලක්ෂණ 10 V ලෙස අර්ථ දක්වයි.

  1. පරිමාව – Volume
  2. විවිධත්වය – Variety
  3. ප්‍රවේගය – Velocity
  4. නිරවද්‍යතාවය – Veracity
  5. වලංගුභාවය – Validity
  6. වටිනාකම – Value
  7. විචල්යතාව – Variability
  8. ස්ථානය – Venue
  9. වාග් මාලාව – Venue
  10. නොපැහැදිලි බව – Vagueness

කෙසේ වෙතත්, මෙම ලිපියේ අපි වැඩි අවධානයක් යොමු කරන්නේ ලක්ෂණ හතරට ය. පරිමාව, විවිධත්වය, ප්‍රවේගය සහ වටිනාකම.

පරිමාව
පරිමාව යනු දත්ත ප්‍රමාණයයි. ඒවා මනිනු ලබන්නේ ටෙරාබයිට් (103 GB), පෙටබයිට් (106 GB) සහ එක්සබයිට් (109 GB) වලින් ය. මේ අනුව, මහා දත්ත පරිමාව වැඩි වන විට ග්‍රහණය කර ගැනීම, පිරිසිදු කිරීම, ගබඩා කිරීම, සැකසීම, සුචිගත කිරීම, බෙදාගැනීම, මාරු කිරීම, පතල් කැණීම, විශ්ලේෂණය සහ දෘශ්‍යකරණය අපහසුවේ. සාම්ප්‍රදායික මෙවලම්වලට එතරම් මහා දත්ත ප්‍රමාණයක් සමඟ කටයුතු කළ නොහැක. විවිධ අහස සමීක්ෂණ ව්‍යාපෘතිවල දත්ත පරිමාවන් පහත දැක්වේ.

  1. DPOSS (The Palomar Digital Sky Survey)                                     – 3 TB
  2. 2MASS (The Two Micron All-Sky Survey)                                    – 10 TB
  3. GBT (Green Bank Telescope)                                                       – 20 PB
  4. GALEX (The Galaxy Evolution Explorer)                                     – 30 TB
  5. SDSS (The Sloan Digital Sky Survey)                                             – 40 TB
  6. SkyMapper Southern Sky Survey                                                – 500 TB
  7. PanSTARRS (The Panoramic Survey Telescope
    and Rapid Response System)                                                      – 40 PB expected
  8. LSST (The Large Synoptic Survey Telescope)                              – 200 PB expected

විවිධත්වය
තාරකා විද්‍යාත්මක දත්ත ප්‍රධාන වශයෙන් රූප, වර්ණාවලීක්ෂ, කාල ශ්‍රේණි සහ සමාකරණ දත්ත වැනි ආකාර වලින්. බොහෝ දත්ත නාමාවලි හෝ දත්ත සමුදායන් තුළ සුරකිනු ලැබේ.

ප්‍රවේගය
ප්‍රවේගය යනු දත්ත නිෂ්පාදනය, සම්ප්‍රේෂණය සහ විශ්ලේෂණය කිරීමේ වේගයයි.

වටිනාකම
දත්තවල තාරකා විද්‍යාවට ඇති වටිනාකමයි. පුදුම සහගත, දුර්ලභ, අනපේක්ෂිත හා නව වස්තූන් හෝ සංසිද්ධි සොයා ගැනීම තාරකා විද්‍යාවේ සිත්ගන්නාසුළු හා වටිනා දත්ත වේ.

දත්ත කැණීම
මහා දත්ත යුගයේ දත්ත කැණීම ඉතා වැදගත් වේ. දත්ත කළමනාකරණය, විශ්ලේෂණය සහ තීරණ ගැනීමේ සහාය සඳහා දත්ත සමුදායන් සහ වෙනත් තොරතුරු ගබඩාවල ගබඩා කර ඇති මහා දත්ත වලින් ප්‍රයෝජනවත් තොරතුරු හෝ දැනුම කාර්යක්ෂමව ඵලලදායී ලෙස සොයා ගැනීමට පර්යේෂකයන්ට එය උපකාරී වේ. කැණීම් කරන රටාවන් අනුව, දත්ත කැණීමේ කාර්යයන් ප්‍රධාන වශයෙන් සාරාංශකරණය, වර්ගීකරණය, ප්‍රතිගාමීත්වය, පොකුරුකරණය, ඇසුර සහ කාල ශ්‍රේණි විශ්ලේෂණයන්ගෙන් සමන්විත වේ.

තාරකා විද්‍යාත්මක මහා දත්ත හා සංඛ්‍යාලේඛන සහ ගණිතය
මහා දත්ත විශ්ලේෂණයේ දී සංඛ්‍යාලේඛන අත්‍යවශ්‍ය වේ. මහා දත්ත විද්‍යාවේ සංඛ්‍යාලේඛන භාවිතා කිරීමේ ප්‍රධාන පරමාර්ථය වන්නේ ජනගහනය තක්සේරු කිරීම සඳහා නියැදිය විශ්ලේෂණය කිරීමයි. එහි විශාල පරිමාව නිසා සමස්ත මහා දත්ත නියැදියම විශ්ලේෂණය කළ නොහැක. උසස් පරිගණක පද්ධති භාවිතයෙන් මහා දත්ත නියැදි කට්ටලයන් හදුනා ගනී. මහා දත්ත හැසිරවීමට හා විශ්ලේෂණය කිරීමට එක් උපාය මාර්ගයක් වන්නේ එහි ගණිතමය සම්බන්ධතා පවත්වා ගෙන යන සමස්ත දත්තවල උප කුලකයක් හඳුනා ගැනීමෙන් එය හැකිලීමයි.

තාරකා විද්‍යාත්මක මහා දත්ත රැස් කිරීම සඳහා උපකරණ භාවිතය
තාරකා විද්‍යාත්මක මහා දත්ත එක්රැස් කිරීමේදී නවීන දුරේක්ෂවල කාර්යභාරය සැලකිය යුතු ය. හබල් දුරේක්ෂය සහ LSST දුරේක්ෂය වැනි සුපිරි දුරේක්ෂ මගින් දිනපතා විශාල දත්ත ප්‍රමාණයක් රැස් කරයි. මෑත කාලයේ ගුවන් විදුලි දුරේක්ෂ වේගයෙන් පරිණාමය වී ඇත. ගුවන්විදුලි දුරේක්ෂ මගින් තාරකා භෞතික විද්‍යා ක්ෂේත්‍රයේ ප්‍රශ්න කිහිපයකට පිළිතුරු සපයයි. SKA වැනි විශාල ගුවන් විදුලි දුරේක්ෂ මගින් කළු කුහරවල ස්වභාවය සහ ගුවන් විදුලි තරංග ආයාමයන්හි මන්දාකිණි තක්සේරු කිරීම පිළිබඳව වඩා හොඳ අවබෝධයක් ලබා දෙයි.

යන්ත්‍ර ඉගෙනීම
අප නැවත නැවතත් සාගච්ඡා කල පරිදි, දත්ත පරිමාව වැඩි වන විට විශ්ලේෂණය වඩාත් අපහසු වේ. එබැවින්, දත්ත මත පදනම්ව විද්‍යාත්මක ප්‍රශ්නවලට පිළිතුරු සැපයීමට හැකි වන පරිදි තාරකා විද්‍යාත්මක මහා දත්තවල ප්‍රමාණය හා විවිධත්වය සැකසීම සඳහා නව තාක්ෂණික ක්‍රම දියුණු කිරීම වැදගත් ය. යන්ත්‍ර ඉගෙනීම එවැනි ක්‍රමවේදයක් වන අතර, ආදාන දත්ත (උදා: මන්දාකිණි රූප) සහ ප්‍රතිදානයන් (උදා: මන්දාකිණි වල භෞතික ගුණාංග) අතර සම්බන්ධතාවය සොයා ගැනීමට භාවිතා කළ හැකිය. නිදසුනක් ලෙස, පෘථිවියේ සිට මන්දාකිණි දක්වා දුර, මන්දාකිණි පසුබෑමේ සාපේක්ෂ ප්‍රවේග, රසායනික සංයුතිය ඒවායේ රතු මාරුව මගින් යන්ත ඉගෙනුම් භාවිතයෙන් ලබාගත හැකි ය.

නිගමනය
නුදුරු අනාගතයේ දී දියුණු තාක්ෂනයන් මගින් පෙර නොවූ විරූ දැවැන්ත දත්ත ප්‍රමාණයක් නිපදවනු ඇත. විවිධ සමීක්ෂණ වල දත්ත අද්විතීය වේ. විවිධ ව්‍යාපෘති, විවිධ වේලාවන් සහ විවිධ තරංග ආයාමයන්ගෙන් බෙදා හරින ලද දත්ත කට්ටල ඒකාබද්ධ කිරීම මගින් නව අභියෝග සහ අවස්ථාවන් නිර්මාණය වනු ඇත.

For Further Reading

LSST large telescope – https://www.lsst.org/

Automation offers big solution to big data in astronomy – https://phys.org/news/2015-03-automation-big-solution-astronomy.html

https://en.wikipedia.org/wiki/Big_data?wprov=sfla1

https://en.wikipedia.org/wiki/Data_science?wprov=sfla1

https://en.wikipedia.org/wiki/Machine_learning?wprov=sfla1

-Written by,
Janith Yapa

1 Comment found

Leave a Reply to Pasindu Hatharasinghe Cancel reply

Your email address will not be published. Required fields are marked *